* 2022.06.01일에 블로그에 작성한 글을 수정한 포스팅입니다.
https://search.shopping.naver.com/book/catalog/32490949965
데이터 분석가의 숫자유감 : 네이버 도서
네이버 도서 상세정보를 제공합니다.
search.shopping.naver.com
최근에 데이터 문해력 관련된 책을 읽고 내용이 너무 좋았어서 관련된 책 더 없나? 하고 찾아보다가 발견했다. 학교 도서관에 없길래 직접 신청해서 대여해야했다. 만화인 줄은 몰랐는데 빌리고 보니 만화였음 .. 덕분에 1시간 정도만에 빠르게 읽었다.
내가 직장인이었다면 .. 더 공감도 되고 재밌었을 것 같은 내용이었다. 아니어도 흥미롭게 읽긴 했음!
내용은 데이터 분석에 대해 잘 모르는 사람들도 쉽게 읽을 것 같은 상식 만화다.
단순 통계적 지식을 업무와 관련해서 설명해 주니 어떤 점들을 의식하면서 분석하고 공부해야 할지방향성에 대한 도움이 많이 됐다.
다른 후기를 보니 데이터를 분석하는 사람보다 분석 보고를 받는 사람들을 대상으로 한 책이라는 말을 봤었는데 확실히 그런 부분이 많았고, 분석가로서도 어떤 점을 신경 써야 하는지 알 수 있어 좋았다. 통계적 내용들을 어떻게 해석하고 이해해야 하는지에 대한 에피소드들이 많아 분석, 통계에 관심 있는 사람이라면 가볍게 읽기 좋은 책 🎻
상관관계와 인과관계
- 상관관계 : 두 변수가 얼마나 상호의존적인지, 상관관계만으로는 원인과 결과를 판단할 수 없음
- 인과관계 : 하나의 요인으로 인해 다른 요인의 수치가 변하는 명확한 원인 결과 관계
내생 변수와 외생 변수를 이해하고 변수의 추이에 영향을 미칠 수 있는 요인들을 꼼꼼히 따져보아야 함!
숫자의 불확실성
- 숫자의 큰 역할 중 하나는 정량적 비교다. 수치 간의 차이가 있을 때, 그 차이가 통계적으로 의미가 있는지, 고려해야 할 전제 조건은 없는지, 그 차이가 여러 측면에서의 차이가 맞는 것인지 여러 도구를 사용해 고민해보아야 한다. ( t-검정, z-검정 등 )
- 수학은 불확실정 위에 쌓아 올려진 학문이고, 통계는 항상 확률과 같이 등장하며, 숫자는 한 번도 절대적인 적 없다.
- 숫자를 제대로 사용하기 위해서는 그 아래 쌓인 많은 가정과 합의를 탐색하고 이해해야 한다.
모수와 표본
- 큰 수의 법칙 : 표본의 수가 충분히 크다면 그때의 표본 평균은 모평균과 충분히 가까워진다
- 많은 데이터 분석은 모수를 근거로 모집단의 형태를 추정하며 '모집단' 자체를 다룰 수 있는 경우는 거의 없다.
- 모집단을 어느 정도 정의한 후, 그에 가까운 표본을 정의하고, 표본을 구하는 방법을 고민한 후, 표본에 대한 데이터 수집
확률과 분포
- conversion(전환) : 고객이 디지털 마케팅의 영향을 받아 구매나 그에 가까운 행동을 하는 것
- 전환율 : 전환 수 / 방문자 수
- 기존 결과가 없는 상태에서 어떤 확률을 구할 때는 사건을 임의로 일으켜 데이터 집합을 만들기도 함
ex ) A/B 테스트
- 확률은 지나간 사건의 결과를 보상해주지 않는다. 동전 앞면이 3번 나왔다고 해도, 다음에 뒷면이 3번 나오지 않음.
실험을 통한 의사 결정
- 실험을 할 때는 실험 대상 외에 모든 변수를 일저하게 유지해야 그에 대한 효과를 파악할 수 있다.
- A/B 테스트의 경우, 임의로 나눈 두 집단의 값이 완전히 동일하지는 않지만 보통 '통계적 유의성'을 미리 파악해 유의하다고 판단되는 선에서 실험 진행해야 한다.
- 실험 대상이 된 데이터는 실험 내용이 섞여 있어 그대로 사용할 수 없다. 실험 이후 실험 기간의 데이터를 그대로 사용한 데이터 분석의 결과는 신뢰도가 낮아질 수밖에 없다.
추세선
- 데이터의 X축이 '일정한' '시간' 단위인 경우 추세선 사용 가능
- 추세선 정확도 획인 ex) R^2 : 추세선과 실제 값이 얼마나 비슷한지 나타냄
시계열 데이터
- 추세 : 장기적으로 늘어나거나 줄어드는 형태
- 주기 : 고정된 시간 단위, 유사한 변동 형태가 나타나는 경우 (형태의 반복)
- 계절성 : 주기적으로 반복되는 때에 어떤 사건이 발생하는 것 (빈도의 반복)
별점의 함정
- 고객의 만족도 → 사용자가 직접 입력하는 데이터 대신 고객의 실제 행동 데이터와 같이 프로그램이 남기는 데이터를 보고 추정할 수 있음 ex) 재구매율, 이탈률
인구통계학 정보의 효용성
- 빠르게 변화하는 현대사회에서 다양성의 범위는 점점 넓어지고 있고, 인구통계학적 데이터와 사람들의 실제 행동 사이의 관련성은 점점 줄어들고 있음.
- 인구통계학적 페르소나보다는 행동 데이터 기반 타겟팅이 유용함
- 인구통계학적 기준으로 만든 타깃 수보다는 줄어들 수 있지만 적중도는 더욱 높아짐.
조건부 확률
- 현재는 다양한 과거에 의한 결과이고, 유사한 모양의 현재라고 하더라도 변화의 양과 방향은 같지 않아 현재라는 평면아래 감춰진 입체적 모습은 각기 다른 형태를 띤다.
'데이터 공부 > 인사이트' 카테고리의 다른 글
리텐션 핵심 정리 (0) | 2025.04.11 |
---|---|
[데벨챌 4기] Week3. 중요한 것은 '많이' 하는 것이 아니라 '필요한' 것을 '정확하게' 하는 것이다 (5) | 2024.11.22 |
[데벨챌 4기] Week2. 경쟁이 아닌 협력이 성장을 이뤄낸다 (2) | 2024.11.16 |
[데벨챌 4기] Week1. 일단 하고 나중에 완벽해지자 (4) | 2024.11.10 |
데이터 문해력을 읽고 - 카시와기 요시키 (4) | 2024.11.06 |