본문 바로가기

통계9

z 검정, 두 그룹의 비율/평균은 차이가 있는가 (3) 오늘은 '평균 차이' 검증에 대한 이야기입니다. '비율 차이' 검증을 다룬 앞의 글 두 편을 먼저 읽고 오시면 좋습니다. z검정, 두 그룹의 비율/평균은 차이가 있는가 (1) z검정, 두 그룹의 비율/평균은 차이가 있는가 (2) ‘평균 차이’도 z검정으로 평균값에 대해서도 이것이 우연한 차이인지 의미 있는 차이인지 z검정을 통해 확인해 볼 수 있습니다. 예시를 함께 보도록 해요. 아래는 마케팅용 DM을 수신한 그룹과 그렇지 않은 그룹이 어떤 서비스에서 유료 결제를 한 상황을 요약한 표입니다. 평균 결제금액 표준편차 사례수 A. DM 수신 8만원 1.2만원 600 B. DM 미수신 7만원 1.0만원 400 Total 200 800 1,000 평균 차이 z검정에서도 '표준오차'와 '신뢰구간'을 알아야 합니다.. 2022. 2. 4.
z 검정, 두 그룹의 비율/평균은 차이가 있는가 (2) 앞의 글 - z검정, 두 그룹의 비율/평균은 차이가 있는가 (1) 을 먼저 읽고 오시면 좋습니다. ‘비율 차이’의 표준오차 ‘비율 차이’를 검증한다는 건 결국 ‘비율 차이’의 ‘표준오차’와 ‘신뢰구간’이 필요하다는 의미입니다. 그렇다면 ‘비율 차이’의 표준오차는 어떻게 구할 수 있을까요? 이 부분은 수식을 전개하면서 이해하는 것보다 정리된 공식을 먼저 보는 것이 좋을 것 같습니다. 결제 미결제 Total A. DM 수신 126 474 600 B. DM 미수신 74 326 400 Total 200 800 1,000 두 그룹 결제율 차이의 표준오차 $$ =\sqrt{\frac{\mathit{p_{t}}\times (1-\mathit{p_{t}})}{{\mathit{n_{a}}}}+\frac{\mathit{p.. 2022. 1. 26.
z검정, 두 그룹의 비율/평균은 차이가 있는가 (1) ‘차이’ 여부의 판단 데이터 분석 상황에서 상당히 많은 비중을 차지하는 것이 바로 ‘비교’를 하는 일입니다. “지금 얻어진 이 결과가 과거 그때의 결과보다 높은가 낮은가” “서로 다른 조건을 가진 둘 이상의 그룹에서 얻어진 결과들은 서로 차이가 있다고 볼 수 있는가” 이때 (모집단) 데이터의 불규칙성까지 고려하여 '차이가 있다 혹은 없다'고 판단하려면 통계적 가설검정이 필요합니다. 우리는 통계적 가설검정을 통해 우리의 판단이 ‘거의 대부분의 상황’에서 통한다고 말할 수 있다는 자신감을 얻게 됩니다. 오늘은 2개 그룹의 비율 혹은 평균 차이를 검증하는 z검정에 대해 알아보는 시간을 갖도록 하겠습니다. 그전에 먼저 예전에 함께 살펴본 ‘표준오차’를 다시 한번 떠올려 보면 좋을 것 같아요. 통계적 검정에 앞서.. 2022. 1. 19.
'평균'이 '중앙값', '최빈값'보다 유용한 이유 '참값'과 '측정값' 대푯값은 말 그대로 어떤 데이터를 대표하는 값입니다. 자료의 특징을 하나의 수로 표현한 것이지요. 18세기의 수학자들은 데이터의 불규칙성과 평균값의 관계를 끊임없이 연구했습니다. 당시 과학자들은 천문학에 깊은 관심을 보였는데, 측정이 정확하다고 가정할 경우 본래 천체의 위치를 나타내는 '참값'이 어디에 위치하는지를 수학적으로 규명하기 위해 애썼다고 합니다. 보스코비치는 불규칙성을 내포한 여러 데이터에서 '참값'을 계산하려면 '참값'과 '참값에서 벗어난 값'으로 분류해놓고 '참값에서 벗어난 값'을 최소화해야 한다고 생각했다. 위에 정리한 보스코비치의 사고방식, 즉 측정값에 내포되어 있는 참값에서 벗어난 값(차이, 절댓값)의 총합을 최소로 만드는 '신뢰할 수 있는 추측값'은 바로 '중앙.. 2021. 12. 29.
비즈니스에서 가치 있는 데이터 분석 무슨 값을 어떻게 정리해야 하는가 인과관계의 통찰에서 가장 중요한 것은 '무슨 값을 어떻게 정리해야 하는지' 아는 지혜라고 저자는 말합니다. 그리고 이것은 실용 통계학에서 반드시 알아야 할 부분이라고 강조하고 있어요. 여기서 '인과관계'란 어떤 원인에 의해 결과가 어떻게 변하는지를 알아내는 것입니다. 이런 인과관계를 파악하기 위해 회사에서는 사업과 관련된 여러 가지 숫자들을 고객의 특징에 따라 나누어 분석합니다. 이런 결과를 누구나 한 번쯤은 보았거나 직접 만들어봤을 거예요. 하지만, 고객의 특징(ex. 성, 연령, 가입시점 등)이나 분석하고자 하는 숫자를 쪼개어 볼 만한 또 다른 기준(ex. 제공하는 제품/서비스 종류 등)은 실로 굉장히 다양합니다. 그렇기 때문에 사람들은 이 모든 항목별로 보고자 하는.. 2021. 12. 24.
데이터를 '단 하나의 값'으로 이해하려는 성향 - 평균의 함정과 심슨의 역설 저자는 인과관계 통찰을 위한 통계학에 필요한 지식으로 아래 3가지를 언급했습니다. 1. 평균과 비율 등 통계 지표의 본질적인 의미 이해 2. 데이터를 점이 아닌 구간으로 이해 3. '무슨 값을 어떻게 정리해야 하는지' 아는 지혜 오늘은 이 중에서 '데이터를 점이 아닌 구간으로 이해'하는 것과 관련해서 가볍게 살펴보도록 해요. '단 하나의 값'으로 이해하려는 성향 저자는 많은 사람들이 여기저기 흩어져 있는 데이터를 정리할 때 그 한가운데 있으리라고 생각하는 '단 하나의 값'으로 이해하려는 성향을 갖고 있다고 말합니다. 대표적인 것이 우리가 잘 아는 '평균'인데요, 이것은 비단 데이터를 다룰 때만 나타나는 현상은 아닙니다. 사람은 지각 능력과 기억 능력에 한계가 있기 때문에 우리의 뇌는 다양한 정보를 그대로.. 2021. 12. 23.
숫자를 잘 활용하는 방법, '통찰'의 통계학 공부하기 업무와 관련된 책들을 가끔 읽고 있는데요, 소개해 드릴 만한 좋은 책이 있어서 앞으로 이 책에서 얻은 지식과 저의 생각을 꾸준히 공유해 보면 좋을 것 같습니다. 통계의 힘: 실무활용 편 (니시우치 히로무 지음) '통계학'을 다루니까 재미없고 딱딱해 보일 수 있지만, 잘 몰랐던 사실, 헷갈렸던 부분이 해소되는 즐거움을 주는 책이고, 읽다 보면 무릎을 탁 치는 순간이 여러 번 오는 신통한 책입니다. (그럼에도 불구하고 책이 다루는 내용이 다소 딱딱한 부분은 피하기 어렵습니다. 😅) 제목에서 엿볼 수 있듯이 이론보다는 ‘활용’의 관점에서 통계학의 여러 가지 개념들을 알려주는 책입니다. 그렇기 때문에 숫자를 자주 다루거나 통계 관련 지식을 업무에 활용해야 하는 분들께서 차근차근 읽고 개념을 다지기에 매우 좋은 .. 2021. 12. 20.
반응형