본문 바로가기

z검정5

t검정에 대해 알아두면 좋을 것들 z검정에 대한 이야기를 하면서 통계적 가설 검증의 의미와 두 그룹의 비율이나 평균 차이가 우연에 의한 것인지, 의미 있는 차이인지 확인하는 방법에 대해 알아보았습니다. 그런데 우리는 z검정을 사용할 때 수백 건 이상의 데이터가 각 그룹에 존재한다면 '평균값 차이가 정규분포를 따른다'는 가정을 합니다. 만약 검증에 사용할 수 있는 데이터가 적다면 어떻게 해야 할까요? 이럴 때 사용하는 것이 t검정입니다. 아래는 미리 읽어보면 좋은 글들 입니다. z검정, 두 그룹의 비율/평균은 차이가 있는가 (1) z검정, 두 그룹의 비율/평균은 차이가 있는가 (2) z검정, 두 그룹의 비율/평균은 차이가 있는가 (3) 데이터의 수에 따라 형태가 달라지는 t분포 두 검정 방법 모두 '평균값 차이'가 '평균값 차이의 표준오차.. 2022. 2. 24.
z 검정, 두 그룹의 비율/평균은 차이가 있는가 (3) 오늘은 '평균 차이' 검증에 대한 이야기입니다. '비율 차이' 검증을 다룬 앞의 글 두 편을 먼저 읽고 오시면 좋습니다. z검정, 두 그룹의 비율/평균은 차이가 있는가 (1) z검정, 두 그룹의 비율/평균은 차이가 있는가 (2) ‘평균 차이’도 z검정으로 평균값에 대해서도 이것이 우연한 차이인지 의미 있는 차이인지 z검정을 통해 확인해 볼 수 있습니다. 예시를 함께 보도록 해요. 아래는 마케팅용 DM을 수신한 그룹과 그렇지 않은 그룹이 어떤 서비스에서 유료 결제를 한 상황을 요약한 표입니다. 평균 결제금액 표준편차 사례수 A. DM 수신 8만원 1.2만원 600 B. DM 미수신 7만원 1.0만원 400 Total 200 800 1,000 평균 차이 z검정에서도 '표준오차'와 '신뢰구간'을 알아야 합니다.. 2022. 2. 4.
z 검정, 두 그룹의 비율/평균은 차이가 있는가 (2) 앞의 글 - z검정, 두 그룹의 비율/평균은 차이가 있는가 (1) 을 먼저 읽고 오시면 좋습니다. ‘비율 차이’의 표준오차 ‘비율 차이’를 검증한다는 건 결국 ‘비율 차이’의 ‘표준오차’와 ‘신뢰구간’이 필요하다는 의미입니다. 그렇다면 ‘비율 차이’의 표준오차는 어떻게 구할 수 있을까요? 이 부분은 수식을 전개하면서 이해하는 것보다 정리된 공식을 먼저 보는 것이 좋을 것 같습니다. 결제 미결제 Total A. DM 수신 126 474 600 B. DM 미수신 74 326 400 Total 200 800 1,000 두 그룹 결제율 차이의 표준오차 $$ =\sqrt{\frac{\mathit{p_{t}}\times (1-\mathit{p_{t}})}{{\mathit{n_{a}}}}+\frac{\mathit{p.. 2022. 1. 26.
z검정, 두 그룹의 비율/평균은 차이가 있는가 (1) ‘차이’ 여부의 판단 데이터 분석 상황에서 상당히 많은 비중을 차지하는 것이 바로 ‘비교’를 하는 일입니다. “지금 얻어진 이 결과가 과거 그때의 결과보다 높은가 낮은가” “서로 다른 조건을 가진 둘 이상의 그룹에서 얻어진 결과들은 서로 차이가 있다고 볼 수 있는가” 이때 (모집단) 데이터의 불규칙성까지 고려하여 '차이가 있다 혹은 없다'고 판단하려면 통계적 가설검정이 필요합니다. 우리는 통계적 가설검정을 통해 우리의 판단이 ‘거의 대부분의 상황’에서 통한다고 말할 수 있다는 자신감을 얻게 됩니다. 오늘은 2개 그룹의 비율 혹은 평균 차이를 검증하는 z검정에 대해 알아보는 시간을 갖도록 하겠습니다. 그전에 먼저 예전에 함께 살펴본 ‘표준오차’를 다시 한번 떠올려 보면 좋을 것 같아요. 통계적 검정에 앞서.. 2022. 1. 19.
통계적 검정에 앞서, '표준오차' 개념 이해하기 ‘통계적 검정’이 필요한 이유 지난번 글 마지막에는 비교해야 하는 두 그룹 간의 평균값의 신뢰구간(평균값 ± 2SD)이 서로 겹치지 않을 때(아래 그림처럼) , 두 그룹의 조건 차이가 결과의 차이를 만들어 낸다고 의심해볼 만한 여지가 생긴다는 말씀을 드렸습니다. 그러나 대부분의 분석 상황에서는 비교 대상이 되는 그룹 간의 평균값의 차이는 표준편차의 2배 이상 벌어지는 일이 드뭅니다. 그렇기 때문에 통계학에서는 두 그룹의 차이가 표준편차의 2배보다는 적지만 현실적인 의미가 있는, 통계적으로 유의미한 차이(우연한 불규칙성 때문에 생겼다고는 생각하기 어려운 차이)를 데이터 안에서 어떻게 찾아낼 수 있는지를 중요하게 여깁니다. 이것이 ‘통계적 검정’의 개념입니다. 검정력이란 ‘어떤 차이가 존재하고 있다는 가설이.. 2022. 1. 11.
반응형