앞의 글 - z검정, 두 그룹의 비율/평균은 차이가 있는가 (1) 을 먼저 읽고 오시면 좋습니다.
‘비율 차이’의 표준오차
‘비율 차이’를 검증한다는 건 결국 ‘비율 차이’의 ‘표준오차’와 ‘신뢰구간’이 필요하다는 의미입니다. 그렇다면 ‘비율 차이’의 표준오차는 어떻게 구할 수 있을까요? 이 부분은 수식을 전개하면서 이해하는 것보다 정리된 공식을 먼저 보는 것이 좋을 것 같습니다.
결제 | 미결제 | Total | |
A. DM 수신 | 126 | 474 | 600 |
B. DM 미수신 | 74 | 326 | 400 |
Total | 200 | 800 | 1,000 |
두 그룹 결제율 차이의 표준오차
$$ =\sqrt{\frac{\mathit{p_{t}}\times (1-\mathit{p_{t}})}{{\mathit{n_{a}}}}+\frac{\mathit{p_{t}}\times(1-\mathit{p_{t}})}{{\mathit{n_{b}}}}} $$
$$ =\sqrt{0.2\times(1-0.2)\times(\frac{1}{600}+\frac{1}{400})} = 2.58% $$
\(\mathit{p_{t}}\) : 전체 결제율
\(\mathit{n_{a}}\) : A 그룹 표본수
\(\mathit{n_{b}}\) : B 그룹 표본수
표준오차는 데이터의 불규칙성을 표현한 것입니다. 이렇게 데이터의 불규칙성을 표현하는 대푯값 중에 우리가 이미 함께 살펴본 대푯값이 한 가지 더 있습니다. 바로 ‘분산’입니다. 이 분산은 ‘가법성’이라는 성질이 있어서 2개 그룹의 분산은 각 그룹의 분산을 더해서 구하는 것이 가능합니다. (분산의 가법성에 대한 증명은 생략할게요.) 위의 공식은 이런 특징에 근거하여 아래와 같은 과정을 거쳐 도출되었습니다.
1. 각 그룹별로 '결제율의 표준오차'를 제곱하면
2. A, B 그룹 각각 '결제율의 분산'이 만들어짐
3. 이것을 분산의 가법성에 근거하여 더하면
4. ‘두 그룹의 결제율의 차이’의 분산이 만들어짐
5. 이 분산에 루트를 씌우면 '표준오차'가 만들어짐
z검정 결과 해석
표준오차까지 계산했다면, '신뢰구간'은 쉽게 구할 수 있습니다.
A 그룹의 결제율이 2.5% 높다는 '비율 차이'에 대하여 2SE 범위를 고려한다면, 95% 신뢰구간은 아래와 같습니다.
-2.7% (=2.5% - 2 x 2.58%) ~ 7.7% (2.5% + 2 x 2.58%)
이것을 해석하면 "5%라는 유의수준에서 A 그룹이 7.7% 결제율이 높다는 가설도 부정할 수 없지만, 반대로 결제율이 2.7% 낮다는 가설도 부정할 수 없다"는 의미입니다. 즉, "어디가 높고 낮은지 잘 모른다"는 결론이 얻어진 셈이지요.
2개 그룹의 비율이나 평균 차이가
데이터의 크기가 충분할 때, 정규분포를 따른다는 점을 이용하여,
데이터의 불규칙성에 의한 것인지 아닌지 생각하기 위한 방법을
z검정이라고 한다
좀 더 자세히 살펴보기 위해 이번에는 p-value를 한 번 구해보겠습니다.
'두 그룹의 결제율에 전혀 차이가 없다'는 귀무가설에 대한 p-value는 1) 2.5%라는 결제율 차이를 표준오차인 2.58%로 나눈 뒤(=0.968), 2) 이것이 정규분포에서 중심(평균값)으로부터 표준편차가 얼마만큼 벗어난 값인지 계산하여 구할 수 있습니다. 여기서는 '표준편차 x 0.968' 보다 큰 값이 구해질 확률은 17%로 나옵니다. (Excel 에서 다음과 같이 수식을 입력하면 이 확률을 계산할 수 있습니다. [ =1-NORM.S.DIST(0.968,TRUE) ] ) 양측검정임을 가정할 때 '표준편차 x 0.968' 이상 큰 차이가 얻어질 확률은 34%가 되는 셈입니다. 다시 말해 두 그룹의 결제율에 전혀 차이가 없다는 귀무가설에서 약 34%의 확률(p-value)로 '결제율 차이가 우연히 생길 수 있다'는 것입니다. 이것은 유의수준인 5%보다 훨씬 큰 숫자이고, 결국 '두 그룹의 결제율에 유의차가 있는지 아닌지 모른다'는 결론을 얻게 되었습니다.
오늘은 z검정으로 '비율' 차이가 있는지 판단하는 방법에 대해 알아봤습니다. 다음 시간에는 비율이 아닌, '평균' 차이 여부를 z검정을 통해 확인하는 내용을 정리해보도록 할게요. 비율 차이 검증과 원리가 같기 때문에 간단히 살펴보게 될 것 같습니다. 오늘도 읽어주셔서 감사합니다. 😀
이 글은 <통계의 힘: 실무활용 편 (니시우치히로무 지음)> 을 읽고, 책의 내용 일부와 저의 생각을 담아 적었습니다.
'데이터 분석 > Statistics' 카테고리의 다른 글
t검정에 대해 알아두면 좋을 것들 (0) | 2022.02.24 |
---|---|
z 검정, 두 그룹의 비율/평균은 차이가 있는가 (3) (0) | 2022.02.04 |
z검정, 두 그룹의 비율/평균은 차이가 있는가 (1) (0) | 2022.01.19 |
통계적 가설검정이 유용한 이유 (0) | 2022.01.13 |
통계적 검정에 앞서, '표준오차' 개념 이해하기 (0) | 2022.01.11 |
댓글