오늘은 '평균 차이' 검증에 대한 이야기입니다. '비율 차이' 검증을 다룬 앞의 글 두 편을 먼저 읽고 오시면 좋습니다.
‘평균 차이’도 z검정으로
평균값에 대해서도 이것이 우연한 차이인지 의미 있는 차이인지 z검정을 통해 확인해 볼 수 있습니다. 예시를 함께 보도록 해요.
아래는 마케팅용 DM을 수신한 그룹과 그렇지 않은 그룹이 어떤 서비스에서 유료 결제를 한 상황을 요약한 표입니다.
평균 결제금액 | 표준편차 | 사례수 | |
A. DM 수신 | 8만원 | 1.2만원 | 600 |
B. DM 미수신 | 7만원 | 1.0만원 | 400 |
Total | 200 | 800 | 1,000 |
평균 차이 z검정에서도 '표준오차'와 '신뢰구간'을 알아야 합니다. 아래 몇 가지 규칙을 다시 한번 떠올려봅시다.
1. 평균값의 표준오차 = 표준편차를 인원수의 √(제곱근)로 나눈 것
2. 평균값의 분산 = 평균값의 표준오차를 제곱한 것
3. 평균값 차이의 분산 (두 그룹의 평균값의 분산) = 두 그룹 각각의 평균값의 분산을 더한 것 (분산의 가법성에 의해)
그럼 아래와 같이 계산해 볼 수 있습니다.
[ A 그룹 ]
표준오차 = \(12000 / \sqrt{600}\)
평균값의 분산 = 240,000
[ B 그룹 ]
표준오차 = \(10000 / \sqrt{600}\)
평균값의 분산 = 250,000
[ 두 그룹 ]
평균값 차이의 분산 = 490,000
평균값 차이의 표준오차 = \(\sqrt{490000}\) = 700(원)
이 결과를 95% 신뢰구간으로 표현하면 "오차를 고려하더라도 A 그룹의 결제금액이 8,600원(=10,000원-2x700원)~11,400원(=10,000원+2x700원) 정도 높다"라고 표현할 수 있습니다. 다시 말하면 양쪽 5%의 유의수준에서 '두 그룹의 평균 결제금액에 전혀 차이가 없다'는 귀무가설은 기각됩니다. 이것을 좀 더 자세히 살펴볼까요?
p-value는 귀무가설이 얼마만큼 존재할 수 없는지를 나타내는 확률을 의미합니다. p-value를 구하려면 1) 평균값의 차이를 표준오차로 나눈 값(14.29=10,000/700)을 구한 뒤, 2) 정규분포의 중심(평균값)으로부터 '표준편차 x 14.29' 보다 큰 값이 얻어지는 확률을 계산하면 됩니다. 이것은 지난번에 알려드린 것과 같이 엑셀을 열고 이렇게 [ =1-NORM.S.DIST(14.29,TRUE) ] 수식을 입력하면... 0.00000... 으로 무한히 작은 숫자가 나오네요. 바로 이 값이 p-value 입니다. 이 확률값은 5%라는 유의수준보다 작기 때문에 귀무가설을 기각하게 됩니다.
오늘은 z검정을 통해 평균 차이가 우연에 의한 것인지 의미 있는 차이인지 확인하는 방법에 대해 알아봤습니다. 앞서 비율 차이 검증에서 몇 차례 반복했던 내용이기 때문에 오늘 내용은 좀 더 이해하기 수월했던 것 같아요. 다음 시간에는 z검정만큼이나 자주 사용되는 t검정에 대한 이야기를 다뤄보도록 하겠습니다. 감사합니다. 😀
이 글은 <통계의 힘: 실무활용 편 (니시우치히로무 지음)> 을 읽고, 책의 내용 일부와 저의 생각을 담아 적었습니다.
'데이터 분석 > Statistics' 카테고리의 다른 글
t검정에 대해 알아두면 좋을 것들 (0) | 2022.02.24 |
---|---|
z 검정, 두 그룹의 비율/평균은 차이가 있는가 (2) (0) | 2022.01.26 |
z검정, 두 그룹의 비율/평균은 차이가 있는가 (1) (0) | 2022.01.19 |
통계적 가설검정이 유용한 이유 (0) | 2022.01.13 |
통계적 검정에 앞서, '표준오차' 개념 이해하기 (0) | 2022.01.11 |
댓글