본문 바로가기
데이터 분석/Statistics

z 검정, 두 그룹의 비율/평균은 차이가 있는가 (3)

by 친절한 휘저씨 2022. 2. 4.

오늘은 '평균 차이' 검증에 대한 이야기입니다. '비율 차이' 검증을 다룬 앞의 글 두 편을 먼저 읽고 오시면 좋습니다.

z검정, 두 그룹의 비율/평균은 차이가 있는가 (1) 

z검정, 두 그룹의 비율/평균은 차이가 있는가 (2)



‘평균 차이’도 z검정으로

 

평균값에 대해서도 이것이 우연한 차이인지 의미 있는 차이인지 z검정을 통해 확인해 볼 수 있습니다. 예시를 함께 보도록 해요. 

아래는 마케팅용 DM을 수신한 그룹과 그렇지 않은 그룹이 어떤 서비스에서 유료 결제를 한 상황을 요약한 표입니다. 

  평균 결제금액 표준편차 사례수
A. DM 수신 8만원 1.2만원 600
B. DM 미수신 7만원 1.0만원 400
Total 200 800 1,000 

평균 차이 z검정에서도 '표준오차''신뢰구간'을 알아야 합니다. 아래 몇 가지 규칙을 다시 한번 떠올려봅시다.

1. 평균값의 표준오차 = 표준편차를 인원수의 √(제곱근)로 나눈 것

2. 평균값의 분산 = 평균값의 표준오차를 제곱한 것
3. 평균값 차이의 분산 (두 그룹의 평균값의 분산) = 두 그룹 각각의 평균값의 분산을 더한 것 (분산의 가법성에 의해)

그럼 아래와 같이 계산해 볼 수 있습니다.

[ A 그룹 ]

표준오차 = \(12000 / \sqrt{600}\)
평균값의 분산 = 240,000


[ B 그룹 ]

표준오차 = \(10000 / \sqrt{600}\)
평균값의 분산 = 250,000


[ 두 그룹 ]
평균값 차이의 분산 = 490,000
평균값 차이의 표준오차 = \(\sqrt{490000}\) = 700(원)

이 결과를 95% 신뢰구간으로 표현하면 "오차를 고려하더라도 A 그룹의 결제금액이 8,600원(=10,000원-2x700원)~11,400원(=10,000원+2x700원) 정도 높다"라고 표현할 수 있습니다. 다시 말하면 양쪽 5%의 유의수준에서 '두 그룹의 평균 결제금액에 전혀 차이가 없다'는 귀무가설은 기각됩니다. 이것을 좀 더 자세히 살펴볼까요?

 

p-value귀무가설이 얼마만큼 존재할 수 없는지를 나타내는 확률을 의미합니다. p-value를 구하려면 1) 평균값의 차이를 표준오차로 나눈 값(14.29=10,000/700)을 구한 뒤, 2) 정규분포의 중심(평균값)으로부터 '표준편차 x 14.29' 보다 큰 값이 얻어지는 확률을 계산하면 됩니다. 이것은 지난번에 알려드린 것과 같이 엑셀을 열고 이렇게 [ =1-NORM.S.DIST(14.29,TRUE) ] 수식을 입력하면... 0.00000... 으로 무한히 작은 숫자가 나오네요. 바로 이 값이 p-value 입니다. 이 확률값은 5%라는 유의수준보다 작기 때문에 귀무가설을 기각하게 됩니다. 

 

 

 

오늘은 z검정을 통해 평균 차이가 우연에 의한 것인지 의미 있는 차이인지 확인하는 방법에 대해 알아봤습니다. 앞서 비율 차이 검증에서 몇 차례 반복했던 내용이기 때문에 오늘 내용은 좀 더 이해하기 수월했던 것 같아요. 다음 시간에는 z검정만큼이나 자주 사용되는 t검정에 대한 이야기를 다뤄보도록 하겠습니다. 감사합니다. 😀

 

 

 

이 글은 <통계의 힘: 실무활용 편 (니시우치히로무 지음)> 을 읽고, 책의 내용 일부와 저의 생각을 담아 적었습니다. 

 

반응형

댓글