z 검정, 두 그룹의 비율/평균은 차이가 있는가 (3)

오늘은 '평균 차이' 검증에 대한 이야기입니다. '비율 차이' 검증을 다룬 앞의 글 두 편을 먼저 읽고 오시면 좋습니다.

‘평균 차이’도 z검정으로

평균값에 대해서도 이것이 우연한 차이인지 의미 있는 차이인지 z검정을 통해 확인해 볼 수 있습니다. 예시를 함께 보도록 해요.

아래는 마케팅용 DM을 수신한 그룹과 그렇지 않은 그룹이 어떤 서비스에서 유료 결제를 한 상황을 요약한 표입니다.

	평균 결제금액	표준편차	사례수
A. DM 수신	8만원	1.2만원	600
B. DM 미수신	7만원	1.0만원	400
Total	200	800	1,000

평균 차이 z검정에서도 '표준오차'와 '신뢰구간'을 알아야 합니다. 아래 몇 가지 규칙을 다시 한번 떠올려봅시다.

1. 평균값의 표준오차 = 표준편차를 인원수의 √(제곱근)로 나눈 것
2. 평균값의 분산 = 평균값의 표준오차를 제곱한 것
3. 평균값 차이의 분산 (두 그룹의 평균값의 분산) = 두 그룹 각각의 평균값의 분산을 더한 것 (분산의 가법성에 의해)

그럼 아래와 같이 계산해 볼 수 있습니다.

[ A 그룹 ]

표준오차 = \(12000 / \sqrt{600}\)
평균값의 분산 = 240,000

[ B 그룹 ]

표준오차 = \(10000 / \sqrt{600}\)
평균값의 분산 = 250,000

[ 두 그룹 ]
평균값 차이의 분산 = 490,000
평균값 차이의 표준오차 = \(\sqrt{490000}\) = 700(원)

이 결과를 95% 신뢰구간으로 표현하면 "오차를 고려하더라도 A 그룹의 결제금액이 8,600원(=10,000원-2x700원)~11,400원(=10,000원+2x700원) 정도 높다"라고 표현할 수 있습니다. 다시 말하면 양쪽 5%의 유의수준에서 '두 그룹의 평균 결제금액에 전혀 차이가 없다'는 귀무가설은 기각됩니다. 이것을 좀 더 자세히 살펴볼까요?

p-value는 귀무가설이 얼마만큼 존재할 수 없는지를 나타내는 확률을 의미합니다. p-value를 구하려면 1) 평균값의 차이를 표준오차로 나눈 값(14.29=10,000/700)을 구한 뒤, 2) 정규분포의 중심(평균값)으로부터 '표준편차 x 14.29' 보다 큰 값이 얻어지는 확률을 계산하면 됩니다. 이것은 지난번에 알려드린 것과 같이 엑셀을 열고 이렇게 [ =1-NORM.S.DIST(14.29,TRUE) ] 수식을 입력하면... 0.00000... 으로 무한히 작은 숫자가 나오네요. 바로 이 값이 p-value 입니다. 이 확률값은 5%라는 유의수준보다 작기 때문에 귀무가설을 기각하게 됩니다.

오늘은 z검정을 통해 평균 차이가 우연에 의한 것인지 의미 있는 차이인지 확인하는 방법에 대해 알아봤습니다. 앞서 비율 차이 검증에서 몇 차례 반복했던 내용이기 때문에 오늘 내용은 좀 더 이해하기 수월했던 것 같아요. 다음 시간에는 z검정만큼이나 자주 사용되는 t검정에 대한 이야기를 다뤄보도록 하겠습니다. 감사합니다. 😀

이 글은 <통계의 힘: 실무활용 편 (니시우치히로무 지음)> 을 읽고, 책의 내용 일부와 저의 생각을 담아 적었습니다.

'데이터 분석 > Statistics' 카테고리의 다른 글

t검정에 대해 알아두면 좋을 것들 (0)	2022.02.24
z 검정, 두 그룹의 비율/평균은 차이가 있는가 (2) (0)	2022.01.26
z검정, 두 그룹의 비율/평균은 차이가 있는가 (1) (0)	2022.01.19
통계적 가설검정이 유용한 이유 (0)	2022.01.13
통계적 검정에 앞서, '표준오차' 개념 이해하기 (0)	2022.01.11

휘저씨의 데이터 & 커리어 이야기

z 검정, 두 그룹의 비율/평균은 차이가 있는가 (3)

'데이터 분석 > Statistics' 카테고리의 다른 글

댓글

티스토리툴바

z 검정, 두 그룹의 비율/평균은 차이가 있는가 (3)

'데이터 분석 > Statistics' 카테고리의 다른 글

관련글

댓글

티스토리툴바