‘차이’ 여부의 판단
데이터 분석 상황에서 상당히 많은 비중을 차지하는 것이 바로 ‘비교’를 하는 일입니다. “지금 얻어진 이 결과가 과거 그때의 결과보다 높은가 낮은가” “서로 다른 조건을 가진 둘 이상의 그룹에서 얻어진 결과들은 서로 차이가 있다고 볼 수 있는가” 이때 (모집단) 데이터의 불규칙성까지 고려하여 '차이가 있다 혹은 없다'고 판단하려면 통계적 가설검정이 필요합니다.
우리는 통계적 가설검정을 통해 우리의 판단이 ‘거의 대부분의 상황’에서 통한다고 말할 수 있다는 자신감을 얻게 됩니다. 오늘은 2개 그룹의 비율 혹은 평균 차이를 검증하는 z검정에 대해 알아보는 시간을 갖도록 하겠습니다. 그전에 먼저 예전에 함께 살펴본 ‘표준오차’를 다시 한번 떠올려 보면 좋을 것 같아요.
표준오차와 신뢰구간 복습
어떤 서비스 데이터를 통해 다음과 같은 결과를 얻었습니다. A 그룹은 프로모션 DM을 받은 유저, B 그룹은 그렇지 못한 유저이고, 각 그룹에서 서비스 유료 결제를 진행한 유저수를 정리해보았습니다. 각 그룹의 결제율과 표준오차, 신뢰구간을 계산해 봅시다.
결제 | 미결제 | Total | |
A. DM 수신 | 126 | 474 | 600 |
B. DM 미수신 | 74 | 326 | 400 |
Total | 200 | 800 | 1,000 |
[ A 그룹 ]
□ 결제율
126 / 600 = 21.0%
□ 표준오차(SE)
□ ±2SE 구간 (신뢰구간)
17.7%(=21%-2x1.66%) ~ 24.3%(=21%+2x1.66%)
[ B 그룹 ]
□ 결제율
74 / 400 = 18.5%
□ 표준오차(SE)
□ ±2SE 구간 (신뢰구간)
14.6%(=18.5%-2x1.94%) ~ 22.4%(=18.5%+2x1.94%)
먼저 A 그룹에 대한 내용을 정리하면 '결제율은 ±2SE 의 범위를 고려하면 17.7%~24.3% 라고 생각하면 거의 틀림없다'라는 결과가 얻어집니다. 이것을 신뢰구간의 개념에 근거하여 좀 더 정확히 표현하면 'p-value가 5%를 밑도는지 여부로 유의수준을 결정하고 가설검정을 하면, 결제율이 17.7%라는 가설 ~ 결제율이 25.7% 라는 가설은 부정할 수 없다'라고 말할 수도 있습니다.
여기서 '평균값 ± 2SE' 는 유의수준(귀무가설을 기각하는(존재하기 어렵다고 판단하는) 적절한 수준)이 5%인, 가장 자주 사용되는 신뢰구간이고, 부정할 수 없는 가설 범위라는 의미로 특별히 '95% 신뢰구간'이라고 부릅니다. 아래 그림에서 노란 점선과 노란 글씨로 표시된 부분이 95% 신뢰구간입니다. (±2SE는 정확하게는 ±1.96SE를 의미합니다)
우리가 정말 알고 싶은 것
이번에는 두 그룹의 신뢰구간 그림을 그려보겠습니다. ±2SE의 신뢰구간으로 표시된 부분이 상당히 많이 겹치는 것을 확인할 수 있습니다. 이런 경우 두 그룹의 비율 차이가 우연한 불규칙성에 의한 것인지 어떤지 한눈에 판단하기는 어려운 상태입니다.
그럼에도 불구하고 A 그룹의 결제율이 높다고 주장하고 싶은(?) 사람은 있을 것입니다. 이런 식의 주장을 할 수 있는 거지요. "A 그룹 결제율이 최대 24.3%라는 것을 부정할 수 없다는 거지? 반대로 B 그룹의 결제율이 최소 14.6% 라는 것도 부정할 수 없는 것이고? 그렇다면 A 그룹의 결제율이 70% 가까이 더 높을 가능성도 부정할 수 없는 거 아닌가?" 이런 의문이 생기는 이유는 각 그룹의 결제율을 별개로 생각했기 때문입니다. 우리가 정말 알고 싶은 사실은 각 그룹의 결제율이 아니라 "어느 그룹의 결제율이 '더' 높은가"에 대한 답입니다.
어떤 불규칙성을 지닌 데이터에서 뭔가의 값을 산출하는 한
거기에는 반드시 표준오차가 존재한다
우리는 앞서 평균의 표준오차, 비율의 표준오차를 구했습니다. 당연히 '평균값 차이'의 표준오차나 '비율 차이'의 표준오차라는 것도 존재합니다. 다수의 데이터를 모으면 정규분포에 수렴하기 때문에 평균값이나 비율 역시 정규분포에 수렴하게 됩니다. 마찬가지로 평균값의 차이나 비율의 차이도 많은 데이터가 모이면 정규분포에 수렴하는 특징을 갖고 있습니다. 따라서 평균과 비율의 차이를 가설검정 할 수도 있고, ±2SE 범위에서 95% 신뢰구간을 구할 수도 있습니다. z검정은 바로 이러한 방식으로 두 그룹의 평균과 비율 차이가 있는지 확인하는 방법입니다. 다음 시간에는 z검정에 대해 좀 더 자세히 알아보도록 하겠습니다. 오늘도 읽어주셔서 감사합니다. 😄
이 글은 <통계의 힘: 실무활용 편 (니시우치히로무 지음)> 을 읽고, 책의 내용 일부와 저의 생각을 담아 적었습니다.
'데이터 분석 > Statistics' 카테고리의 다른 글
z 검정, 두 그룹의 비율/평균은 차이가 있는가 (3) (0) | 2022.02.04 |
---|---|
z 검정, 두 그룹의 비율/평균은 차이가 있는가 (2) (0) | 2022.01.26 |
통계적 가설검정이 유용한 이유 (0) | 2022.01.13 |
통계적 검정에 앞서, '표준오차' 개념 이해하기 (0) | 2022.01.11 |
'분산'과 '표준편차'로 데이터 포착하기 (0) | 2022.01.05 |
댓글