‘통계적 검정’이 필요한 이유
지난번 글 마지막에는 비교해야 하는 두 그룹 간의 평균값의 신뢰구간(평균값 ± 2SD)이 서로 겹치지 않을 때(아래 그림처럼) , 두 그룹의 조건 차이가 결과의 차이를 만들어 낸다고 의심해볼 만한 여지가 생긴다는 말씀을 드렸습니다.
그러나 대부분의 분석 상황에서는 비교 대상이 되는 그룹 간의 평균값의 차이는 표준편차의 2배 이상 벌어지는 일이 드뭅니다. 그렇기 때문에 통계학에서는 두 그룹의 차이가 표준편차의 2배보다는 적지만 현실적인 의미가 있는, 통계적으로 유의미한 차이(우연한 불규칙성 때문에 생겼다고는 생각하기 어려운 차이)를 데이터 안에서 어떻게 찾아낼 수 있는지를 중요하게 여깁니다. 이것이 ‘통계적 검정’의 개념입니다.
검정력이란 ‘어떤 차이가 존재하고 있다는 가설이 올바를 때
정확히 유의차라고 말할 수 있는 확률’이다
통계적 검정에 앞서, ‘표준오차’ 알아보기
통계적 검정 방법(ex. z검정, t검정)을 다루기 전에 알아야 할 몇 가지 개념에 대해 짚고 넘어갈 필요가 있습니다. 그중 한 가지는 ‘표준오차’입니다. ‘표준오차’는 ‘평균의 표준편차’를 의미합니다. 그냥 ‘표준편차’는 이해했는데 ‘평균의 표준편차’는 또 무슨 의미일까요?
먼저 개념 이해를 위해 아래와 같은 사례를 들어보겠습니다. 어떤 모집단을 구성하는 사람은 총 400명이고, 이 중 4명을 무작위로 선발하여 어떤 서비스에 대한 만족도를 물었습니다. 그리고 이런 작업(4명 무작위 추출 → 평가)을 100번 반복했다고 가정해볼게요. 그러면 우리는 100개의 만족도 점수 평균값을 얻을 수 있습니다. 이 100개 표본으로부터 얻은, 100개의 평균값들의 표준편차가 ‘표준오차’입니다. 자, 그럼 이제 표준오차의 개념에 대해서는 알겠는데, 우리는 왜 이것을 이해해야 할까요?
우리는 여러가지 이유로 모집단 전체의 데이터를 수집하기 어려운 경우에 직면합니다. 20-30대 직장인에게 직무 교육 관련 콘텐츠를 제공하는 서비스가 있다고 가정해볼게요. 예를 들어 지난달 콘텐츠 유료 구매를 한 유저의 평균 구매 금액은 1만원이라고 가정해봅시다. 이 평균 구매 금액은 제품/서비스나 유저의 가입 조건 등에 별다른 조치를 취하지 않더라도 측정 시점에 따라 조금씩 달라질 가능성이 큽니다. 몇 가지 이유를 들 수 있는데요, 먼저 이 평균 구매 금액은 서비스의 타겟인 20-30대 직장인 전부를 대상으로 측정한 것이 아니고 일부를 통해 얻어진 결과입니다. 그렇기 때문에 모집단 내에서의 구매 의향 편차가 클수록 (불규칙성이 커질수록) 표본에서 얻어진 결과 역시 편차가 커질 가능성이 높아집니다. 또 표본의 크기(수집된 데이터의 수)에 따라서도 측정한 평균값이 달라질 가능성이 커질 수도 있습니다.
‘표준오차’의 의미
만약 우리가 1) 수집된 데이터의 수 (표본의 크기), 그리고 2) 그것으로부터 얻어진 결과 (표본의 평균), 또 3) 모집단(원시) 데이터의 불규칙성의 관계에 대해 알게 되면, 우리가 분석을 위해 수집한 일부 결과를 통해 정말 알고자 하는 실제값(모수)을 더 잘 유추해 볼 수 있게 됩니다. 이들의 관계는 아래와 같이 정리해볼 수 있습니다.
$$ \sigma_{\bar{x}} = \frac{\sigma}{\sqrt{\mathit{n}}} $$
\( \sigma_{\bar{x}} \) : 표준오차 (평균의 표준편차)
σ : 모집단 데이터의 표준편차
n : 평균값 계산에 사용된 (표본) 데이터의 수
수식보다도 수식이 의미하는 바를 잘 보시는 것이 좋을 것 같아요. 아래 인용문을 잘 봐주세요.
다수의 데이터에서 얻어진 평균값의 불규칙성(표준오차)은
반드시 원시 데이터의 불규칙성(표준편차)보다 작기 마련이다.
또 값을 구하기 위해 사용한 데이터 수, 즉 표본 크기가 커지면 커질수록 표준오차는 작아진다.
그리고 평균이 아닌, '비율'의 표준오차는 아래와 같이 정리됩니다.
$$ \sigma_{\bar{x}} = \sqrt{\frac{\mathit{p} \times (1-\mathit{p}) }{{\mathit{n}}}} $$
\( \sigma_{\bar{x}} \) : 표준오차 (비율의 표준편차)
p : 비율
n : 평균값 계산에 사용된 (표본) 데이터의 수
‘데이터의 분산 = 비율 x (1 - 비율)’ 이기 때문에 비율의 표준오차 역시 '\(표준편차\) ÷ \(\sqrt{표본크기}\) ' 라는 평균값의 관계식과 같은 의미를 나타내게 됩니다.
오늘은 우선 표준오차의 개념과 의미에 대해서만 알아보았습니다. 많은 분들이 통계학 공부를 시작할 때 ‘표준오차’의 등장 즈음부터 혼란을 겪는 경우가 많습니다. (제가 그랬습니다 😂) 그래서 “이 개념을 왜 알아야 하는지”에 대해서 먼저 정리가 잘 될 필요가 있다고 생각되었는데요, 생각처럼 전달이 잘 되었는지 모르겠습니다. 아마 뒤에 이어서 검정 방법에 대한 이야기까지 한 번 쭉 정리하면 이 부분도 좀 더 이해하기 쉽게 더 다듬어 볼 수 있을 것 같습니다. 다음에는 통계적 가설 검정에 대한 이야기도 좀 더 자세히 정리해 보도록 하겠습니다. 읽어주셔서 감사합니다. 🙂
이 글은 <통계의 힘: 실무활용 편 (니시우치히로무 지음)> 을 읽고, 책의 내용 일부와 저의 생각을 담아 적었습니다.
'데이터 분석 > Statistics' 카테고리의 다른 글
z검정, 두 그룹의 비율/평균은 차이가 있는가 (1) (0) | 2022.01.19 |
---|---|
통계적 가설검정이 유용한 이유 (0) | 2022.01.13 |
'분산'과 '표준편차'로 데이터 포착하기 (0) | 2022.01.05 |
'평균'이 '중앙값', '최빈값'보다 유용한 이유 (0) | 2021.12.29 |
비즈니스에서 가치 있는 데이터 분석 (0) | 2021.12.24 |
댓글