z검정에 대한 이야기를 하면서 통계적 가설 검증의 의미와 두 그룹의 비율이나 평균 차이가 우연에 의한 것인지, 의미 있는 차이인지 확인하는 방법에 대해 알아보았습니다. 그런데 우리는 z검정을 사용할 때 수백 건 이상의 데이터가 각 그룹에 존재한다면 '평균값 차이가 정규분포를 따른다'는 가정을 합니다. 만약 검증에 사용할 수 있는 데이터가 적다면 어떻게 해야 할까요? 이럴 때 사용하는 것이 t검정입니다.
아래는 미리 읽어보면 좋은 글들 입니다.
데이터의 수에 따라 형태가 달라지는 t분포
두 검정 방법 모두 '평균값 차이'가 '평균값 차이의 표준오차'의 몇 배가 되는가 하는 값이 확률적으로 얼마나 존재할 수 없는지를 나타내는 p-value를 구할 수 있습니다. 다만, z검정에서는 분포의 중심에서 ±2SE 이상 벗어날 확률이 5%라는 정규분포를 사용했지만, 수십 건 정도의 데이터에서는 분포가 반드시 정규분포의 모양을 띄지는 않게 됩니다. 그래서 만들어낸 것이 't 분포'입니다.
피셔라는 통계학자는 데이터의 수와 그 데이터의 불규칙성(분산) 사이에 어떠한 관계가 있는지를 수학적으로 정리했고, '카이제곱 분포'라는 것을 사용하면 계산에 사용된 데이터의 수에 따라 표본의 분산이 모집단의 분산과 어느 정도 달라지는지도 계산할 수 있다는 사실도 밝혀냈습니다. 이런 사실들에 근거하여 데이터의 수에 따라 '평균값 차이'가 평균값 차이의 표준오차'의 몇 배 이내로 수용될 확률이 몇 % 인지 계산하기 위해 만들어낸 분포가 t 분포입니다.
t검정과 z검정의 차이
z검정에서는 '평균값 차이'가 '평균값 차이의 표준오차'의 1.96배 이내로 수용될 확률이 95%라는 성질로부터 '95% 신뢰구간'을 만들어냈습니다. 그러나 t 분포에서는 같은 95% 신뢰구간에서도 구간이 약간 더 넓게 나타납니다. 예를 들어 10명의 데이터에서 95% 신뢰구간은 ±1.96SE가 아니라, ±2.31SE 의 형태를 갖습니다. 이것이 20명의 데이터인 경우에는 ±2.10SE, 60명이면 ±2.00SE, 200명이면 ±1.97SE, 그리고 500명이면 정규분포와 마찬가지로 ±1.96SE가 됩니다. 보시는 것처럼 데이터의 수가 많아질수록 정규분포의 형태를 갖게 됩니다. 이것은 결국 데이터의 수가 충분하다면 t검정을 사용한 결과와 z검정을 사용한 결과는 같아짐을 의미합니다.

몇 가지 더 알아둘 내용들
여기까지 보면 두 그룹을 비교하는 통계적 가설 검증은 이제 t검정을 통해 대부분 해결 가능할 것 같은데요, 실제로 t검정을 사용할 때 고려(가정)해야 하는 요소들이 몇 가지 있습니다. 먼저 비교하고자 하는 두 그룹이 완전히 서로 다른 그룹인지, 같은 그룹인데 시기만 달리하여 2번 측정한 결과를 비교하는 것인지에 따라 결과가 조금 달라질 수 있고요, 서로 다른 그룹 그룹을 비교한다고 할 때 각 그룹의 분산이 같은지 다른지에 따라서도 결과에 조금 차이가 날 수 있습니다. 그리고 t검정이 적은 수의 데이터로도 검정이 가능한 방법이지만 정규분포를 만족할 때 사용을 한다는 제약도 있고요. 이런 것들까지 모두 고려한 t검정을 진행하려면 스프레드시트나 엑셀의 수식만으로는 버거운 것이 사실입니다. 통계 관련 프로그램(ex. SPSS)이나 프로그램 언어(ex. Python)의 통계 관련 라이브러리 사용이 필요합니다. 실제 사용 방법에 대해서는 간단한 검색을 통해서도 쉽게 찾아볼 수 있기 때문에 여기서는 더 설명드리지 않아도 될 것 같아요.
지금까지 여러 글을 통해 z검정, t검정에 대한 이야기를 다루면서 데이터 분석 상황에서 자주 발생하는 '비교'에 대한 판단을 어떻게 하면 좀 더 근거를 갖고 할 수 있는지, 그 근거는 어떤 통계적인 이론에 기반한 것인지 알아보는 시간을 가졌습니다. 다음에는 '통계'와 관련된 어떤 이야기를 하면 좋을지 조금 고민이네요. 좀 더 고민해보고 늦지 않게 다시 돌아오도록 하겠습니다. 오늘도 읽어주셔서 감사합니다. 😄
이 글은 <통계의 힘: 실무활용 편 (니시우치히로무 지음)> 을 읽고, 책의 내용 일부와 저의 생각을 담아 적었습니다.
'데이터 분석 > Statistics' 카테고리의 다른 글
z 검정, 두 그룹의 비율/평균은 차이가 있는가 (3) (0) | 2022.02.04 |
---|---|
z 검정, 두 그룹의 비율/평균은 차이가 있는가 (2) (0) | 2022.01.26 |
z검정, 두 그룹의 비율/평균은 차이가 있는가 (1) (0) | 2022.01.19 |
통계적 가설검정이 유용한 이유 (0) | 2022.01.13 |
통계적 검정에 앞서, '표준오차' 개념 이해하기 (0) | 2022.01.11 |
댓글