본문 바로가기
데이터 분석/Statistics

데이터를 '단 하나의 값'으로 이해하려는 성향 - 평균의 함정과 심슨의 역설

by 친절한 휘저씨 2021. 12. 23.

저자는 인과관계 통찰을 위한 통계학에 필요한 지식으로 아래 3가지를 언급했습니다. 

1. 평균과 비율 등 통계 지표의 본질적인 의미 이해
2. 데이터를 점이 아닌 구간으로 이해
3. '무슨 값을 어떻게 정리해야 하는지' 아는 지혜

 

오늘은 이 중에서 '데이터를 점이 아닌 구간으로 이해'하는 것과 관련해서 가볍게 살펴보도록 해요. 

 

 

'단 하나의 값'으로 이해하려는 성향

 

저자는 많은 사람들이 여기저기 흩어져 있는 데이터를 정리할 때 그 한가운데 있으리라고 생각하는 '단 하나의 값'으로 이해하려는 성향을 갖고 있다고 말합니다. 대표적인 것이 우리가 잘 아는 '평균'인데요, 이것은 비단 데이터를 다룰 때만 나타나는 현상은 아닙니다. 사람은 지각 능력과 기억 능력에 한계가 있기 때문에 우리의 뇌는 다양한 정보를 그대로 받아들여 저장하지 않고, 구조나 형태를 단순화해서 인지하고 기억합니다. 이러한 경향이 숫자를 바라볼 때도 유사하게 나타난 것이라고 생각됩니다. 하지만, 이런 경향은 때론 자료나 데이터를 읽고 해석할 때 문제를 일으키기도 합니다. 

수많은 데이터를 주의 깊게 관찰하고도 결국 아무것도 얻어내지 못하기보다는 누구나 알기 쉬운 기준점을 파악하는 것이 편리한 일임에는 틀림없다.
그러나 이 단 하나의 점은 엄청난 정보를 무시한 결과이기도 하다. 

 

'평균의 함정'

 

'평균의 함정'은 통계학을 배우지 않았더라도 한 번쯤은 들어본 말일 거예요. 평균값은 주어진 숫자 묶음에서 (특이하게) 큰 값이나 작은 값이 있는 경우, 그 영향을 크게 받기 때문에 주어진 자료의 평균값만 확인하면 자료의 특징을 잘못 이해할 가능성이 있다는 의미입니다. 책에서 예로 든 것처럼, 평균 나이가 똑같이 스무 살인 집단이라고 해도 스무 살 전후의 젊은이만 모였는지, 마흔 살 전후의 부모와 한 살 남짓 영유아가 반반씩 모인 건지 전혀 알 수가 없습니다. 그렇기 때문에 어떤 자료가 주어졌을 때 자료의 요약 수치만 확인하고  활용하기보다는 자료의 분포와 더불어 '중앙값', '최빈값'과 같은 다른 대표값들도 함께 확인할 필요가 있다고 많이들 이야기 합니다. 

 

 

'심슨의 역설'

 

자료, 혹은 데이터를 요약해서 볼 때 나타날 수 있는 문제는 또 있습니다. '심슨의 역설(Simson's paradox)'은 앞서 살펴본 '평균의 함정'처럼 자주 들어보지는 못했을 거예요. 예시와 함께 좀 더 자세히 살펴보도록 하겠습니다.


경제학과에서 900명의 학생을, 심리학과에서 100명의 학생을 모집하는 어느 대학교에
남학생 1,000명과 여학생 1,000명이 지원했을 때, 지원자 수와 합격자 수가 다음과 같다고 하자.


[ 경제학과 ]
- 여학생 합격률 > 남학생 합격률

  지원자 합격자 합격률
남학생 900명 720명 80%
여학생 200명 180명 90%

[ 심리학과 ]
- 여학생 합격률 > 남학생 합격률

  지원자 합격자 합격률
남학생 100명 10명 10.00%
여학생 800명 90명 11.25%

[ 전체 (경제학과 & 심리학과) ]
- 남학생 합격률 > 여학생 합격률

  지원자 합격자 합격률
남학생 1,000명 730명 73%
여학생 1,000명 270명 27%

위의 결과에서 볼 수 있듯이, 각 학과에서 여학생의 합격률이 모두 남학생의 합격률보다 높았기 때문에 전체 학과 기준에서도 여학생의 합격률이 높을 것으로 기대하기 쉽습니다. 하지만, 실제로 확인해보니 남학생의 합격률이 높게 나타납니다. 이처럼 부분에서 성립하던 성질이 부분을 합한 전체에서는 성립하지 않는 것을 '심슨의 역설'이라고 합니다. 심슨의 역설 또한, 데이터를 넓은 범주에서 요약해서 보는 것과 좀 더 세부적으로 살펴보는 것에 차이가 있을 가능성을 짚어주는 개념입니다. 


이렇듯 '단 하나의 점'으로 정보를 집약하는 것이 야기하는 문제들 때문에 통계학은 "데이터는 대체로 어디에서 어디까지의 범위에 속해 있는가" 하는 식의, 구간으로 데이터를 파악하는 방법을 고안해냈다고 합니다.  책에서는 어떻게 하면 데이터를 구간으로 잡을 수 있는지, 왜 이처럼 구간으로 파악하는 것이 중요한지는 이후에 좀 더 자세히 다루고 있습니다. 저도 데이터의 '구간'에 대한 이야기를 전하기 전에 실용 통계학에서 알아야 할 '인과관계'에 대한 이야기, 그리고 앞서도 몇 차례 언급했던 '평균'에 대한 이야기를 좀 더 해볼 것 같아요. 다음 이야기도 잘 정리해서 돌아오도록 하겠습니다. 오늘도 읽어주셔서 감사합니다. 😄

 

 

 

이 글은 <통계의 힘: 실무활용 편 (니시우치히로무 지음)> 을 읽고, 책의 내용 일부와 저의 생각을 담아 적었습니다. 

반응형

댓글