'참값'과 '측정값'
대푯값은 말 그대로 어떤 데이터를 대표하는 값입니다. 자료의 특징을 하나의 수로 표현한 것이지요. 18세기의 수학자들은 데이터의 불규칙성과 평균값의 관계를 끊임없이 연구했습니다. 당시 과학자들은 천문학에 깊은 관심을 보였는데, 측정이 정확하다고 가정할 경우 본래 천체의 위치를 나타내는 '참값'이 어디에 위치하는지를 수학적으로 규명하기 위해 애썼다고 합니다.
보스코비치는 불규칙성을 내포한 여러 데이터에서 '참값'을 계산하려면
'참값'과 '참값에서 벗어난 값'으로 분류해놓고
'참값에서 벗어난 값'을 최소화해야 한다고 생각했다.
위에 정리한 보스코비치의 사고방식, 즉 측정값에 내포되어 있는 참값에서 벗어난 값(차이, 절댓값)의 총합을 최소로 만드는 '신뢰할 수 있는 추측값'은 바로 '중앙값'입니다. 그런데 당시 문제가 되었던 건 이것을 계산할 때 드는 수고였습니다. 예를 들어, 어떤 사물의 높이를 2m 낮게 추측한 경우나 거꾸로 2m 높게 추측한 경우를 똑같이 '2m의 차이'로 생각하는 것은 수학적으로 '절댓값을 계산한다'는 의미입니다. 이런 부분은 우리가 이해하기 어려운 건 아니지만, 수학적으로 처리할 때는 매우 번거로운 특징을 함축하고 있습니다.
이 문제는 르장드르 혹은 가우스에 의해 발견된 '최소제곱법(method of least squares)'으로 해결됩니다. 최소제곱법의 개념은 간단히 설명하자면 '절댓값 대신 제곱을 사용하는 것이 낫다'는 의미입니다. 측정값과 참값의 차이가 플러스든 마이너스든 반드시 '차이의 제곱'은 0 이상의 값이 됩니다. 이것을 모두 더했을 때 가장 작은 값을 '참값'으로 추정한다는 것이 바로 르장드르나 가우스가 발견한 최소제곱법입니다.
가장 뛰어난 추정값, '평균'
평균은 최소제곱법에 기초하여
측정값에 포함되어 있는 차이를 가장 적게 만드는 뛰어난 추정값이다
평균값이 사회 현상이나 인간의 경향성에 관한 '참값'을 발견하는데 본격적으로 활용된 것은 19세기 천문학자 아돌프 케틀레에 의해서입니다. 아돌프 케틀레는 세상에 존재하는 다양한 인간 관련 정보를 모아 분석하면 그 배후에 감춰진 규칙성을 발견할 수 있으리라고 여겼고, 그 연구 성과와 관점을 <인간과 그 능력의 개발에 관한 논의, 사회물리학 시론 >에 담았습니다. 아래는 그 안에 담긴 내용입니다.
범죄자의 교육 상태 | 1828~29년 프랑스 | 1831년~32년 프랑스 | 1833년 벨기에 |
읽고 쓰기 모두 불가능 | 8,969명 | 8,919명 | 1,972명 |
(전체에서 차지하는 비율) | (62%) | (61%) | (61%) |
읽고 쓰기 불완전 | 3,805명 | 3,873명 | 472명 |
(전체에서 차지하는 비율) | (26%) | (27%) | (15%) |
읽고 쓰기 가능 | 1,795명 | 1,774명 | 776명 |
(전체에서 차지하는 비율) | (12%) | (12%) | (24%) |
합계 | 14,569명 | 14,566명 | 3,220명 |
시기나 지역이 달라도 읽고 쓰기가 불가능한 사람이 전체 수감자에서 차지하는 비율은 거의 비슷합니다(61~62%). 그때까지만 해도 범죄를 단지 개인의 의사나 도덕의 문제로만 생각했는데 정작 자료를 모아 평균과 비율을 계산해보니 교육을 받았는지 여부 등 사회적 환경의 영향이 중요하다는 결과가 드러납니다.
개개인의 상태는 천체를 측정한 값의 불규칙성과 같은 것이고,
그 배후에는 여러 요인에 의해 좌우되는 경향성이 존재한다.
케틀레는 그 경향성에 관한 '참값'을 사용하는 것이 좋다고 생각했다
케틀레는 사회과학에 통계학을 적용함으로써 근대 통계학의 아버지 혹은 사회학의 시조로 불리게 됩니다. 평균은 이때부터 사회와 인간에 대한 법칙성을 발견하고 이용하기 위해 본격적으로 사용됩니다.
평균이 중앙값보다 유용한 이유
저자는 평균이 중앙값보다 유용한 이유로 인과관계의 통찰이라는 관점에서 볼 때 평균값이 중앙값보다 '관심이 있는 것'에 대한 직접적인 대답이 되는 경우가 많다는 점을 들고 있습니다. 다시 말해 인과관계를 통찰할 때는 어떤 결과를 나타내는 값의 총량을 최대화하거나 최소화하는 쪽(참고 - 비즈니스에서 가치 있는 데이터 분석)으로 관심이 쏠리기 마련인데 '뭔가의 요인을 바꾸면 결과값의 총량이 어떻게 변화하는가'에 대한 부분에서 중앙값은 속 시원한 대답을 해주지 않는다고 말합니다.
예를 들어, 고객의 매출 증가가 일부의 극단적인 사람에게만 편중되어 있다고 하더라도, 전체적으로 매출이 얼마나 변했는가 하는 '증감'을 아는 데는 중앙값보다 평균이 더 적합하다는 관점입니다. 만약 우리가 중앙값이 어떻게 변화했는지 그 결과를 알게 되더라도 그것이 매출 총량에 미치는 영향이 어떻게 되는지는 계산할 수는 없습니다. 이것은 '평균을 사용하는 것이 추정 방법으로서 적절하다'는 말과 같은 맥락입니다.
오늘은 일상에서, 또 조직에서 데이터를 다룰 때 습관처럼 사용하는 '평균'의 의미와 유래에 대해서 조금 깊게 살펴보았습니다. 생각해보니 우리가 현상을 바라볼 때 평균을 사용하는 것도 이제 200년이 조금 넘었을 뿐이네요. 지금은 우리가 데이터를 읽을 때 당연한 듯 평균을 많이 사용하지만, 시간이 흐르면 데이터를 읽는 일반적인, 대세라고 부를 만한 또 다른 방식이 생길지도 모를 일입니다. 평균의 의미와 역할(?)에 대해서 좀 더 잘 이해했기 때문에 앞으로는 좀 더 적절하게 이 대푯값을 여러 가지 분석 상황에서 더 잘 이용할 수 있을 것 같은 느낌도 드네요. 오늘도 긴 글 읽어주셔서 감사합니다. 🙂
이 글은 <통계의 힘: 실무활용 편 (니시우치히로무 지음)> 을 읽고, 책의 내용 일부와 저의 생각을 담아 적었습니다.
'데이터 분석 > Statistics' 카테고리의 다른 글
통계적 검정에 앞서, '표준오차' 개념 이해하기 (0) | 2022.01.11 |
---|---|
'분산'과 '표준편차'로 데이터 포착하기 (0) | 2022.01.05 |
비즈니스에서 가치 있는 데이터 분석 (0) | 2021.12.24 |
데이터를 '단 하나의 값'으로 이해하려는 성향 - 평균의 함정과 심슨의 역설 (0) | 2021.12.23 |
숫자를 잘 활용하는 방법, '통찰'의 통계학 공부하기 (0) | 2021.12.20 |
댓글