본문 바로가기

평균6

[행동데이터분석] 부트스트랩을 활용한 불확실성 측정 부트스트랩의 의미 표본의 크기가 작거나 변수의 형태가 이상한 상황에서는 불안정한 결론이 날 수 있습니다. 이럴 때 부트스트랩을 사용하면 데이터가 아무리 작거나 이상하더라도 강건한 결론을 도출할 수 있습니다. 부트스트랩은 난수를 기반으로 서로 조금씩 다른 버전의 데이터를 생성하고 분석하는 방식으로 작동합니다. 부트스트랩의 가장 큰 장점은 적용했을 때 잘못될 일은 절대 없다는 점입니다. 전통적인 통계 방법을 사용하기 좋은 시나리오(크기가 크고 정규분포의 형태를 띄는 데이터)에서는 부트스트랩이 더 느리고 정확도도 조금 떨어질 수 있지만 납득할만한 범위 안에서 결론을 내립니다. 그러나 최상의 시나리오를 제외한 모든 경우에서 부트스트랩은 전통적인 통계 방법을 쉽게 능가합니다. 표본 평균에 대한 부트스트랩 신뢰 구.. 2024. 1. 5.
z검정, 두 그룹의 비율/평균은 차이가 있는가 (1) ‘차이’ 여부의 판단 데이터 분석 상황에서 상당히 많은 비중을 차지하는 것이 바로 ‘비교’를 하는 일입니다. “지금 얻어진 이 결과가 과거 그때의 결과보다 높은가 낮은가” “서로 다른 조건을 가진 둘 이상의 그룹에서 얻어진 결과들은 서로 차이가 있다고 볼 수 있는가” 이때 (모집단) 데이터의 불규칙성까지 고려하여 '차이가 있다 혹은 없다'고 판단하려면 통계적 가설검정이 필요합니다. 우리는 통계적 가설검정을 통해 우리의 판단이 ‘거의 대부분의 상황’에서 통한다고 말할 수 있다는 자신감을 얻게 됩니다. 오늘은 2개 그룹의 비율 혹은 평균 차이를 검증하는 z검정에 대해 알아보는 시간을 갖도록 하겠습니다. 그전에 먼저 예전에 함께 살펴본 ‘표준오차’를 다시 한번 떠올려 보면 좋을 것 같아요. 통계적 검정에 앞서.. 2022. 1. 19.
'분산'과 '표준편차'로 데이터 포착하기 앞에서 우리는 비즈니스에서 ‘관심을 보여야 하는 숫자(outcome)’와 그것을 표현하는 대표적인 방법인 ‘평균’에 대해서 알아봤습니다. 비즈니스에서 가치 있는 데이터 분석 '평균'이 '중앙값', '최빈값'보다 유용한 이유 '평균'은 물론 데이터를 이해하는 데 중요한 값이지만, 현상 파악을 위해서, 보다 명확한 인과관계 통찰을 위해서는 다른 대푯값에 대한 이해도 필요합니다. 오늘은 데이터의 퍼짐 정도, 즉 데이터의 불규칙성을 표현하는 다른 대푯값인 ‘분산’과 ‘표준편차’에 대한 내용을 정리해볼게요. '분산'으로 데이터의 펼쳐진 정도 확인하기 평균이 도출된 방법을 다시 한번 살펴보겠습니다. 평균값은 그것을 참값이라고 가정했을 경우 실제 데이터에 포함되는 '참값'에서 벗어난 값'을 최소화하는 값입니다. 정확.. 2022. 1. 5.
'평균'이 '중앙값', '최빈값'보다 유용한 이유 '참값'과 '측정값' 대푯값은 말 그대로 어떤 데이터를 대표하는 값입니다. 자료의 특징을 하나의 수로 표현한 것이지요. 18세기의 수학자들은 데이터의 불규칙성과 평균값의 관계를 끊임없이 연구했습니다. 당시 과학자들은 천문학에 깊은 관심을 보였는데, 측정이 정확하다고 가정할 경우 본래 천체의 위치를 나타내는 '참값'이 어디에 위치하는지를 수학적으로 규명하기 위해 애썼다고 합니다. 보스코비치는 불규칙성을 내포한 여러 데이터에서 '참값'을 계산하려면 '참값'과 '참값에서 벗어난 값'으로 분류해놓고 '참값에서 벗어난 값'을 최소화해야 한다고 생각했다. 위에 정리한 보스코비치의 사고방식, 즉 측정값에 내포되어 있는 참값에서 벗어난 값(차이, 절댓값)의 총합을 최소로 만드는 '신뢰할 수 있는 추측값'은 바로 '중앙.. 2021. 12. 29.
클러스터링 분석 - (6) 결과 시각화 다차원 데이터, 즉 많은 변수를 사용한 클러스터링 결과를 좀 더 빠르게 확인하기 위해서는 어떻게 해야 할까요? 대부분의 클러스터링 분석 예제를 보면 둘 내지 세 개의 변수를 축으로 산포도(scatter plot) 혹은 3D plot을 그려 클러스터가 어떤 기준으로 묶였는지 확인하는 방법을 제시하고 있습니다. 하지만, 실제 분석 상황에서는 3개 이상의 변수를 활용한 경우가 대부분이고, 클러스터의 수 역시 많아질 수 있기 때문에 산포도를 그려 군집이 어떤 특성을 갖고 있는지 확인하는 방법에는 한계가 존재합니다. 오늘은 기본적인 시각화 방법을 활용하여 클러스터링 결과를 효과적으로 확인하는 방법에 대한 이야기를 해보도록 할게요. 1단계 : 클러스터의 크기 확인 우선 가장 먼저 확인할 부분은 각 클러스터의 크기가.. 2021. 12. 25.
데이터를 '단 하나의 값'으로 이해하려는 성향 - 평균의 함정과 심슨의 역설 저자는 인과관계 통찰을 위한 통계학에 필요한 지식으로 아래 3가지를 언급했습니다. 1. 평균과 비율 등 통계 지표의 본질적인 의미 이해 2. 데이터를 점이 아닌 구간으로 이해 3. '무슨 값을 어떻게 정리해야 하는지' 아는 지혜 오늘은 이 중에서 '데이터를 점이 아닌 구간으로 이해'하는 것과 관련해서 가볍게 살펴보도록 해요. '단 하나의 값'으로 이해하려는 성향 저자는 많은 사람들이 여기저기 흩어져 있는 데이터를 정리할 때 그 한가운데 있으리라고 생각하는 '단 하나의 값'으로 이해하려는 성향을 갖고 있다고 말합니다. 대표적인 것이 우리가 잘 아는 '평균'인데요, 이것은 비단 데이터를 다룰 때만 나타나는 현상은 아닙니다. 사람은 지각 능력과 기억 능력에 한계가 있기 때문에 우리의 뇌는 다양한 정보를 그대로.. 2021. 12. 23.
반응형