본문 바로가기

데이터 분석/Analytics13

[행동데이터분석] 매개효과와 도구 변수 매개효과 조절효과는 이전에 살펴본 것과 같이 관계가 더 강하거나 약한 집단을 드러내면서 인과관계의 블랙박스를 들여다볼 수 있게 합니다. 매개효과는 사슬에 있는 중간 변수의 존재를 확인할 수 있게 합니다. 매개효과를 파악하고 측정하는 첫 번째 이점은 인과 메커니즘을 이해할 수 있다는 점입니다. 상관관계가 있는 두 변수가 있지만 상관관계가 인과관계인지 확신할 수 없는 경우에 두 변수 사이의 매개변수를 찾고 검증하면 해당 관계가 인과관계라는 것을 강하게 뒷받침할 수 있습니다. 매개효과 식별 매개변수는 인과관계 다이어그램의 사슬에서 두 변수 사이에 있는 변수를 의미합니다. 아래 그림에서 ‘매장에 머문 시간’은 ‘놀이 공간 유무’의 효과이며, ‘식료품 구매’의 요인입니다. 따라서 ‘매장에 머문 시간’은 ‘식료품 .. 2024. 1. 18.
[행동데이터분석] 조절효과 - 세분화, 상호작용, 비선형성 조절효과(moderation)의 (기술적) 정의는 매우 간단합니다. 두 예측 변수 사이의 곱셈 회귀 분석을 의미합니다. 조절효과를 통해 다음과 같은 행동학적 현상을 이해할 수 있습니다. - 세분화(segmentation) - 상호작용(interaction) - 비선형성(nonlinearity) (자기조절 self-moderation) 세분화 고객 세그먼트를 구축하는 것은 마케팅 분석, 더 넓게는 비즈니스 분석의 핵심 작업입니다. 예시로 ‘고객이 매장에 머무르는 시간’에 ‘놀이 공간’이 어떤 영향을 미쳤는지 알아봅시다. 인과관계 다이어그램을 기반으로 회귀분석을 수행하면 평균 인과 효과를 알 수 있습니다. 하지만 평균은 오해의 소지가 있으며 모집단의 세그먼트 사이에 존재하는 차이를 파악하지 못하게 합니다. .. 2024. 1. 17.
[행동데이터분석] 부트스트랩을 활용한 불확실성 측정 부트스트랩의 의미 표본의 크기가 작거나 변수의 형태가 이상한 상황에서는 불안정한 결론이 날 수 있습니다. 이럴 때 부트스트랩을 사용하면 데이터가 아무리 작거나 이상하더라도 강건한 결론을 도출할 수 있습니다. 부트스트랩은 난수를 기반으로 서로 조금씩 다른 버전의 데이터를 생성하고 분석하는 방식으로 작동합니다. 부트스트랩의 가장 큰 장점은 적용했을 때 잘못될 일은 절대 없다는 점입니다. 전통적인 통계 방법을 사용하기 좋은 시나리오(크기가 크고 정규분포의 형태를 띄는 데이터)에서는 부트스트랩이 더 느리고 정확도도 조금 떨어질 수 있지만 납득할만한 범위 안에서 결론을 내립니다. 그러나 최상의 시나리오를 제외한 모든 경우에서 부트스트랩은 전통적인 통계 방법을 쉽게 능가합니다. 표본 평균에 대한 부트스트랩 신뢰 구.. 2024. 1. 5.
[행동데이터분석] 결측 데이터 처리 결측 데이터 처리가 필요한 이유 빅데이터 시대인 만큼 데이터가 풍부하기 때문에 실무에서는 결측 데이터를 사소한 방해꾼으로 여기고 결측 데이터가 있는 행만 필터링하곤 합니다. 안타깝게도 결측 데이터가 있는 행을 필터링하면 분석에 상당한 편향이 생길 수 있습니다. 일반적으로 결측값이 있는 변수의 평균값을 사용하는 등 특정값으로 결측값을 대체하는 방법이 사용되기도 합니다. 하지만 이것도 고유한 편향이 생길 수 있습니다. 여기서는 기존의 방법보다 편향이 훨씬 적거나 심지어 거의 없는 결측 데이터 처리 방법을 다룹니다. 결측 데이터 시각화 데이터셋을 처음 마주했을 때 데이터의 현황을 대략적으로 파악하는 단계를 거칩니다. 이 과정에서 데이터가 ‘어떻게’ 누락되었는지 파악합니다. 첫 번째 결과 테이블에서는 각 변수별.. 2024. 1. 3.
[행동데이터분석] 인과관계 다이어그램을 통한 데이터 분석의 교란 해소 교란 해소 인과관계는 세상을 이해하는 기본적인 개념이기 때문에 직관적으로 이해할 수 있습니다. 하지만 직관과 데이터 분석은 교란 때문에 잘못된 방향으로 흘러갈 수 있습니다. 두 관심 변수의 공동 요인을 제대로 이해하지 못하면 상황을 잘못 해석하게 되고 관심 요인에 대한 회귀 계수는 편향됩니다. 따라서 어떤 변수를 포함하고 어떤 변수를 포함하지 않을지 결정하는 것은 데이터 분석 또는 더 나아가 인과적 사고방식의 교란을 해소하는 가장 중요한 문제입니다. 일단 올바른 인과관계 다이어그램이 있으면 데이터를 보지 않아도 교란의 여부를 파악할 수 있습니다. 여기에 더해 두 가지 교란 해소 규칙인 ‘분리 인과 기준(DCC, disjunctive cause criterion)’과 ‘백도어 기준(BC, backdoor .. 2024. 1. 2.
[행동데이터분석] 인과관계 다이어그램 그리기 - (2) 변수 검증/확장/단순화 3. 데이터 기반으로 변수 검증하기 인과관계 다이어그램에 넣을 변수 식별이 끝나면 관찰 가능한 변수만 남겨 봅니다. 관찰 가능한 변수는 관심 대상인 두 변수와 모두 잠정적으로 연결됩니다. 그러나 어떤 경우에는 예측 변수를 관심 변수 중 하나에만 연결해야 하는 매우 강력한 경험적 근거가 있을 수 있습니다. 하지만 확신이 없다면 두 관심 변수에 모두 연결하는 것이 안전합니다. 3-1. 숫자형 변수 검증 숫자형 변수의 상관계수 행렬을 확인하는 과정입니다. 이진형 변수는 0/1로 변환합니다. 관심 요인 및 효과와의 상관관계 강도를 확인하고 강한 상관관계를 갖는 관계만 남기게 됩니다. 경험에 따르면 관심 요인과 관심 효과 사이의 상관관계와 같은 크기 정도면 ‘강한 상관관계’라고 간주할 수 있습니다. 변수 포함 여.. 2023. 12. 28.
[행동데이터분석] 인과관계 다이어그램 그리기 - (1) 변수 식별 인과관계 다이어그램을 만들 때는 비즈니스 감각과 상식, 데이터 통찰력이 중요합니다. 인과관계 다이어그램은 다음과 같은 순서로 만듭니다. - 잠재적으로 포함될 수 있거나 포함되어야 하는 변수 식별 - 변수를 포함해야 하는지 결정 - 필요에 따라 과정 반복 - 다이어그램 단순화 1. 관심 대상의 관계 이해 예시에서는 호텔의 실제 예약 정보 데이터셋을 활용합니다. 관심 있는 문제는 “보증금 유형이 예약 취소율에 영향을 주는가?”입니다. 제일 먼저 할 일은 이 두 데이터의 관계를 확인하는 것입니다. 데이터를 확인해보면 보증금 없는 예약 건수가 압도적으로 많고 취소율은 약 27%입니다. 반면 환불불가 보증금이 있는 예약의 취소율은 약 95%로 매우 높습니다. 따라서 보증금 여부와 취소율은 강한 상관관계를 보여줍니.. 2023. 12. 28.
반응형