본문 바로가기

행동 데이터 분석3

[행동데이터분석] 인과관계 다이어그램을 통한 데이터 분석의 교란 해소 교란 해소 인과관계는 세상을 이해하는 기본적인 개념이기 때문에 직관적으로 이해할 수 있습니다. 하지만 직관과 데이터 분석은 교란 때문에 잘못된 방향으로 흘러갈 수 있습니다. 두 관심 변수의 공동 요인을 제대로 이해하지 못하면 상황을 잘못 해석하게 되고 관심 요인에 대한 회귀 계수는 편향됩니다. 따라서 어떤 변수를 포함하고 어떤 변수를 포함하지 않을지 결정하는 것은 데이터 분석 또는 더 나아가 인과적 사고방식의 교란을 해소하는 가장 중요한 문제입니다. 일단 올바른 인과관계 다이어그램이 있으면 데이터를 보지 않아도 교란의 여부를 파악할 수 있습니다. 여기에 더해 두 가지 교란 해소 규칙인 ‘분리 인과 기준(DCC, disjunctive cause criterion)’과 ‘백도어 기준(BC, backdoor .. 2024. 1. 2.
[행동데이터분석] 인과관계 다이어그램 그리기 - (2) 변수 검증/확장/단순화 3. 데이터 기반으로 변수 검증하기 인과관계 다이어그램에 넣을 변수 식별이 끝나면 관찰 가능한 변수만 남겨 봅니다. 관찰 가능한 변수는 관심 대상인 두 변수와 모두 잠정적으로 연결됩니다. 그러나 어떤 경우에는 예측 변수를 관심 변수 중 하나에만 연결해야 하는 매우 강력한 경험적 근거가 있을 수 있습니다. 하지만 확신이 없다면 두 관심 변수에 모두 연결하는 것이 안전합니다. 3-1. 숫자형 변수 검증 숫자형 변수의 상관계수 행렬을 확인하는 과정입니다. 이진형 변수는 0/1로 변환합니다. 관심 요인 및 효과와의 상관관계 강도를 확인하고 강한 상관관계를 갖는 관계만 남기게 됩니다. 경험에 따르면 관심 요인과 관심 효과 사이의 상관관계와 같은 크기 정도면 ‘강한 상관관계’라고 간주할 수 있습니다. 변수 포함 여.. 2023. 12. 28.
[행동데이터분석] 인과관계 다이어그램 그리기 - (1) 변수 식별 인과관계 다이어그램을 만들 때는 비즈니스 감각과 상식, 데이터 통찰력이 중요합니다. 인과관계 다이어그램은 다음과 같은 순서로 만듭니다. - 잠재적으로 포함될 수 있거나 포함되어야 하는 변수 식별 - 변수를 포함해야 하는지 결정 - 필요에 따라 과정 반복 - 다이어그램 단순화 1. 관심 대상의 관계 이해 예시에서는 호텔의 실제 예약 정보 데이터셋을 활용합니다. 관심 있는 문제는 “보증금 유형이 예약 취소율에 영향을 주는가?”입니다. 제일 먼저 할 일은 이 두 데이터의 관계를 확인하는 것입니다. 데이터를 확인해보면 보증금 없는 예약 건수가 압도적으로 많고 취소율은 약 27%입니다. 반면 환불불가 보증금이 있는 예약의 취소율은 약 95%로 매우 높습니다. 따라서 보증금 여부와 취소율은 강한 상관관계를 보여줍니.. 2023. 12. 28.
반응형