본문 바로가기

인과관계 다이어그램4

[행동데이터분석] 인과관계 다이어그램을 통한 데이터 분석의 교란 해소 교란 해소 인과관계는 세상을 이해하는 기본적인 개념이기 때문에 직관적으로 이해할 수 있습니다. 하지만 직관과 데이터 분석은 교란 때문에 잘못된 방향으로 흘러갈 수 있습니다. 두 관심 변수의 공동 요인을 제대로 이해하지 못하면 상황을 잘못 해석하게 되고 관심 요인에 대한 회귀 계수는 편향됩니다. 따라서 어떤 변수를 포함하고 어떤 변수를 포함하지 않을지 결정하는 것은 데이터 분석 또는 더 나아가 인과적 사고방식의 교란을 해소하는 가장 중요한 문제입니다. 일단 올바른 인과관계 다이어그램이 있으면 데이터를 보지 않아도 교란의 여부를 파악할 수 있습니다. 여기에 더해 두 가지 교란 해소 규칙인 ‘분리 인과 기준(DCC, disjunctive cause criterion)’과 ‘백도어 기준(BC, backdoor .. 2024. 1. 2.
[행동데이터분석] 인과관계 다이어그램 그리기 - (2) 변수 검증/확장/단순화 3. 데이터 기반으로 변수 검증하기 인과관계 다이어그램에 넣을 변수 식별이 끝나면 관찰 가능한 변수만 남겨 봅니다. 관찰 가능한 변수는 관심 대상인 두 변수와 모두 잠정적으로 연결됩니다. 그러나 어떤 경우에는 예측 변수를 관심 변수 중 하나에만 연결해야 하는 매우 강력한 경험적 근거가 있을 수 있습니다. 하지만 확신이 없다면 두 관심 변수에 모두 연결하는 것이 안전합니다. 3-1. 숫자형 변수 검증 숫자형 변수의 상관계수 행렬을 확인하는 과정입니다. 이진형 변수는 0/1로 변환합니다. 관심 요인 및 효과와의 상관관계 강도를 확인하고 강한 상관관계를 갖는 관계만 남기게 됩니다. 경험에 따르면 관심 요인과 관심 효과 사이의 상관관계와 같은 크기 정도면 ‘강한 상관관계’라고 간주할 수 있습니다. 변수 포함 여.. 2023. 12. 28.
[행동데이터분석] 인과관계 다이어그램 그리기 - (1) 변수 식별 인과관계 다이어그램을 만들 때는 비즈니스 감각과 상식, 데이터 통찰력이 중요합니다. 인과관계 다이어그램은 다음과 같은 순서로 만듭니다. - 잠재적으로 포함될 수 있거나 포함되어야 하는 변수 식별 - 변수를 포함해야 하는지 결정 - 필요에 따라 과정 반복 - 다이어그램 단순화 1. 관심 대상의 관계 이해 예시에서는 호텔의 실제 예약 정보 데이터셋을 활용합니다. 관심 있는 문제는 “보증금 유형이 예약 취소율에 영향을 주는가?”입니다. 제일 먼저 할 일은 이 두 데이터의 관계를 확인하는 것입니다. 데이터를 확인해보면 보증금 없는 예약 건수가 압도적으로 많고 취소율은 약 27%입니다. 반면 환불불가 보증금이 있는 예약의 취소율은 약 95%로 매우 높습니다. 따라서 보증금 여부와 취소율은 강한 상관관계를 보여줍니.. 2023. 12. 28.
[행동데이터분석] 인과관계 다이어그램 인과관계 다이어그램 인과관계 다이어그램(causal diagram)은 변수를 상자로 표현하고 변수 사이의 관계를 상자 사이의 화살표로 표현한 그림입니다. 예시에서 '아이스 커피 매출'은 '기온'의 영향을 받고, 이를 그림으로 나타내면 아래와 같습니다. 관찰할 수 없는 변수가 존재하는 경우도 있습니다. 이럴 때는 더 어두운 색의 상자를 사용합니다. 인과관계 다이어그램은 행동 사이의 인과관계를 나타내는 그림입니다. 이때 행동뿐만 아니라 행동에 영향을 미치는 현실 세계의 다른 현상을 나타내기도 합니다. 인과관계 다이어그램으로 현실 세계에 대한 직관과 신념을 표현했을 때 어느 정도의 주관이 담기는 것은 어쩔 수 없습니다. 인과관계 다이어그램은 사고와 분석을 위한 도구이기 때문에 담고 있는 모든 내용이 ‘사실’일.. 2023. 12. 21.
반응형