본문 바로가기
데이터 분석/Analytics

[행동데이터분석] 인과관계 다이어그램

by 친절한 휘저씨 2023. 12. 21.

인과관계 다이어그램

인과관계 다이어그램(causal diagram)변수를 상자로 표현하고 변수 사이의 관계를 상자 사이의 화살표로 표현한 그림입니다. 예시에서 '아이스 커피 매출'은 '기온'의 영향을 받고, 이를 그림으로 나타내면 아래와 같습니다.

 

관찰할 수 없는 변수가 존재하는 경우도 있습니다. 이럴 때는 더 어두운 색의 상자를 사용합니다. 

 

인과관계 다이어그램은 행동 사이의 인과관계를 나타내는 그림입니다. 이때 행동뿐만 아니라 행동에 영향을 미치는 현실 세계의 다른 현상을 나타내기도 합니다. 

 

인과관계 다이어그램으로 현실 세계에 대한 직관과 신념을 표현했을 때 어느 정도의 주관이 담기는 것은 어쩔 수 없습니다. 인과관계 다이어그램은 사고와 분석을 위한 도구이기 때문에 담고 있는 모든 내용이 ‘사실’일 필요는 없습니다. 즉, 같은 사건을 보더라도 서로 다른 인과관계 다이어그램을 그릴 수 있습니다. 그래서 포함하거나 제외할 변수와 관계를 결정하는 기준이 사람마다 다를 수 있습니다. 인과관계 다이어그램의 주관성이 결함처럼 보일 수 있지만 사실 이 특성은 버그가 아니라 기능입니다. 인과관계 다이어그램이 불확실성을 갖는 것이 아니라 현실 세계에 이미 존재하는 불확실성을 반영하는 것입니다. 

 

인과관계 다이어그램의 활용

 

인과관계 다이어그램을 구성하는 변수 관계가 완전히 또는 거의 선형일 때 인과관계 다이어그램을 선형대수학적으로 해석합니다. 인과관계 다이어그램을 조작하고 변환할 때 선형대수의 규칙과 도구를 사용하여 합법성을 검증합니다. 이때 선형성을 만족해야 한다는 점이 매우 제한적으로 보일 수 있습니다. 그러나 선형대수의 규칙과 도구는 일반화된 선형 모델(GLM, generalized linear model)이라는 광범위한 모델 범주에 속할 때도 그대로 적용할 수 있습니다. 로지스틱 회귀 모델도 GLM입니다. 이것은 효과 변수가 이진형 변수인 경우에도 인과관계를 다이어그램으로 표현하고 처리할 수 있음을 의미합니다. 

 

인과관계 다이어그램의 구조

 

인과관계 다이어그램은 사슬, 분기, 충돌이라는 세 가지 기본 구조가 있으며, 모든 인과관계 다이어그램은 이러한 기본 구조의 조합으로 표현할 수 있습니다.

 

1. 사슬

 

사슬(chain)은 3개의 변수를 나타내는 3개의 상자와 각 상자를 직선으로 연결하는 2개의 화살표가 있는 인과관계 다이어그램입니다. 사슬은 필요에 따라 축소하거나 확장할 수 있습니다. 그림에서 ‘아이스 커피 매출’은 ‘기온’과 ‘도넛 매출’ 관계의 매개변수(mediator)입니다. 매개변수 값이 변하지 않으면 조상 변수의 값이 변해도 화살표 방향을 따라 자손에 영향을 미치지 못합니다. 

 

2. 분기

 

변수가 둘 이상의 효과를 일으키는 경우 분기(fork)를 생성합니다. 두 변수에 공통된 요인이 있는 상황은 매우 흔하지만 이 두 변수 사이에 상관관계가 생겨서 잠재적으로 문제가 될 수 있습니다. 그림에서 ‘아이스 커피 매출’을 통해 ‘아이스크림 매출’을 예측하는 선형 회귀는 성능이 좋을 수 있습니다. 하지만 상관관계는 인과관계와 같지 않으며 여기서 두 변수 사이의 인과관계 영향은 0이라는 점을 알고 있기 때문에 회귀모델이 계산하는 계수는 정확하지 않습니다. 

 

3. 충돌

 

2개 이상의 변수가 동일한 결과를 낳으면 관계는 충돌(collider)이 생깁니다. 그림에서 ‘여름철 여부’와 ‘기온’ 모두 ‘아이스크림 매출’에 영향을 줍니다. 충돌은 분기와 반대 개념입니다. 사슬, 분기, 충돌은 개별적으로 쓰이기보다는 위의 그림처럼 함께 쓰이는 경우가 많습니다. 

 

인과관계 다이어그램의 변환

 

만약 위의 예시에서 아이스 커피의 종류에 따라 수요를 파악하고 싶다면 아래 그림처럼 아이스 커피 메뉴별로 변수를 ‘분할’할 수 있습니다. 변수를 분할하면 주어진 상황을 더 상세하게 파악할 수 있습니다.

 

아이스 커피의 총매출은 아이스 커피 메뉴별 매출의 총합이기 때문에 변수를 분할해도 선형대수학의 규칙에 어긋나지 않습니다. 

 

분할된 변수는 다시 합쳐질 수 있습니다. 더 일반화하면 동일한 원인과 결과를 가진 변수를  집계(aggregating)할 수 있습니다. 아래 예시에서 ‘나이’와 ‘성별’은 동일한 인과관계를 가지기 때문에 이것을 ‘인구통계학적 특성’이라는 변수로 집계할 수 있습니다. 

 

 

주의할 것은 모든 변수는 분할할 수 있지만 집계할 때는 직접 및 간점 관계가 동일한 변수만 집계할 수 있다는 점입니다. 

 

순환 관리

현실 세계에는 서로가 서로에게 인과적으로 영향을 미치는 변수가 있습니다. 이러한 유형의 인과관계 다이어그램을 순환(cycle)이라고 부릅니다. 순환은 연구와 관리가 복잡한 상황을 야기하기 때문에 이를 피하기 위한 두 가지 경험 법칙을 기억해 두면 좋습니다.

 

첫 번째는 타이밍입니다. 대부분의 경우 한 변수가 다른 변수에 영향을 미치는 데 어느 정도 시간이 걸립니다. 따라서 순환을 끊고 순환이 없는 인과관계 다이어그램을 그리는 방법입니다. 두 번째는 인과관계 다이어그램을 단순화하고 가장 관심이 있는 인과관계 경로를 따라가는 화살표만 유지하는 것입니다. 피드백 효과(변수가 방금 자신에게 영향을 미친 변수에 영향을 미치는 경우)는 일반적으로 영향이 적으며 심지어 다른 변수가 직전에 준 영향에 비해 훨씬 작기 때문에 그 효과의 근사값으로 무시할 수 있습니다. 

 

인과관계 다이어그램의 역할

사실 몇 가지 예외를 제외하면 상관관계는 인과관계를 의미합니다. 두 변수 사이의 체계적인 관계를 관찰하고 그 관계가 우연의 일치 때문일 가능성을 배제한다면 이 관계를 유발하는 요인이 반드시 존재해야 합니다. 단순한 상관관계는 해결되지 않은 인과 구조를 의미합니다. 다만 교란 요소가 분석에 편향을 유발할 수 있기 때문에 상관관계는 인과관계가 아닙니다. 편향되지 않은 회귀로 가는 첫 번째 단계가 인과관계 다이어그램입니다. 이 도구를 사용하여 변수 사이의 인과관계뿐만 아니라 현실 세계의 인과관계를 나타낼 수 있습니다. 또한 직관과 전문 지식과 관찰된 데이터를 연결할 수 있습니다.

 

 

 

이 글은 <행동 데이터 분석> 책을 읽고 주요 내용과 제 생각을 정리한 글입니다.

Part 2 인과관계 다이어그램과 교란 해소

Chapter 3 인과관계 다이어그램의 개요 

 

 

반응형

댓글