본문 바로가기
데이터 분석/Analytics

[행동데이터분석] 매개효과와 도구 변수

by 친절한 휘저씨 2024. 1. 18.

 

매개효과

조절효과는 이전에 살펴본 것과 같이 관계가 더 강하거나 약한 집단을 드러내면서 인과관계의 블랙박스를 들여다볼 수 있게 합니다. 매개효과사슬에 있는 중간 변수의 존재를 확인할 수 있게 합니다. 매개효과를 파악하고 측정하는 첫 번째 이점은 인과 메커니즘을 이해할 수 있다는 점입니다. 상관관계가 있는 두 변수가 있지만 상관관계가 인과관계인지 확신할 수 없는 경우에 두 변수 사이의 매개변수를 찾고 검증하면 해당 관계가 인과관계라는 것을 강하게 뒷받침할 수 있습니다. 



매개효과 식별

매개변수인과관계 다이어그램의 사슬에서 두 변수 사이에 있는 변수를 의미합니다. 아래 그림에서 ‘매장에 머문 시간’은 ‘놀이 공간 유무’의 효과이며, ‘식료품 구매’의 요인입니다. 따라서 ‘매장에 머문 시간’은 ‘식료품 구매’에 영향을 미치는 ‘놀이 공간 유무’의 영향에 대한 매개변수입니다.

 

 

그런데 ‘놀이 공간의 유무’가 매개변수와 무관하게 ‘식료품 구매’에 직접 영향을 주는 경로도 존재합니다. 이것을 ‘부분 매개효과’라고 합니다. 정확한 매개효과 측정을 위해서는 부분 매개효과와 직접 매개효과를 모두 고려해야 합니다.



매개효과 측정

여러 번의 회귀분석을 통해 매개효과를 측정할 수 있습니다. 

 

- ‘놀이 공간 유무’가 ‘식료품 구매’에 미치는 총 효과

- ‘매장에 머문 시간’에 의해 매개되는 ‘놀이 공간 유무’가 ‘식료품 구매’에 미치는 효과 (간접 효과) 

- ‘매장에 머문 시간’에 의해 매개되지 않는 ‘놀이 공간 유무’가 ‘식료품 구매’에 미치는 효과 (직접 효과)

 

1. 총 효과

 

총효과는 27.6입니다. 매장 이용 시간을 일정하게 유지하지 않았을 때 식료품에 지출되는 금액이 평균 27.6달러 증가합니다.

 

2. 매개된 효과

 

‘머문 시간’에 의해 매개된 ‘식료품 구매’에 대한 ‘놀이 공간 유무’의 영향은 1) ‘놀이 공간 유무’ → ‘머문 시간’의 영향과 2) ‘머문 시간’ → ‘식료품 구매’의 영향을 곱해서 구할 수 있습니다. 

 

1) ‘놀이 공간 유무’ → ‘머문 시간’의 영향은 아래 회귀에서 12.6으로 나타납니다. 

 

 

 

2) ‘머문 시간’ → ‘식료품 구매’의 영향은 아래 회귀식을 사용합니다. ‘놀이 공간 유무’의 경우 두 변수의 교란변수이기 때문에 통제를 위해 회귀식의 설명변수에 포함시켜야 합니다. 

 

 

‘머문 시간’ → ‘식료품 구매’의 영향력은 2.2 , ‘놀이 공간 유무’ → ‘식료품 구매’의 영향력은 0.16 입니다.

 

매개효과는 매개효과 사슬을 따라 구한 두 계수의 곱과 같습니다. (27.5 = 12.6 x 2.2) 매개효과가 총효과에서 차지하는 비율은 99.5%(= 27.5 / 27.6)으로 나타납니다. 

 

3. 직접 효과 

 

직접 효과는 앞서 회귀식에서 구한 ‘놀이 공간 유무’ → ‘식료품 구매’의 영향력인 0.16입니다. 총효과에서 차지하는 비율은 0.5%(= 0.16 / 27.6) 입니다. 



도구 변수

도구 변수(IV, instrumental variable)매개효과의 합리적인 추정치(편향되지 않은 추정치)를 구하고자 할 때 사용되는 방법입니다. 

 

 

위의 그림에서 ‘고객 만족도’는 ‘실험 집단’과 ‘소비 금액’의 매개변수입니다. 여기서 ‘개방성’이라는 개인 특성이 매개변수인 ‘고객 만족도’와 관심 효과인 ‘소비 금액’을 교란하고 있습니다. 이와 같은 상황에서 ‘고객 만족도’가 ‘소비 금액’에 미치는 영향을 도구 변수를 통해 쉽게 구할 수 있습니다. 파이썬에서는 linermodels 패키지를 사용합니다.

 

 

IV2SLS.from_Fomula() 함수의 구문은 ols() 함수 구문과 거의 동일합니다. 관심 효과는 물결표 왼쪽에 작성하고 예측에 사용할 변수는 오른쪽에 사용합니다. 그 이외에 주의사항은 아래와 같습니다.

 

- 예측 변수를 작성할 때 상수(‘1’)를 명시적으로 포함해야 합니다.

- 관심 변수와 관련된 다른 공변량(age, reason)도 대괄호 밖에 포함해야 합니다.

- 1단계 회귀 분석의 공식에는 매개변수, 즉 관심 요인과 도구 변수만 포함하면 됩니다. 

 

결과를 보면 ‘만족도(CSAT)’가 ‘소비금액(M6Spend)’에 미치는 영향은 단위당 2.99달러입니다. 단순한 회귀 결과(아래, 4달러)에 비해 약 1달러 적게 나타납니다.

 



이 글은 <행동 데이터 분석> 책을 읽고 주요 내용과 제 생각을 정리한 글입니다.

Part 5 행동 데이터 분석을 위한 고급 도구

Chapter 12 매개효과와 도구 변수 



반응형

댓글