인과관계 다이어그램을 만들 때는 비즈니스 감각과 상식, 데이터 통찰력이 중요합니다. 인과관계 다이어그램은 다음과 같은 순서로 만듭니다.
- 잠재적으로 포함될 수 있거나 포함되어야 하는 변수 식별
- 변수를 포함해야 하는지 결정
- 필요에 따라 과정 반복
- 다이어그램 단순화
1. 관심 대상의 관계 이해
예시에서는 호텔의 실제 예약 정보 데이터셋을 활용합니다. 관심 있는 문제는 “보증금 유형이 예약 취소율에 영향을 주는가?”입니다. 제일 먼저 할 일은 이 두 데이터의 관계를 확인하는 것입니다.
데이터를 확인해보면 보증금 없는 예약 건수가 압도적으로 많고 취소율은 약 27%입니다. 반면 환불불가 보증금이 있는 예약의 취소율은 약 95%로 매우 높습니다. 따라서 보증금 여부와 취소율은 강한 상관관계를 보여줍니다. 그렇다면 보증금을 없애면 취소율이 무조건 감소할까요? 그렇지 않습니다. 아래 그림처럼 호텔이 ‘취소 가능성이 높은’ 예약에 환불불가 보증금을 거는 경우가 많으며 이 때문에 허위 상관관계가 발생했을 가능성이 높습니다.
이런 행동 가설을 확인하는 가장 좋은 방법은 무작위 실험입니다. 하지만 실험 진행이 어렵다면 인과관계 다이어그램에 포함할 관련 변수를 파악하여 관계를 최대한 명확하게 해야 합니다.
2. 인과관계 다이어그램에 포함할 변수 식별
잠재적인 변수를 식별할 때 사용 가능한 데이터에서 시작하는 경향이 있습니다. 하지만 눈앞에 보이지 않는다는 이유로 가장 중요한 변수를 놓칠 수 있고, 데이터의 변수가 현실 세계에서 일어나는 일을 잘 나타내는지 고려하지 않고 변수를 액면 그대로 받아들일 가능성도 큽니다. 따라서 앞에서 살펴본 ‘행동 모델’의 범주를 중심으로 포함할 변수를 살펴보는 것이 좋습니다.
2-1. 행동
행동 범주에 포함할 변수를 찾을 때 일반적으로 과거의 행동을 고려합니다. 예시에서는 고객이 과거에 예약을 취소한 이력이 있다면 호텔이 NRD를 요구할 가능성이 높다고 볼 수도 있습니다. 이렇듯 고객의 과거 행동은 다이어그램에 포함할 가치가 있는 예측 변수인 경우가 많습니다.
2-2. 의도
의도는 데이터에서 누락되는 경우가 많기 때문에 데이터 분석에서 간과하기 쉽습니다. 그러나 의도는 행동의 중요한 요인이며 고객과 직원 인터뷰로 파악할 수 있습니다. 따라서 의도는 ‘행동 우선’ 접근법을 따르는 이점을 가장 잘 보여주는 사례입니다. 예시에서는 ‘여행 목적’과 ‘취소 사유’를 넣었습니다.
2-3. 인지와 감정
인지적 현상을 식별할 때 (의사) 결정 시점을 떠올려보는 것이 좋습니다. 이때를 중심으로 발생 가능한 고객의 인지 혹은 감정 상태를 떠올려보는 것이 도움이 됩니다. 예시에서 중요한 결정 시점은 예약 취소가 발생한 순간입니다. 이때의 인지/감정 변수로는 ‘보증금에 대한 이해와 인지’, ‘보증금의 매몰 비용 취급 여부’를 넣었습니다.
2-4. 개인 특성 - 성격 특성, 인구통계 변수
인구통계 변수는 그 자체가 아니라 성격 특성과 같은 다른 개인 특성을 나타내는 대체재로서 가치가 있습니다. 인과-행동 사고방식을 고수하려면 인구통계 변수를 보기 전에 먼저 성격 특성을 생각해야 합니다.
‘고객 유형’은 여행 목적이나 취소 사유 외에도 가격 탄력성과 소득과 같은 다른 개인 특성에도 영향을 미칩니다. 예시에서는 ‘고객 유형’, ‘시장 세분 유형’, ‘예약 경로’, ‘출신 국가’, ‘1일 평균 숙박 요금’, ‘어린이 인원수’로 추가되었습니다.
2-5. 비즈니스 행동, 시간 추세
비즈니스 행동(조직 및 임직원이 고객에게 영향을 주고자 하는 모든 행동)은 분석할 때 영향을 크게 주는 경우가 많지만 간과하기 쉽고 통합하기 까다롭습니다. 비즈니스 행동이나 규칙은 2개의 관찰 가능한 변수를 명시적으로 연결하는데 사용될 수 있고, 아직 데이터에 없는 변수를 나타낼 수도 있습니다.
관심있는 변수가 시간과 계절성의 영향을 받을 가능성이 있다면 시간 관련 변수를 추가할 수도 있습니다. 예시에서는 ‘예약 연도’와 ‘예약 분기’ 변수를 추가했습니다.
행동모델을 기반으로 필요한 변수를 정리했다면 그다음은 인과관계 다이어그램에 포함할 변수를 결정할 차례입니다. 여기서 데이터 검증 과정이 필요합니다. 이 과정은 다음글에서 정리하겠습니다.
이 글은 <행동 데이터 분석> 책을 읽고 주요 내용과 제 생각을 정리한 글입니다.
Part 2 인과관계 다이어그램과 교란 해소
Chapter 4 인과관계 다이어그램 만들기 - (1) 변수 식별
'데이터 분석 > Analytics' 카테고리의 다른 글
[행동데이터분석] 인과관계 다이어그램을 통한 데이터 분석의 교란 해소 (0) | 2024.01.02 |
---|---|
[행동데이터분석] 인과관계 다이어그램 그리기 - (2) 변수 검증/확장/단순화 (0) | 2023.12.28 |
[행동데이터분석] 인과관계 다이어그램 (1) | 2023.12.21 |
[행동데이터분석] 행동 데이터를 이해하는 방법 (0) | 2023.12.20 |
[행동데이터분석] 인과-행동 프레임 워크 (1) | 2023.12.19 |
댓글