3. 데이터 기반으로 변수 검증하기
인과관계 다이어그램에 넣을 변수 식별이 끝나면 관찰 가능한 변수만 남겨 봅니다. 관찰 가능한 변수는 관심 대상인 두 변수와 모두 잠정적으로 연결됩니다. 그러나 어떤 경우에는 예측 변수를 관심 변수 중 하나에만 연결해야 하는 매우 강력한 경험적 근거가 있을 수 있습니다. 하지만 확신이 없다면 두 관심 변수에 모두 연결하는 것이 안전합니다.
3-1. 숫자형 변수 검증
숫자형 변수의 상관계수 행렬을 확인하는 과정입니다. 이진형 변수는 0/1로 변환합니다. 관심 요인 및 효과와의 상관관계 강도를 확인하고 강한 상관관계를 갖는 관계만 남기게 됩니다.
경험에 따르면 관심 요인과 관심 효과 사이의 상관관계와 같은 크기 정도면 ‘강한 상관관계’라고 간주할 수 있습니다. 변수 포함 여부를 결정하는 ‘크기 정도’ 임곗값은 관심 변수와 최소한 중간 수준의 상관관계가 있는 변수에 초점을 맞추는 것이 좋습니다.
사실 상관계수 행렬은 양방향 화살표를 나타내는 대칭 계수만 제공하지만 상식과 비즈니스 지식을 바탕으로 화살표 방향을 가정할 수 있습니다.
그림에서 절댓값이 0.1 이상인 상관관계만 남기고 나머지를 제외하면 인과관계 다이어그램은 아래 그림처럼 수정할 수 있습니다.
3-2. 범주형 변수 검증
범주형 변수도 숫자형 변수와 같은 방법으로 관계를 분석할 수 있습니다. 하지만 범주형 변수는 피어슨 상관계수를 사용할 수 없기 때문에 크래머 V 계수(Cramer’s V)를 사용할 수 있습니다.
마찬가지로 절댓값이 0.1이상인 상관관계만 남기고 나머지를 제외하면 인과관계 다이어그램은 아래 그림처럼 정리됩니다. 숫자형 변수와 마찬가지로 비즈니스 지식을 기반으로 효과의 방향을 가정합니다.
3-3. 숫자형 변수와 범주형 변수 사이의 관계
숫자형 변수와 범주형 변수 사이의 상관관계를 측정하는 것은 동일한 유형의 변수 사이의 상관관계를 측정하는 것보다 과정이 더 복잡합니다.
숫자형 변수와 범주형 변수 사이에 상관관계가 있다고 말하는 것은 범주형 변수의 범주에 따라 숫자형 변수의 값이 평균적으로 다르다는 것과 같습니다. 이것은 범주형 변수의 범주에 따른 숫자형 변수의 평균을 비교해서 확인할 수 있습니다. 결과를 바탕으로 좀 더 정리를 해보면 아래 그림처럼 정리할 수 있습니다.
4. 인과관계 다이어그램 확장
데이터로 변수 검증을 할 때는 관찰 가능한 변수만 사용했습니다. 관찰 가능하진 않지만 분석에 필요한 변수까지 포함하면 인과관계 다이어그램은 아래 형태로 그려집니다.
관찰되지 않은 변수는 잠재적인 대리 변수를 사용해서 해결할 수도 있습니다. 예를 들어 예시의 인과관계 다이어그램 변수 중 ‘성실성’은 ‘예약 확인 이메일 요청’과 같이 측정 가능한 변수로 대체할 수 있습니다. 만약 예약 확인 이메일을 받는 행동이 취소율과 음의 상관관계가 있다는 것을 확인한다면 이것을 활용할 수 있습니다.
현재 인과관계 다이어그램에서 부모 변수가 없는 변수의 요인을 식별하는 방식으로 인과관계 다이어그램을 확장할 수도 있습니다.
대리변수를 사용하거나 추가 변수를 찾아내는 것 모두 인과관계 다이어그램을 확장하는 방법입니다. 하지만 계속해서 인과관계 다이어그램을 확장하면 새로 추가되는 변수는 관심변수와 점점 더 작은 상관관계를 갖는 경향이 생깁니다. 이럴 경우 정작 중요한 관심 변수의 관계 파악이 어려워질 수 있습니다.
5. 인과관계 다이어그램 단순화
인과관계 다이어그램의 확장을 멈추기로 결정했다면 마지막 단계는 인과관계 다이어그램을 단순화하는 것입니다. 이때 아래와 같은 기준을 따릅니다.
- 중간변수에 관심이 없거나 중간변수가 관찰되지 않은 변수일 경우 사슬 축소
- 변수의 중요도가 낮거나 가독성을 높이기 위해 변수 결합
- 순환이 발견되면 중간 단계를 도입하거나 관계의 중요한 측면을 식별하여 순환을 끊기
단순화한 인과관계 다이어그램은 아래 그림처럼 그릴 수 있습니다.
정리
인과관계 다이어그램 그리기는 실제로 길고 복잡한 과정입니다.
- 관심있는 관계 정의 후 두 변수의 관계(데이터) 확인
- 인과관계 다이어그램에 포함할 변수 정리
- 데이터 검증(상관관계 + 도메인 지식 활용)을 통해 포함할 변수 + 화살표 방향 정하기
- 관찰되지 않은 변수의 대리 변수 추가 + 필요한 경우 관찰 변수의 부모 변수 추가 하며 확장
- 중요도 낮은 변수의 제거 및 통합
처음 이 과정을 수행할 때는 교란요소와 요인의 한 범주에 집중하는 것이 좋습니다. 다행히도 이 과정은 결과가 누적되는 작업이며 누적된 상황을 다른 상황에 적용하기 쉽습니다. 새로 팀원이 합류한다면 축적된 작업을 바탕으로 매우 쉽고 빠르게 지식을 습득할 수 있으며 작업이 중단된 부분부터 다시 시작할 수 있습니다.
다음 글에서는 인과관계 다이어그램을 사용하여 분석에서 교란을 제거하는 방법에 대해 알아보겠습니다.
이 글은 <행동 데이터 분석> 책을 읽고 주요 내용과 제 생각을 정리한 글입니다.
Part 2 인과관계 다이어그램과 교란 해소
Chapter 4 인과관계 다이어그램 만들기 - (2) 변수 검증/확장/단순화
'데이터 분석 > Analytics' 카테고리의 다른 글
[행동데이터분석] 결측 데이터 처리 (0) | 2024.01.03 |
---|---|
[행동데이터분석] 인과관계 다이어그램을 통한 데이터 분석의 교란 해소 (0) | 2024.01.02 |
[행동데이터분석] 인과관계 다이어그램 그리기 - (1) 변수 식별 (1) | 2023.12.28 |
[행동데이터분석] 인과관계 다이어그램 (1) | 2023.12.21 |
[행동데이터분석] 행동 데이터를 이해하는 방법 (0) | 2023.12.20 |
댓글