본문 바로가기

데이터 분석31

[행동데이터분석] 인과관계 다이어그램 인과관계 다이어그램 인과관계 다이어그램(causal diagram)은 변수를 상자로 표현하고 변수 사이의 관계를 상자 사이의 화살표로 표현한 그림입니다. 예시에서 '아이스 커피 매출'은 '기온'의 영향을 받고, 이를 그림으로 나타내면 아래와 같습니다. 관찰할 수 없는 변수가 존재하는 경우도 있습니다. 이럴 때는 더 어두운 색의 상자를 사용합니다. 인과관계 다이어그램은 행동 사이의 인과관계를 나타내는 그림입니다. 이때 행동뿐만 아니라 행동에 영향을 미치는 현실 세계의 다른 현상을 나타내기도 합니다. 인과관계 다이어그램으로 현실 세계에 대한 직관과 신념을 표현했을 때 어느 정도의 주관이 담기는 것은 어쩔 수 없습니다. 인과관계 다이어그램은 사고와 분석을 위한 도구이기 때문에 담고 있는 모든 내용이 ‘사실’일.. 2023. 12. 21.
[행동데이터분석] 행동 데이터를 이해하는 방법 행동 모델 인간 행동 이해를 위한 모델 몇 가지 중 하나는 아래와 같습니다. 이 밖에도 다양한 모델이 있지만 이 책에서는 아래 5가지 요소로 구성된 모델을 사용합니다. 개인 특성은 인지와 감정에 영향을 미치고, 이것은 다시 의도에 영향을 줍니다. 의도는 결국 행동에도 영향을 줍니다. 비즈니스 행동(제어 가능한 프로세스, 규칙, 결정)은 개인 특성을 제외한 나머지 세 요소에 영향을 줍니다. 각각의 요소에 대해 좀 더 자세히 알아볼까요? 개인 특성 개인 특성은 분석 기간 동안 드물게 혹은 굉장히 점진적으로만 변하는 모든 개인 정보를 의미합니다. 대표적인 것이 인구통계 변수입니다. 인구 통계 변수가 기여 요소로 작용하면 좀 더 심리적이고 실용적인 개인 특성을 유추하는데 유용하게 사용할 수 있습니다. 따라서 개.. 2023. 12. 20.
[행동데이터분석] 인과-행동 프레임 워크 데이터 분석의 목적 데이터 분석을 하는 목적은 단지 현상 파악에 그치지 않고 ‘인간의 행동’을 변화시키기 위함에 있습니다. 그러려면 무엇이 인간의 행동을 유발하는지 알아야 합니다. 저자는 데이터 분석, 행동 과학적인 사고방식, 인과관계 분석 도구 모음을 결합한 ‘인과-행동 프레임워크’라는 접근법으로 이 목표를 이룰 수 있다고 생각합니다. 저자는 분석의 유형을 3가지로 나눕니다. 기술 분석, 예측, 인과관계. 기술 분석은 설명, description입니다. 예측 분석은 말 그대로 예측, 즉 측정하지 않은 것에 대해 알려줍니다. 마지막 인과관계 분석(causal analytics)은 인과관계를 제공합니다. 잘 알려진 인과관계 분석 도구는 A/B test와 같은 무작위 실험이고, 이런 실험이 불가능한 환경에서.. 2023. 12. 19.
Causal Impact - 인과효과 측정을 위한 방법론 데이터 분석을 하면서 이런 생각이나 궁금증을 가져본 적이 있으실 것 같아요. “지표가 의미 있게 좋아졌는데 이게 정말 이번 제품 개선의 효과라고 볼 수 있을까?”, “분명 기대가 큰 프로젝트였는데 왜 지표 변화는 없다고 나올까?”, “이번에 배포하면서 광고도 같이 집행했는데 성과 분석을 어떻게 하면 좋을까?” 데이터 분석가의 고민 사전에 A/B Test를 통해 제품 개선이나 다른 변경사항에 대한 효과를 확인해보는 것이 가장 좋겠지만, 회사마다 또는 여러 가지 상황에 따라 그렇지 못한 경우도 많습니다. 결국 변화에 대한 효과를 사후에 측정할 수밖에 없는 경우가 발생하는데, 이때 변경 전과 후에 달라지는 부분이 반드시 ‘내가 관심 있는 그것’ 한 가지뿐인 경우는 사실 드뭅니다. 그렇기 때문에 여러 가지 어려.. 2022. 3. 4.
t검정에 대해 알아두면 좋을 것들 z검정에 대한 이야기를 하면서 통계적 가설 검증의 의미와 두 그룹의 비율이나 평균 차이가 우연에 의한 것인지, 의미 있는 차이인지 확인하는 방법에 대해 알아보았습니다. 그런데 우리는 z검정을 사용할 때 수백 건 이상의 데이터가 각 그룹에 존재한다면 '평균값 차이가 정규분포를 따른다'는 가정을 합니다. 만약 검증에 사용할 수 있는 데이터가 적다면 어떻게 해야 할까요? 이럴 때 사용하는 것이 t검정입니다. 아래는 미리 읽어보면 좋은 글들 입니다. z검정, 두 그룹의 비율/평균은 차이가 있는가 (1) z검정, 두 그룹의 비율/평균은 차이가 있는가 (2) z검정, 두 그룹의 비율/평균은 차이가 있는가 (3) 데이터의 수에 따라 형태가 달라지는 t분포 두 검정 방법 모두 '평균값 차이'가 '평균값 차이의 표준오차.. 2022. 2. 24.
[Python] list 형태의 string 값을 list로 변환하기 데이터 전처리 과정에서 list의 모습을 한 string 값을 진짜 list 타입으로 변환하여 처리해야 하는 상황이 간혹 발생합니다. # x의 type은 string x = '["A","B","C","D"]' # 이것을 아래처럼 list type으로 바꿔야 하는 상황 x = ["A", "B", "C", "D"] 몇 가지 간단한 해결 방법을 소개해 드릴게요. 1. 'json' 모듈 import json x = '["A","B","C","D"]' result = json.loads(x) # result # ['A', 'B', 'C', 'D'] 2. AST(Abstract Syntax Trees) 모듈의 literal_eval 함수 import ast x = '["A","B","C","D"]' result =.. 2022. 2. 8.
z 검정, 두 그룹의 비율/평균은 차이가 있는가 (3) 오늘은 '평균 차이' 검증에 대한 이야기입니다. '비율 차이' 검증을 다룬 앞의 글 두 편을 먼저 읽고 오시면 좋습니다. z검정, 두 그룹의 비율/평균은 차이가 있는가 (1) z검정, 두 그룹의 비율/평균은 차이가 있는가 (2) ‘평균 차이’도 z검정으로 평균값에 대해서도 이것이 우연한 차이인지 의미 있는 차이인지 z검정을 통해 확인해 볼 수 있습니다. 예시를 함께 보도록 해요. 아래는 마케팅용 DM을 수신한 그룹과 그렇지 않은 그룹이 어떤 서비스에서 유료 결제를 한 상황을 요약한 표입니다. 평균 결제금액 표준편차 사례수 A. DM 수신 8만원 1.2만원 600 B. DM 미수신 7만원 1.0만원 400 Total 200 800 1,000 평균 차이 z검정에서도 '표준오차'와 '신뢰구간'을 알아야 합니다.. 2022. 2. 4.
반응형