본문 바로가기

카테고리58

[행동데이터분석] 인과-행동 프레임 워크 데이터 분석의 목적 데이터 분석을 하는 목적은 단지 현상 파악에 그치지 않고 ‘인간의 행동’을 변화시키기 위함에 있습니다. 그러려면 무엇이 인간의 행동을 유발하는지 알아야 합니다. 저자는 데이터 분석, 행동 과학적인 사고방식, 인과관계 분석 도구 모음을 결합한 ‘인과-행동 프레임워크’라는 접근법으로 이 목표를 이룰 수 있다고 생각합니다. 저자는 분석의 유형을 3가지로 나눕니다. 기술 분석, 예측, 인과관계. 기술 분석은 설명, description입니다. 예측 분석은 말 그대로 예측, 즉 측정하지 않은 것에 대해 알려줍니다. 마지막 인과관계 분석(causal analytics)은 인과관계를 제공합니다. 잘 알려진 인과관계 분석 도구는 A/B test와 같은 무작위 실험이고, 이런 실험이 불가능한 환경에서.. 2023. 12. 19.
갭이어 회사를 그만두기로 결정한 이후 많은 사람들이 물었다. 이유는 3가지. 그 중 회사와 관련된 것 2가지만 좀 더 자세히 적어본다. 일단 몸이 힘들었다. 건강이 안 좋아지는 것이 느껴졌다. 야근이 많았고 출퇴근 시간이 길었다. 원래 감기는 걸리지도 않던 사람이 어느 순간부터 감기, 몸살을 종종 앓았고, 나중에는 그 주기가 점점 짧아졌다. 말미에는 출근만 해도 힘들다고 느껴졌다. 월요일부터 목요일까지는 거의 무조건 야근했다. 회사에는 아침 9시~9시30분 사이에 출근했고, 퇴근은 9시30분~10시30분 사이에 했다. 금요일은 일부러 7시간~8시간만 일하고 일찍 퇴근했다. 금요일까지 야근으로 집에 늦게 들어가기는 싫었다. 출퇴근은 편도 1시간 30분이 걸렸다. 대중교통을 이용했을 때 이러했고, 나중에 자가용을 .. 2023. 12. 18.
Causal Impact - 인과효과 측정을 위한 방법론 데이터 분석을 하면서 이런 생각이나 궁금증을 가져본 적이 있으실 것 같아요. “지표가 의미 있게 좋아졌는데 이게 정말 이번 제품 개선의 효과라고 볼 수 있을까?”, “분명 기대가 큰 프로젝트였는데 왜 지표 변화는 없다고 나올까?”, “이번에 배포하면서 광고도 같이 집행했는데 성과 분석을 어떻게 하면 좋을까?” 데이터 분석가의 고민 사전에 A/B Test를 통해 제품 개선이나 다른 변경사항에 대한 효과를 확인해보는 것이 가장 좋겠지만, 회사마다 또는 여러 가지 상황에 따라 그렇지 못한 경우도 많습니다. 결국 변화에 대한 효과를 사후에 측정할 수밖에 없는 경우가 발생하는데, 이때 변경 전과 후에 달라지는 부분이 반드시 ‘내가 관심 있는 그것’ 한 가지뿐인 경우는 사실 드뭅니다. 그렇기 때문에 여러 가지 어려.. 2022. 3. 4.
t검정에 대해 알아두면 좋을 것들 z검정에 대한 이야기를 하면서 통계적 가설 검증의 의미와 두 그룹의 비율이나 평균 차이가 우연에 의한 것인지, 의미 있는 차이인지 확인하는 방법에 대해 알아보았습니다. 그런데 우리는 z검정을 사용할 때 수백 건 이상의 데이터가 각 그룹에 존재한다면 '평균값 차이가 정규분포를 따른다'는 가정을 합니다. 만약 검증에 사용할 수 있는 데이터가 적다면 어떻게 해야 할까요? 이럴 때 사용하는 것이 t검정입니다. 아래는 미리 읽어보면 좋은 글들 입니다. z검정, 두 그룹의 비율/평균은 차이가 있는가 (1) z검정, 두 그룹의 비율/평균은 차이가 있는가 (2) z검정, 두 그룹의 비율/평균은 차이가 있는가 (3) 데이터의 수에 따라 형태가 달라지는 t분포 두 검정 방법 모두 '평균값 차이'가 '평균값 차이의 표준오차.. 2022. 2. 24.
[Python] list 형태의 string 값을 list로 변환하기 데이터 전처리 과정에서 list의 모습을 한 string 값을 진짜 list 타입으로 변환하여 처리해야 하는 상황이 간혹 발생합니다. # x의 type은 string x = '["A","B","C","D"]' # 이것을 아래처럼 list type으로 바꿔야 하는 상황 x = ["A", "B", "C", "D"] 몇 가지 간단한 해결 방법을 소개해 드릴게요. 1. 'json' 모듈 import json x = '["A","B","C","D"]' result = json.loads(x) # result # ['A', 'B', 'C', 'D'] 2. AST(Abstract Syntax Trees) 모듈의 literal_eval 함수 import ast x = '["A","B","C","D"]' result =.. 2022. 2. 8.
z 검정, 두 그룹의 비율/평균은 차이가 있는가 (3) 오늘은 '평균 차이' 검증에 대한 이야기입니다. '비율 차이' 검증을 다룬 앞의 글 두 편을 먼저 읽고 오시면 좋습니다. z검정, 두 그룹의 비율/평균은 차이가 있는가 (1) z검정, 두 그룹의 비율/평균은 차이가 있는가 (2) ‘평균 차이’도 z검정으로 평균값에 대해서도 이것이 우연한 차이인지 의미 있는 차이인지 z검정을 통해 확인해 볼 수 있습니다. 예시를 함께 보도록 해요. 아래는 마케팅용 DM을 수신한 그룹과 그렇지 않은 그룹이 어떤 서비스에서 유료 결제를 한 상황을 요약한 표입니다. 평균 결제금액 표준편차 사례수 A. DM 수신 8만원 1.2만원 600 B. DM 미수신 7만원 1.0만원 400 Total 200 800 1,000 평균 차이 z검정에서도 '표준오차'와 '신뢰구간'을 알아야 합니다.. 2022. 2. 4.
z 검정, 두 그룹의 비율/평균은 차이가 있는가 (2) 앞의 글 - z검정, 두 그룹의 비율/평균은 차이가 있는가 (1) 을 먼저 읽고 오시면 좋습니다. ‘비율 차이’의 표준오차 ‘비율 차이’를 검증한다는 건 결국 ‘비율 차이’의 ‘표준오차’와 ‘신뢰구간’이 필요하다는 의미입니다. 그렇다면 ‘비율 차이’의 표준오차는 어떻게 구할 수 있을까요? 이 부분은 수식을 전개하면서 이해하는 것보다 정리된 공식을 먼저 보는 것이 좋을 것 같습니다. 결제 미결제 Total A. DM 수신 126 474 600 B. DM 미수신 74 326 400 Total 200 800 1,000 두 그룹 결제율 차이의 표준오차 $$ =\sqrt{\frac{\mathit{p_{t}}\times (1-\mathit{p_{t}})}{{\mathit{n_{a}}}}+\frac{\mathit{p.. 2022. 1. 26.
반응형