본문 바로가기

상관계수3

[행동데이터분석] 인과관계 다이어그램 그리기 - (2) 변수 검증/확장/단순화 3. 데이터 기반으로 변수 검증하기 인과관계 다이어그램에 넣을 변수 식별이 끝나면 관찰 가능한 변수만 남겨 봅니다. 관찰 가능한 변수는 관심 대상인 두 변수와 모두 잠정적으로 연결됩니다. 그러나 어떤 경우에는 예측 변수를 관심 변수 중 하나에만 연결해야 하는 매우 강력한 경험적 근거가 있을 수 있습니다. 하지만 확신이 없다면 두 관심 변수에 모두 연결하는 것이 안전합니다. 3-1. 숫자형 변수 검증 숫자형 변수의 상관계수 행렬을 확인하는 과정입니다. 이진형 변수는 0/1로 변환합니다. 관심 요인 및 효과와의 상관관계 강도를 확인하고 강한 상관관계를 갖는 관계만 남기게 됩니다. 경험에 따르면 관심 요인과 관심 효과 사이의 상관관계와 같은 크기 정도면 ‘강한 상관관계’라고 간주할 수 있습니다. 변수 포함 여.. 2023. 12. 28.
이력서/자기소개서 작성팁, 데이터 분석 결과로 짚어보기 채용공고 & 이력서 유사도와 서류전형 결과와의 관계 “왜 누군가는 내가 지원한 채용공고에 서류 합격을 했는데 나는 떨어졌을까?” “그런 사람들과 나는 어떤 점에서 차이가 있었을까?” “내가 부족한 점은 무엇일까?” 구직 활동을 해본 사람이라면 한 번쯤(혹은 자주?) 가져봤을 궁금증입니다. 이 프로젝트는 이런 궁금증에서 출발하게 되었는데요, 서류전형 결과에 영향을 미칠 것으로 예상되는 요인 가운데 이력서와 자기소개서가 주는 영향에 대하여 분석을 해보았습니다. 과연 이력서와 자기소개서를 어떻게 작성해야 서류 합격 확률을 높일 수 있을까요? 분석 개요 가설 채용공고의 내용과 이력서(자기소개서) 내용의 유사도가 서류합격에 유의미한 영향을 미칠 것 (유사도가 높을수록 서류합격 가능성은 높아질 것) 데이터 수집 요.. 2022. 1. 2.
클러스터링 분석 - (4) 변별력 있는 변수 찾기 기계학습(machine learning)에서는 분석 목적과 데이터 특성에 맞는 적절한 알고리즘을 선택하고 매개변수를 잘 조정하는 것도 중요하지만, 좋은 입력 데이터를 만들기 위해 적절한 변수를 찾는 것이 더욱 중요합니다. 해결해야 할 문제와 사용할 데이터의 연관성이 낮으면 아무리 좋은 알고리즘을 적용한다고 할 지라도 좋은 결과를 기대할 수 없을 테니까요. 이것은 예측 분석뿐만 아니라 클러스터링 분석에서도 마찬가지입니다. 이번 시간에는 더 나은 군집화 결과를 만들 수 있도록 변별력 높은 변수를 찾아가는 과정에 대하여 알아보도록 하겠습니다. 너무 많은 변수를 사용할 위험 클러스터링 분석은 데이터 전처리를 위해 사용하기도 하지만 군집화 결과 자체를 현업에 활용하기 위한 목적으로도 많이 사용됩니다. 대표적인 사.. 2021. 12. 21.
반응형