본문 바로가기

데이터6

'분산'과 '표준편차'로 데이터 포착하기 앞에서 우리는 비즈니스에서 ‘관심을 보여야 하는 숫자(outcome)’와 그것을 표현하는 대표적인 방법인 ‘평균’에 대해서 알아봤습니다. 비즈니스에서 가치 있는 데이터 분석 '평균'이 '중앙값', '최빈값'보다 유용한 이유 '평균'은 물론 데이터를 이해하는 데 중요한 값이지만, 현상 파악을 위해서, 보다 명확한 인과관계 통찰을 위해서는 다른 대푯값에 대한 이해도 필요합니다. 오늘은 데이터의 퍼짐 정도, 즉 데이터의 불규칙성을 표현하는 다른 대푯값인 ‘분산’과 ‘표준편차’에 대한 내용을 정리해볼게요. '분산'으로 데이터의 펼쳐진 정도 확인하기 평균이 도출된 방법을 다시 한번 살펴보겠습니다. 평균값은 그것을 참값이라고 가정했을 경우 실제 데이터에 포함되는 '참값'에서 벗어난 값'을 최소화하는 값입니다. 정확.. 2022. 1. 5.
클러스터링 분석 - (5) 적정 군집수(k) 찾기 대표적인 클러스터링 방법, k-평균(k-means) 군집화 알고리즘을 사용할 때 고민이 필요한 부분 중 한 가지는 군집수(k) 결정입니다. 군집분석은 비지도 학습(unsupervised learning) 방법 중 하나이고, 비지도 학습에서는 보통 타겟값 혹은 목표값이 없는 데이터를 사용하기 때문에 군집화가 잘 되었는지, 혹은 적정 클러스터(군집)의 수는 몇 개인지 판단하는 것은 매우 어렵습니다. 하지만, 분석가의 판단을 돕고, 최선의 결과를 도출하기 위한 방법으로 몇 가지를 생각해 볼 수 있는데요, 하나씩 살펴보도록 하겠습니다. Inertia value를 활용한 군집 응집도 탐색 Inertia value에 대하여 설명하기 전에 k-means 알고리즘의 동작 원리를 간단히 알아보는 것이 좋을 것 같습니다... 2021. 12. 22.
숫자를 잘 활용하는 방법, '통찰'의 통계학 공부하기 업무와 관련된 책들을 가끔 읽고 있는데요, 소개해 드릴 만한 좋은 책이 있어서 앞으로 이 책에서 얻은 지식과 저의 생각을 꾸준히 공유해 보면 좋을 것 같습니다. 통계의 힘: 실무활용 편 (니시우치 히로무 지음) '통계학'을 다루니까 재미없고 딱딱해 보일 수 있지만, 잘 몰랐던 사실, 헷갈렸던 부분이 해소되는 즐거움을 주는 책이고, 읽다 보면 무릎을 탁 치는 순간이 여러 번 오는 신통한 책입니다. (그럼에도 불구하고 책이 다루는 내용이 다소 딱딱한 부분은 피하기 어렵습니다. 😅) 제목에서 엿볼 수 있듯이 이론보다는 ‘활용’의 관점에서 통계학의 여러 가지 개념들을 알려주는 책입니다. 그렇기 때문에 숫자를 자주 다루거나 통계 관련 지식을 업무에 활용해야 하는 분들께서 차근차근 읽고 개념을 다지기에 매우 좋은 .. 2021. 12. 20.
클러스터링 분석 - (3) 스케일 조정 클러스터링 분석, 세 번째 이야기. 오늘은 데이터 스케일 조정(scaling)에 대한 이야기입니다. 데이터 스케일이란? 데이터 스케일(scale)은 변수를 구성하는 값들의 크기, 규모, 혹은 범위를 의미합니다. 이름 간식비용(원) 식사비용(원) 종원 10,000 75,000 여운 0 25,000 상인 6,000 60,000 지윤 8,000 55,000 예시를 한 번 보실까요? 4명의 친구가 지난 일주일간 간식 구입과 점심 식대로 지불한 비용을 표로 정리했습니다. 간식 비용은 0~10,000원에서 값이 분포되어 있고, 식사비용은 25,000~75,000원 사이에 값이 분포되어 있습니다. 변수끼리 스케일 차이가 크게 벌어지면, 값을 비교할 때 판단을 쉽게 할 수 없는 문제가 발생합니다. 예를 들어, 식사보다.. 2021. 12. 19.
클러스터링 분석 - (1) 범주형 변수 클러스터링(군집) 분석을 하면서 고민했던 부분들을 조금씩 정리해 보려고 합니다. 분석 기법에 대한 이야기보다는 실무에서 클러스터링 분석을 진행하면서 고려할 부분이나 미리 염두에 두면 좋을 부분들에 대한 이야기가 주가 될 것 같습니다. 오늘은 그 첫 번째 시간으로 범주형 변수(categorical variables)에 대한 이야기를 해볼께요. 범주형 변수 이야기를 하기에 앞서 클러스터링 분석을 위한 방법론은 다양하지만, 잘 알려지고, 또 흔히 많이 사용되는 방식은 ‘거리’를 이용한 방식(Distance-Based Methods)입니다. 클러스터링은 쉽게 말하자면 유사한 것끼리 묶어주는 작업을 의미합니다. 여기서 이 유사한 정도를 계산하기 위한 단위로 ‘거리’를 사용한다는 의미죠. 이 ‘거리’라는 것은 짝지.. 2021. 12. 18.
채용시장 규모, '일자리행정통계'로 엿보기 '평생 직장' 개념이 사라지는 시대. 그렇다면 얼마나 많은 사람들이 직장을 옮기거나 새로 찾고 있을까요? 지난 12월 7일 통계청이 발표한 ‘일자리행정통계’에서 답을 찾을 수 있습니다. 일자리행정통계란? 일자리의 규모와 증감을 기업 특성별로, 또 근로자 특성별로 볼 수 있도록 매년 작성되며, 고용 및 일자리 관련 정책 수립에 활용되는 통계 자료입니다. 이것은 설문조사를 통해 결과를 수집하는 전수조사, 표본조사와는 달리, 사회보험, 과세자료 등의 행정자료를 통해 작성되기 때문에 '가공통계'의 성격을 갖습니다. 일자리행정통계 통계설명자료 2020년 일자리행정통계 결과 이직시장, 채용시장의 규모 아래 그림을 보시면 이직, 신규 채용을 포함한 국내 채용시장의 크기를 확인해 볼 수 있습니다. 2020년 일자리는 .. 2021. 12. 16.
반응형