본문 바로가기

카테고리58

비즈니스에서 가치 있는 데이터 분석 무슨 값을 어떻게 정리해야 하는가 인과관계의 통찰에서 가장 중요한 것은 '무슨 값을 어떻게 정리해야 하는지' 아는 지혜라고 저자는 말합니다. 그리고 이것은 실용 통계학에서 반드시 알아야 할 부분이라고 강조하고 있어요. 여기서 '인과관계'란 어떤 원인에 의해 결과가 어떻게 변하는지를 알아내는 것입니다. 이런 인과관계를 파악하기 위해 회사에서는 사업과 관련된 여러 가지 숫자들을 고객의 특징에 따라 나누어 분석합니다. 이런 결과를 누구나 한 번쯤은 보았거나 직접 만들어봤을 거예요. 하지만, 고객의 특징(ex. 성, 연령, 가입시점 등)이나 분석하고자 하는 숫자를 쪼개어 볼 만한 또 다른 기준(ex. 제공하는 제품/서비스 종류 등)은 실로 굉장히 다양합니다. 그렇기 때문에 사람들은 이 모든 항목별로 보고자 하는.. 2021. 12. 24.
데이터를 '단 하나의 값'으로 이해하려는 성향 - 평균의 함정과 심슨의 역설 저자는 인과관계 통찰을 위한 통계학에 필요한 지식으로 아래 3가지를 언급했습니다. 1. 평균과 비율 등 통계 지표의 본질적인 의미 이해 2. 데이터를 점이 아닌 구간으로 이해 3. '무슨 값을 어떻게 정리해야 하는지' 아는 지혜 오늘은 이 중에서 '데이터를 점이 아닌 구간으로 이해'하는 것과 관련해서 가볍게 살펴보도록 해요. '단 하나의 값'으로 이해하려는 성향 저자는 많은 사람들이 여기저기 흩어져 있는 데이터를 정리할 때 그 한가운데 있으리라고 생각하는 '단 하나의 값'으로 이해하려는 성향을 갖고 있다고 말합니다. 대표적인 것이 우리가 잘 아는 '평균'인데요, 이것은 비단 데이터를 다룰 때만 나타나는 현상은 아닙니다. 사람은 지각 능력과 기억 능력에 한계가 있기 때문에 우리의 뇌는 다양한 정보를 그대로.. 2021. 12. 23.
클러스터링 분석 - (5) 적정 군집수(k) 찾기 대표적인 클러스터링 방법, k-평균(k-means) 군집화 알고리즘을 사용할 때 고민이 필요한 부분 중 한 가지는 군집수(k) 결정입니다. 군집분석은 비지도 학습(unsupervised learning) 방법 중 하나이고, 비지도 학습에서는 보통 타겟값 혹은 목표값이 없는 데이터를 사용하기 때문에 군집화가 잘 되었는지, 혹은 적정 클러스터(군집)의 수는 몇 개인지 판단하는 것은 매우 어렵습니다. 하지만, 분석가의 판단을 돕고, 최선의 결과를 도출하기 위한 방법으로 몇 가지를 생각해 볼 수 있는데요, 하나씩 살펴보도록 하겠습니다. Inertia value를 활용한 군집 응집도 탐색 Inertia value에 대하여 설명하기 전에 k-means 알고리즘의 동작 원리를 간단히 알아보는 것이 좋을 것 같습니다... 2021. 12. 22.
클러스터링 분석 - (4) 변별력 있는 변수 찾기 기계학습(machine learning)에서는 분석 목적과 데이터 특성에 맞는 적절한 알고리즘을 선택하고 매개변수를 잘 조정하는 것도 중요하지만, 좋은 입력 데이터를 만들기 위해 적절한 변수를 찾는 것이 더욱 중요합니다. 해결해야 할 문제와 사용할 데이터의 연관성이 낮으면 아무리 좋은 알고리즘을 적용한다고 할 지라도 좋은 결과를 기대할 수 없을 테니까요. 이것은 예측 분석뿐만 아니라 클러스터링 분석에서도 마찬가지입니다. 이번 시간에는 더 나은 군집화 결과를 만들 수 있도록 변별력 높은 변수를 찾아가는 과정에 대하여 알아보도록 하겠습니다. 너무 많은 변수를 사용할 위험 클러스터링 분석은 데이터 전처리를 위해 사용하기도 하지만 군집화 결과 자체를 현업에 활용하기 위한 목적으로도 많이 사용됩니다. 대표적인 사.. 2021. 12. 21.
숫자를 잘 활용하는 방법, '통찰'의 통계학 공부하기 업무와 관련된 책들을 가끔 읽고 있는데요, 소개해 드릴 만한 좋은 책이 있어서 앞으로 이 책에서 얻은 지식과 저의 생각을 꾸준히 공유해 보면 좋을 것 같습니다. 통계의 힘: 실무활용 편 (니시우치 히로무 지음) '통계학'을 다루니까 재미없고 딱딱해 보일 수 있지만, 잘 몰랐던 사실, 헷갈렸던 부분이 해소되는 즐거움을 주는 책이고, 읽다 보면 무릎을 탁 치는 순간이 여러 번 오는 신통한 책입니다. (그럼에도 불구하고 책이 다루는 내용이 다소 딱딱한 부분은 피하기 어렵습니다. 😅) 제목에서 엿볼 수 있듯이 이론보다는 ‘활용’의 관점에서 통계학의 여러 가지 개념들을 알려주는 책입니다. 그렇기 때문에 숫자를 자주 다루거나 통계 관련 지식을 업무에 활용해야 하는 분들께서 차근차근 읽고 개념을 다지기에 매우 좋은 .. 2021. 12. 20.
클러스터링 분석 - (3) 스케일 조정 클러스터링 분석, 세 번째 이야기. 오늘은 데이터 스케일 조정(scaling)에 대한 이야기입니다. 데이터 스케일이란? 데이터 스케일(scale)은 변수를 구성하는 값들의 크기, 규모, 혹은 범위를 의미합니다. 이름 간식비용(원) 식사비용(원) 종원 10,000 75,000 여운 0 25,000 상인 6,000 60,000 지윤 8,000 55,000 예시를 한 번 보실까요? 4명의 친구가 지난 일주일간 간식 구입과 점심 식대로 지불한 비용을 표로 정리했습니다. 간식 비용은 0~10,000원에서 값이 분포되어 있고, 식사비용은 25,000~75,000원 사이에 값이 분포되어 있습니다. 변수끼리 스케일 차이가 크게 벌어지면, 값을 비교할 때 판단을 쉽게 할 수 없는 문제가 발생합니다. 예를 들어, 식사보다.. 2021. 12. 19.
클러스터링 분석 - (2) 결측값 클러스터링 분석 두 번째 시간, 결측값(missing value) 처리 방법에 대한 이야기입니다. 클러스터링 분석을 위한 변수의 조건 지난 시간에 클러스터링 분석(Distance-based Method를 활용할 경우에 한 함)을 위해서는 개체 특성 간의 차이 계산이 가능하도록 변수가 연속형 변수의 형태를 띄고 있어야 한다는 이야기를 했습니다. 그런데 차이 계산을 위해서는 변수의 값들이 크기를 가진 숫자 형태라는 조건 말고 또 다른 조건이 필요해요. 그것은 바로 개체들이 빠짐없이 값을 갖고 있어야 한다는 점입니다. 예를 들어 어떤 변수(특성)를 고객을 구분하는 중요한 단서 중 하나로 사용하려고 하는데, A라는 고객은 그 변수(특성)에 해당하는 값을 가지고 있지만, B라는 고객은 값을 가지고 있지 않다면 어.. 2021. 12. 19.
반응형