본문 바로가기

전처리3

[Python] list 형태의 string 값을 list로 변환하기 데이터 전처리 과정에서 list의 모습을 한 string 값을 진짜 list 타입으로 변환하여 처리해야 하는 상황이 간혹 발생합니다. # x의 type은 string x = '["A","B","C","D"]' # 이것을 아래처럼 list type으로 바꿔야 하는 상황 x = ["A", "B", "C", "D"] 몇 가지 간단한 해결 방법을 소개해 드릴게요. 1. 'json' 모듈 import json x = '["A","B","C","D"]' result = json.loads(x) # result # ['A', 'B', 'C', 'D'] 2. AST(Abstract Syntax Trees) 모듈의 literal_eval 함수 import ast x = '["A","B","C","D"]' result =.. 2022. 2. 8.
클러스터링 분석 - (3) 스케일 조정 클러스터링 분석, 세 번째 이야기. 오늘은 데이터 스케일 조정(scaling)에 대한 이야기입니다. 데이터 스케일이란? 데이터 스케일(scale)은 변수를 구성하는 값들의 크기, 규모, 혹은 범위를 의미합니다. 이름 간식비용(원) 식사비용(원) 종원 10,000 75,000 여운 0 25,000 상인 6,000 60,000 지윤 8,000 55,000 예시를 한 번 보실까요? 4명의 친구가 지난 일주일간 간식 구입과 점심 식대로 지불한 비용을 표로 정리했습니다. 간식 비용은 0~10,000원에서 값이 분포되어 있고, 식사비용은 25,000~75,000원 사이에 값이 분포되어 있습니다. 변수끼리 스케일 차이가 크게 벌어지면, 값을 비교할 때 판단을 쉽게 할 수 없는 문제가 발생합니다. 예를 들어, 식사보다.. 2021. 12. 19.
클러스터링 분석 - (2) 결측값 클러스터링 분석 두 번째 시간, 결측값(missing value) 처리 방법에 대한 이야기입니다. 클러스터링 분석을 위한 변수의 조건 지난 시간에 클러스터링 분석(Distance-based Method를 활용할 경우에 한 함)을 위해서는 개체 특성 간의 차이 계산이 가능하도록 변수가 연속형 변수의 형태를 띄고 있어야 한다는 이야기를 했습니다. 그런데 차이 계산을 위해서는 변수의 값들이 크기를 가진 숫자 형태라는 조건 말고 또 다른 조건이 필요해요. 그것은 바로 개체들이 빠짐없이 값을 갖고 있어야 한다는 점입니다. 예를 들어 어떤 변수(특성)를 고객을 구분하는 중요한 단서 중 하나로 사용하려고 하는데, A라는 고객은 그 변수(특성)에 해당하는 값을 가지고 있지만, B라는 고객은 값을 가지고 있지 않다면 어.. 2021. 12. 19.
반응형