-
데이터 과학자들이 가장 많이 시간을 많이 쓰는 작업, 가장 즐겁지 않는 부분
60%가 데이터 전처리이다.
- 분석, 처리에 적합한 형태로 만드는 과정
- 데이터 분석, 데이터 마이닝, 머신 러닝 프로젝트에 적용된다.
- 데이터는 비어있는 부분이 많거나 정합성이 맞지 않는 경우가 많다.
- 정합성 : 간단하게 논리적으로 말이 안되는 데이터
- 데이터 품질이 낮으면 좋은 결과를 얻을 수 없다.
데이터 품질
- 완벽한 데이터를 얻는 것은 불가능하다.
- 품질이 저해되는 주요 요인 2가지
- 측정 오류 : 사람의 실수로 잘못된 단위로 기록을 하거나 측정 장비 자체의 한계 등 측정과정에서 발생하는 오류
- 수집 과정 오류 : 데이터의 손실 , 중복 등의 문제로 발생하는 오류
잡음
측정 과정에서 무작위로 발생하여 측정값의 에러를 발생시키는 것
잡음이 포함되면 실제 값과 다른 데이터를 얻게 되어 실제 데이터의 형태를 읽어버릴 수도 있다.
아티펙트(Artifact)
왜곡이나 에러 같은 것이다.
Ex) 카메라 렌즈 얼룩 , 프린터의 모난부분
정밀도(Precision)
동일한 대상을 반복적으로 측정하였을 때의 각 결과의 친밀성을 나타내는 것이다.
Ex) 1g을 여러번 측정하는 데 결과가 {1.015, 0.990,1.013, 1.001, 0.986} 인 경우 이들의 표준편차는 0.013 이므로 이 때의 정밀도는 0.013 이라 말할 수 있음
바이어스(Bias)
측정 장비에 포함된 시스템적인 변동이다.
이상치(Outlier)
유별난 값을 가진 데이터를 말한다. -> 돌연변이
잡음과는 다르다.
이상치는 적법한 하나의 데이터로서 그 자체가 중요한 분석의 목적이 될 수 있다.
EX) 네트워크의 침입자 감시와 같은 응용에 있어서는 대다수의 일반 접속 중 예외적으로 발생하는 불법적인 접속 시도와 같은 이상치를 찾는 것이 주된 목표
결측치(Missing values)
사적인 정보를 공개하는 것을 꺼리는 경우가 발생하며 이러한 값들은 조사에서 결측값으로 남게된다.
Ex) NaN : NULL
모순, 불일치(Inconsistent values)
동일한 개체에 대한 측정데이터가 다르게 나타나는 경우
중복(Duplicate data)
중복된 데이터 사이에 속성의 차이나 값의 불일치가 발생할 수 있다는 것이다.
기법
데이터 전처리 단계
- 데이터 수집
- 데이터 정제
- 비어있는 데이터나 잡은, 모순된 데이터 등을 적합성이 맞도록 교정
- 데이터 통합
- 여러 개의 데이터베이스, 데이터집합 또는 파일을 통합
- 데이터 축소
- 샘플링, 차원축소, 특징 선택 및 추출을 통해 데이터의 크기를 줄이는 잡업을 한다.
- 데이터 변환
- 데이터를 정규화, 이산화 또는 집계를 통해 변환
수집
- 첫 과정
- 목적과 목표가 되는 정보 수집, 측정을 위해서 정의가 필요하다.
- 분석 기획과 시나리오가 중요하다.
- 정보수집 시기 및 방법을 결정한다.
- 질적 또는 양적 데이터를 수집한다.
정제
- 데이터를 활용할 수 있도록 만든는 과정
통합
- 서로 다른 출처의 데이터들을 결합
- 서로 다른 출처이 데이터 세트가 호환이 가능하도록 통합
- 같은 객체, 같은 단위난 좌표로 데이터를 통합
축소
- 복잡한 데이터 분석은 실행하기 어렵거나 불가능한 경우가 많다.
- 적은 양의 데이터 표현결과를 얻게 되도러도 원 데이터의 완결성을 유지하기 위해 사용된다.
- 분석시 좀 더 효과적이고, 원래 데이터와 거의 동일한 분석 결과를 얻어 낼 수 있다는 장점이 있다.
변환
- 다른 형식이나 구조로 변환
- 변환은 간단하거나 복잡할 수 있다.
그림으로 표현한 데이터 전처리 기법
'기계학습' 카테고리의 다른 글
회귀 (0) 2021.09.24 머신 러닝 만들기 - 데이터 전처리 (0) 2021.09.17 머신 러닝 만들기(파이썬을 이용) - 2 (0) 2021.09.10 머신 러닝 만들기(파이썬을 이용) (0) 2021.09.10 기계학습 (0) 2021.09.03