데이터 전처리

기계학습 2021. 9. 17. 15:14

데이터 과학자들이 가장 많이 시간을 많이 쓰는 작업, 가장 즐겁지 않는 부분

60%가 데이터 전처리이다.

분석, 처리에 적합한 형태로 만드는 과정
데이터 분석, 데이터 마이닝, 머신 러닝 프로젝트에 적용된다.
데이터는 비어있는 부분이 많거나 정합성이 맞지 않는 경우가 많다.
- 정합성 : 간단하게 논리적으로 말이 안되는 데이터
데이터 품질이 낮으면 좋은 결과를 얻을 수 없다.

데이터 품질

완벽한 데이터를 얻는 것은 불가능하다.
품질이 저해되는 주요 요인 2가지
- 측정 오류 : 사람의 실수로 잘못된 단위로 기록을 하거나 측정 장비 자체의 한계 등 측정과정에서 발생하는 오류
- 수집 과정 오류 : 데이터의 손실 , 중복 등의 문제로 발생하는 오류

잡음

측정 과정에서 무작위로 발생하여 측정값의 에러를 발생시키는 것

잡음이 포함되면 실제 값과 다른 데이터를 얻게 되어 실제 데이터의 형태를 읽어버릴 수도 있다.

아티펙트(Artifact)

왜곡이나 에러 같은 것이다.

Ex) 카메라 렌즈 얼룩 , 프린터의 모난부분

정밀도(Precision)

동일한 대상을 반복적으로 측정하였을 때의 각 결과의 친밀성을 나타내는 것이다.

Ex) 1g을 여러번 측정하는 데 결과가 {1.015, 0.990,1.013, 1.001, 0.986} 인 경우 이들의 표준편차는 0.013 이므로 이 때의 정밀도는 0.013 이라 말할 수 있음

바이어스(Bias)

측정 장비에 포함된 시스템적인 변동이다.

이상치(Outlier)

유별난 값을 가진 데이터를 말한다. -> 돌연변이

잡음과는 다르다.

이상치는 적법한 하나의 데이터로서 그 자체가 중요한 분석의 목적이 될 수 있다.

EX) 네트워크의 침입자 감시와 같은 응용에 있어서는 대다수의 일반 접속 중 예외적으로 발생하는 불법적인 접속 시도와 같은 이상치를 찾는 것이 주된 목표

결측치(Missing values)

사적인 정보를 공개하는 것을 꺼리는 경우가 발생하며 이러한 값들은 조사에서 결측값으로 남게된다.

Ex) NaN : NULL

모순, 불일치(Inconsistent values)

동일한 개체에 대한 측정데이터가 다르게 나타나는 경우

중복(Duplicate data)

중복된 데이터 사이에 속성의 차이나 값의 불일치가 발생할 수 있다는 것이다.

기법