데이터 전처리

기계학습

CMS419 2021. 9. 17. 15:14

데이터 과학자들이 가장 많이 시간을 많이 쓰는 작업, 가장 즐겁지 않는 부분

60%가 데이터 전처리이다.

완벽한 데이터를 얻는 것은 불가능하다.
품질이 저해되는 주요 요인 2가지
- 측정 오류 : 사람의 실수로 잘못된 단위로 기록을 하거나 측정 장비 자체의 한계 등 측정과정에서 발생하는 오류
- 수집 과정 오류 : 데이터의 손실 , 중복 등의 문제로 발생하는 오류

측정 과정에서 무작위로 발생하여 측정값의 에러를 발생시키는 것

잡음이 포함되면 실제 값과 다른 데이터를 얻게 되어 실제 데이터의 형태를 읽어버릴 수도 있다.

왜곡이나 에러 같은 것이다.

Ex) 카메라 렌즈 얼룩 , 프린터의 모난부분

동일한 대상을 반복적으로 측정하였을 때의 각 결과의 친밀성을 나타내는 것이다.

Ex) 1g을 여러번 측정하는 데 결과가 {1.015, 0.990,1.013, 1.001, 0.986} 인 경우 이들의 표준편차는 0.013 이므로 이 때의 정밀도는 0.013 이라 말할 수 있음

측정 장비에 포함된 시스템적인 변동이다.

유별난 값을 가진 데이터를 말한다. -> 돌연변이

잡음과는 다르다.

이상치는 적법한 하나의 데이터로서 그 자체가 중요한 분석의 목적이 될 수 있다.

EX) 네트워크의 침입자 감시와 같은 응용에 있어서는 대다수의 일반 접속 중 예외적으로 발생하는 불법적인 접속 시도와 같은 이상치를 찾는 것이 주된 목표

사적인 정보를 공개하는 것을 꺼리는 경우가 발생하며 이러한 값들은 조사에서 결측값으로 남게된다.

Ex) NaN : NULL

동일한 개체에 대한 측정데이터가 다르게 나타나는 경우

중복된 데이터 사이에 속성의 차이나 값의 불일치가 발생할 수 있다는 것이다.

기법