기계학습

데이터 전처리

CMS419 2021. 9. 17. 15:14

데이터 과학자들이 가장 많이 시간을 많이 쓰는 작업, 가장 즐겁지 않는 부분

60%가 데이터 전처리이다.

  • 분석, 처리에 적합한 형태로 만드는 과정
  • 데이터 분석, 데이터 마이닝, 머신 러닝 프로젝트에 적용된다.
  • 데이터는 비어있는 부분이 많거나 정합성이 맞지 않는 경우가 많다.
    • 정합성 : 간단하게 논리적으로 말이 안되는 데이터
  • 데이터 품질이 낮으면 좋은 결과를 얻을 수 없다.

데이터 품질

  • 완벽한 데이터를 얻는 것은 불가능하다.
  • 품질이 저해되는 주요 요인 2가지
    • 측정 오류 : 사람의 실수로 잘못된 단위로 기록을 하거나 측정 장비 자체의 한계 등 측정과정에서 발생하는 오류
    • 수집 과정 오류 : 데이터의 손실 , 중복 등의 문제로 발생하는 오류

잡음

측정 과정에서 무작위로 발생하여 측정값의 에러를 발생시키는 것

잡음이 포함되면 실제 값과 다른 데이터를 얻게 되어 실제 데이터의 형태를 읽어버릴 수도 있다.

아티펙트(Artifact)

왜곡이나 에러 같은 것이다.

Ex) 카메라 렌즈 얼룩 , 프린터의 모난부분

정밀도(Precision)

동일한 대상을 반복적으로 측정하였을 때의 각 결과의 친밀성을 나타내는 것이다.

Ex) 1g을 여러번 측정하는 데 결과가 {1.015, 0.990,1.013, 1.001, 0.986} 인 경우 이들의 표준편차는 0.013 이므로 이 때의 정밀도는 0.013 이라 말할 수 있음

바이어스(Bias)

측정 장비에 포함된 시스템적인 변동이다.

이상치(Outlier)

유별난 값을 가진 데이터를 말한다. -> 돌연변이

잡음과는 다르다.

이상치는 적법한 하나의 데이터로서 그 자체가 중요한 분석의 목적이 될 수 있다.

EX) 네트워크의 침입자 감시와 같은 응용에 있어서는 대다수의 일반 접속 중 예외적으로 발생하는 불법적인 접속 시도와 같은 이상치를 찾는 것이 주된 목표

결측치(Missing values)

사적인 정보를 공개하는 것을 꺼리는 경우가 발생하며 이러한 값들은 조사에서 결측값으로 남게된다.

Ex) NaN : NULL

모순, 불일치(Inconsistent values)

동일한 개체에 대한 측정데이터가 다르게 나타나는 경우

중복(Duplicate data)

중복된 데이터 사이에 속성의 차이나 값의 불일치가 발생할 수 있다는 것이다.

기법

데이터 전처리 단계

  • 데이터 수집
  • 데이터 정제
    • 비어있는 데이터나 잡은, 모순된 데이터 등을 적합성이 맞도록 교정
  • 데이터 통합
    • 여러 개의 데이터베이스, 데이터집합 또는 파일을 통합
  • 데이터 축소
    • 샘플링, 차원축소, 특징 선택 및 추출을 통해 데이터의 크기를 줄이는 잡업을 한다.
  • 데이터 변환
    • 데이터를 정규화, 이산화 또는 집계를 통해 변환

수집

  • 첫 과정
  • 목적과 목표가 되는 정보 수집, 측정을 위해서 정의가 필요하다.
  • 분석 기획과 시나리오가 중요하다.
  • 정보수집 시기 및 방법을 결정한다.
  • 질적 또는 양적 데이터를 수집한다.

정제

  • 데이터를 활용할 수 있도록 만든는 과정

통합

  • 서로 다른 출처의 데이터들을 결합
  • 서로 다른 출처이 데이터 세트가 호환이 가능하도록 통합
  • 같은 객체, 같은 단위난 좌표로 데이터를 통합

축소

  • 복잡한 데이터 분석은 실행하기 어렵거나 불가능한 경우가 많다.
  • 적은 양의 데이터 표현결과를 얻게 되도러도 원 데이터의 완결성을 유지하기 위해 사용된다.
  • 분석시 좀 더 효과적이고, 원래 데이터와 거의 동일한 분석 결과를 얻어 낼 수 있다는 장점이 있다.

변환

  • 다른 형식이나 구조로 변환
  • 변환은 간단하거나 복잡할 수 있다.

그림으로 표현한 데이터 전처리 기법