ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 데이터 전처리
    기계학습 2021. 9. 17. 15:14

    데이터 과학자들이 가장 많이 시간을 많이 쓰는 작업, 가장 즐겁지 않는 부분

    60%가 데이터 전처리이다.

    • 분석, 처리에 적합한 형태로 만드는 과정
    • 데이터 분석, 데이터 마이닝, 머신 러닝 프로젝트에 적용된다.
    • 데이터는 비어있는 부분이 많거나 정합성이 맞지 않는 경우가 많다.
      • 정합성 : 간단하게 논리적으로 말이 안되는 데이터
    • 데이터 품질이 낮으면 좋은 결과를 얻을 수 없다.

    데이터 품질

    • 완벽한 데이터를 얻는 것은 불가능하다.
    • 품질이 저해되는 주요 요인 2가지
      • 측정 오류 : 사람의 실수로 잘못된 단위로 기록을 하거나 측정 장비 자체의 한계 등 측정과정에서 발생하는 오류
      • 수집 과정 오류 : 데이터의 손실 , 중복 등의 문제로 발생하는 오류

    잡음

    측정 과정에서 무작위로 발생하여 측정값의 에러를 발생시키는 것

    잡음이 포함되면 실제 값과 다른 데이터를 얻게 되어 실제 데이터의 형태를 읽어버릴 수도 있다.

    아티펙트(Artifact)

    왜곡이나 에러 같은 것이다.

    Ex) 카메라 렌즈 얼룩 , 프린터의 모난부분

    정밀도(Precision)

    동일한 대상을 반복적으로 측정하였을 때의 각 결과의 친밀성을 나타내는 것이다.

    Ex) 1g을 여러번 측정하는 데 결과가 {1.015, 0.990,1.013, 1.001, 0.986} 인 경우 이들의 표준편차는 0.013 이므로 이 때의 정밀도는 0.013 이라 말할 수 있음

    바이어스(Bias)

    측정 장비에 포함된 시스템적인 변동이다.

    이상치(Outlier)

    유별난 값을 가진 데이터를 말한다. -> 돌연변이

    잡음과는 다르다.

    이상치는 적법한 하나의 데이터로서 그 자체가 중요한 분석의 목적이 될 수 있다.

    EX) 네트워크의 침입자 감시와 같은 응용에 있어서는 대다수의 일반 접속 중 예외적으로 발생하는 불법적인 접속 시도와 같은 이상치를 찾는 것이 주된 목표

    결측치(Missing values)

    사적인 정보를 공개하는 것을 꺼리는 경우가 발생하며 이러한 값들은 조사에서 결측값으로 남게된다.

    Ex) NaN : NULL

    모순, 불일치(Inconsistent values)

    동일한 개체에 대한 측정데이터가 다르게 나타나는 경우

    중복(Duplicate data)

    중복된 데이터 사이에 속성의 차이나 값의 불일치가 발생할 수 있다는 것이다.

    기법

    데이터 전처리 단계

    • 데이터 수집
    • 데이터 정제
      • 비어있는 데이터나 잡은, 모순된 데이터 등을 적합성이 맞도록 교정
    • 데이터 통합
      • 여러 개의 데이터베이스, 데이터집합 또는 파일을 통합
    • 데이터 축소
      • 샘플링, 차원축소, 특징 선택 및 추출을 통해 데이터의 크기를 줄이는 잡업을 한다.
    • 데이터 변환
      • 데이터를 정규화, 이산화 또는 집계를 통해 변환

    수집

    • 첫 과정
    • 목적과 목표가 되는 정보 수집, 측정을 위해서 정의가 필요하다.
    • 분석 기획과 시나리오가 중요하다.
    • 정보수집 시기 및 방법을 결정한다.
    • 질적 또는 양적 데이터를 수집한다.

    정제

    • 데이터를 활용할 수 있도록 만든는 과정

    통합

    • 서로 다른 출처의 데이터들을 결합
    • 서로 다른 출처이 데이터 세트가 호환이 가능하도록 통합
    • 같은 객체, 같은 단위난 좌표로 데이터를 통합

    축소

    • 복잡한 데이터 분석은 실행하기 어렵거나 불가능한 경우가 많다.
    • 적은 양의 데이터 표현결과를 얻게 되도러도 원 데이터의 완결성을 유지하기 위해 사용된다.
    • 분석시 좀 더 효과적이고, 원래 데이터와 거의 동일한 분석 결과를 얻어 낼 수 있다는 장점이 있다.

    변환

    • 다른 형식이나 구조로 변환
    • 변환은 간단하거나 복잡할 수 있다.

    그림으로 표현한 데이터 전처리 기법

     

    '기계학습' 카테고리의 다른 글

    회귀  (0) 2021.09.24
    머신 러닝 만들기 - 데이터 전처리  (0) 2021.09.17
    머신 러닝 만들기(파이썬을 이용) - 2  (0) 2021.09.10
    머신 러닝 만들기(파이썬을 이용)  (0) 2021.09.10
    기계학습  (0) 2021.09.03

    댓글

Designed by Tistory.