ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 데이터 전처리
    빅데이터 분석 2021. 11. 15. 16:20

    데이터 전처리의 필요성

    • 실제 데이터는 이질적 소스와 각종 문제로 인하여 오염, 손실, 불일치가 빈번하게 일어난다.
    • 데이터의 품질과 융용한 정보의 양이 분석의 질을 결정한다.
    • 전처리에는 많은 시간과 인력을 요구된다. 하지만 아주 중요한 과정이다.

    주요작업

    데이터 정제

    결측치를 채운 넣기

    이상치를 식별해서 필요하면 삭제

    불일치 해소

    데이터 통합

    다수의 데이터 통합

    메타데이터를 사용하여 객체 매칭 작업한다.

    데이터 변환

    연속형 변수 : 데이터가 일정 구간에 속하도록 정규한 된거

    범주형 변수 : 문자열은 수치로 코딩, 원-핫-인코딩

    데이터 축소

    거의 동일한 분석 결과를 주는 범위 내에서 데이터의 양을 축소

    차원 축소(dimension reduction)

    원-핫 인코딩

    슌서가 없는 특성을 고유한 값(범주)마다 가변수(0,1만 가지는 변수) 특성을 만든다.

    차원 축소

    • 특성들의 조합으로 새로운 특성을 생성
    • 원래의 특성 공간 대신 새로운 저차원 특성 공간으로 데이터를 투영한다.(영어는 프로젝트)
    • 비지도 데이터 압축 기술이다.

    주성분 분석 PCA(Principal Component Analysis)

    특성행렬의 공분산행렬에 대한 고유치와 고유벡터를 사용한다.

    '빅데이터 분석' 카테고리의 다른 글

    MLP  (0) 2021.11.22
    데이터 튜닝  (0) 2021.11.17
    분류  (0) 2021.10.27
    머신러닝  (0) 2021.10.13
    pandas  (0) 2021.10.12

    댓글

Designed by Tistory.