빅데이터 분석

데이터 튜닝

CMS419 2021. 11. 17. 16:28

파이프라인

전처리, 학습, 예측 단계를 연결하여 효율적으로 워크플로를 관리하는 방법이다.

  • 변환기(transformer) : fit 메서드와 transform 메서드를 가짐
  • 추정기(estimator) : fit 메서드와 predict 메서드를 가짐

모델 튜닝과 교차검증

모형의 성능은 데이터와 초모수(모형의 설정 인수)에 영향을 받는다.

모델 튜닝(선택) : 모형의 초모수를 조정하는 과정이다.

예) SVC : C, gamma

교차검증

  • 데이터가 충분하지 않아 검증용 데이터를 따로 할당하기 어려운 경우에 사용된다.
  • 훈련 데이터를 여러 번 반복해서 나누고 여러 모델을 학습하고 평가하는 방법
    • k-겹 교차검증이 있다.

그리드 서치

리스트로 지정된 여러 가지 하이퍼파라미터 값의 모든 가능한 조합에 대해 모델 성능을 평가하여 최적의 조합을 찾을 수 있다.