ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 트리 알고리즘
    기계학습 2021. 10. 29. 13:52

    결정 트리

    어떤 항목에 대한 데이터와 결과를 연결시켜주는 예측 모델

    예측 모델은 로지스틱 회귀로 설명할 수 있다. 하지만, 잘모르는 사람에게 설명하기를 어렵다.

    그래서 나온 것이 결정 트리이다.

    하지만,

    이렇게 나오면, 판단하기 힘들다.

    결정 트리 분석

    트리의 깊이를 제안해서 표현할 수 있다.

    지니 불순도

    집합에 이질적인 것이 얼마나 섞였는지를 측정하는 지표이다.

    0.5가 제일 큰 값이다.

    0이 되면, 그 지니는 불순물이 없는, 순수하다고 할 수 있다.

    스케일 조정

    스케일을 조정 하든, 안하든 똑같은 결과를 보여준다.

    검증 세트

    • 과대적합 모델을 될 가능성을 줄여준다.
    • 검증 세트로 모델을 평가해서, 이 검증세트 중에서 가장 우수한 결과를 보이는 모델을 선택한다.

    교차 검증

    쉽게 말하면, 한정된 테스트 세트를 가지고, 여러번 사용해서 가장 높은 평가를 받은 모델을 찾는 방법이다.

    분할기, 그리드 서치, 확률 분포 선택, 랜덤 서치 방법이 있다.

    트리의 앙상블

    정형 데이터와 비정형 데이터

    • 정형 데이터 : 구조를 알 수 있는 데이터
    • 비정형 데이터 : 구조를 알 수 없는 데이터
      • 텍스트 사진 음성 영성 -> 딥러닝에서 많이 사용한다.
      • 데이터가 많다고 생각한다.

    랜덤 포레스트

    훈련을 통해 구성해놓은 다수의 나무들로부터 분류 결과를 취합해서 결론을 얻는 방식이다.

    방법

    훈련 방법에는 엑스트라 트리, 그레이디언트 부스팅(or 히스토그램 기반), Permutation Importance, XGBoost, LightGBM(MS가 만들었다.)

    '기계학습' 카테고리의 다른 글

    비지도 학습  (0) 2021.11.12
    서포트 벡터 머신  (0) 2021.10.15
    분류 알고리즘  (0) 2021.10.01
    머신 러닝 만들기 - 선형 회귀  (0) 2021.09.24
    머신러닝 만들기 - K최근접 이웃회귀  (0) 2021.09.24

    댓글

Designed by Tistory.