-
데이터 전처리기계학습 2021. 9. 17. 15:14
데이터 과학자들이 가장 많이 시간을 많이 쓰는 작업, 가장 즐겁지 않는 부분 60%가 데이터 전처리이다. 분석, 처리에 적합한 형태로 만드는 과정 데이터 분석, 데이터 마이닝, 머신 러닝 프로젝트에 적용된다. 데이터는 비어있는 부분이 많거나 정합성이 맞지 않는 경우가 많다. 정합성 : 간단하게 논리적으로 말이 안되는 데이터 데이터 품질이 낮으면 좋은 결과를 얻을 수 없다. 데이터 품질 완벽한 데이터를 얻는 것은 불가능하다. 품질이 저해되는 주요 요인 2가지 측정 오류 : 사람의 실수로 잘못된 단위로 기록을 하거나 측정 장비 자체의 한계 등 측정과정에서 발생하는 오류 수집 과정 오류 : 데이터의 손실 , 중복 등의 문제로 발생하는 오류 잡음 측정 과정에서 무작위로 발생하여 측정값의 에러를 발생시키는 것 잡..
-
머신 러닝 만들기(파이썬을 이용) - 2기계학습 2021. 9. 10. 15:57
훈련 세트와 테스트 세트 훈련 데이터 - training set 평가 데이터 - test set 데이터 준비 fish_length = [....] fish-weight = [....] 샘플링 편향 한쪽으로 편향된 데이터만 가지면, 잘못된 결과가 도출된다. 되도록 다양하게 데이터를 가져오는 것이 올바른 훈련 데이터가 된다. 넘파이 사용하기 import numpy as np input_arr = np.array(fish_data) target_arr = np.array(fish_target) -> 이차원 배열이 나온다. 데이터 섞기 np.random.seed(42) index = np.arange(49) np.random.shuffle(index) 데이터 나누고 확인 train_input = input_ar..
-
머신 러닝 만들기(파이썬을 이용)기계학습 2021. 9. 10. 13:12
"생선의 이름을 자동으로 분류해야 한다." 라는 일을 하기위해서 머신러닝을 짜야한다. 문제 정의 도미 vs 빙어 2개의 class classification(분류) binary classification(이진 분류) 데이터 준비 도미(bream) 데이터 - 산점도(파랑) 빙어(smelt) 데이터 - 산점도(주황) 데이터 합치기 length = bream_length+smelt_length weight = bream_weight+smelt_weight fish_data = [[l, w] for l, w in zip(length, weight)] 정답 준비 1 - 도미 0 - 빙어 fish_target = [1]*35 + [0]*14 k-최근접 이웃 from sklearn.neighbors import KN..
-
기계학습기계학습 2021. 9. 3. 13:37
인공지능 사고방식이나 학습 등 인간이 가지는 지적 능력을 컴퓨터를 구현하는 기술 머신러닝 컴퓨터가 스스로 학습하여 인공지능의 성능을 향상 시키는 기술 방법 딥러닝 인간의 뉴런과 비슷한 인공신경망 방식으로 정보를 처리 머신러닝? 데이터에서부터 학습하도록 컴퓨터를 프로그래밍하는 과학(or 예술) 기본 용어 훈련 세트(tranining set): 시스템이 학습하는 데 사용하는 샘플 훈련 사례(training instance or sample) : 각 훈련 데이터 왜 머신러닝이 사용하는 가? 전통적 프로그래밍 기법으로는 규칙이 점점 길고 복잡 해지므로 유지 보수 하기 매우 힘듦 전통적인 방식으로는 너무 복잡하거나 알려진 알고리즘이 없는 분야 장점 하나의 머신러닝 모델이 코드를 간단하게 만들고 전통적인 방법보다 ..