-
딥러닝빅데이터 분석 2021. 12. 1. 16:02
딥러닝 종류 합성곱 신경망 CNN 3차원 데이터의 공간적 정보를 유지한 채 다음 층으로 보낸다. 영상인식, 컴퓨터비전 순환 신경망 RNN 순차적 정보를 보낸다. 음성 인식 딥비리프망 DBN 영상과 음성의 복원 합성곱 신경망 CNN 이미지 분류에 주로 사용 가장 유용한 특성을 자동으로 학습 특성 계층 학습 입력층에 가까운 층은 저수준 특성(대략적 모양)을 추출 뒤쪽으로 갈수록 고수준을 특성(복잡한 모양과 패턴)을 추출 저수준 특성을 연결하여 고수준을 특성을 만들어 특성 계층을 구성 맨 뒤쪽 층은 완전연결층으로 분류나 예측 CNN의 특징 입력 이미지로부터 특성맵(feature map)을 생성 희소 연결 파라미터 공유 전형적인 CNN 아키텍처 여러개의 합성곱(conv)층과 풀링(pooling)층으로 이루어져 ..
-
텐서플로빅데이터 분석 2021. 11. 29. 16:01
TensorFlow 구글에서 만든 답러닝 오픈소스 패키지이다. 머신러닝 알고리즘을 구현하고 실행하기 위한 프로그래밍 인터페이스 특징 분산 컴퓨팅 지원 계산 그래프를 사용하여 계산을 최적화한다. Python, C++, Go, Java, R을 지원한다. 대규모 머신러닝에 적합하다. CPU와 GPU을 사용한다. Tensor 넘파이 다차원 배열과 유사하다. 실제값은 넘파이 배열이고 텐서는 배열에 대한 참조를 제공 - 텐서가 참조하는 값 : 텐서.numpy() 메서드 혹은 np.array(텐서) 만드는 방법 tf.convert_to_tensor() 함수 : 리스트나 넘파이 배열로부터 텐서 생성
-
MLP빅데이터 분석 2021. 11. 22. 18:52
인공신경망 뇌에 있는 뉴런(neuron)의 네트워크에서 영감을 받은 머신 러닝 모델이다. 초기 대표 인공신경망은 다층 퍼셉트론(MLP) 단순 퍼셉트론 입력에 가중치를 곱한 가중합에 대하여 계단함수를 사용하여 클래스 레이블을 예측하고, 이 때 발생하는 오차를 바탕으로 가중치를 수정하여 레이블을 더 잘 예측하도록 학습 향상된 러셉트론 비용함수를(혹은 목적함수) : SSE -> 비용함수를 최소화하도록 가중치를 학습한다. 활성화 함수 : φ( * ) 선형 함수 : φ( * ) = z 비선형 함수: φ( * ) = 1/(1 + e^(-z)) -> 로지스틱 함수 경사하강법(GD : gradient descent) 주어진 범위 내에서 최대(혹은 최소)를 구하는 최적화 알고리즘 최소를 구하기 위해서는 비용함수의 미분값..
-
데이터 튜닝빅데이터 분석 2021. 11. 17. 16:28
파이프라인 전처리, 학습, 예측 단계를 연결하여 효율적으로 워크플로를 관리하는 방법이다. 변환기(transformer) : fit 메서드와 transform 메서드를 가짐 추정기(estimator) : fit 메서드와 predict 메서드를 가짐 모델 튜닝과 교차검증 모형의 성능은 데이터와 초모수(모형의 설정 인수)에 영향을 받는다. 모델 튜닝(선택) : 모형의 초모수를 조정하는 과정이다. 예) SVC : C, gamma 교차검증 데이터가 충분하지 않아 검증용 데이터를 따로 할당하기 어려운 경우에 사용된다. 훈련 데이터를 여러 번 반복해서 나누고 여러 모델을 학습하고 평가하는 방법 k-겹 교차검증이 있다. 그리드 서치 리스트로 지정된 여러 가지 하이퍼파라미터 값의 모든 가능한 조합에 대해 모델 성능을 평..
-
데이터 전처리빅데이터 분석 2021. 11. 15. 16:20
데이터 전처리의 필요성 실제 데이터는 이질적 소스와 각종 문제로 인하여 오염, 손실, 불일치가 빈번하게 일어난다. 데이터의 품질과 융용한 정보의 양이 분석의 질을 결정한다. 전처리에는 많은 시간과 인력을 요구된다. 하지만 아주 중요한 과정이다. 주요작업 데이터 정제 결측치를 채운 넣기 이상치를 식별해서 필요하면 삭제 불일치 해소 데이터 통합 다수의 데이터 통합 메타데이터를 사용하여 객체 매칭 작업한다. 데이터 변환 연속형 변수 : 데이터가 일정 구간에 속하도록 정규한 된거 범주형 변수 : 문자열은 수치로 코딩, 원-핫-인코딩 데이터 축소 거의 동일한 분석 결과를 주는 범위 내에서 데이터의 양을 축소 차원 축소(dimension reduction) 원-핫 인코딩 슌서가 없는 특성을 고유한 값(범주)마다 가..
-
분류빅데이터 분석 2021. 10. 27. 17:01
지도 학습 모수(parameter) : 데이터를 사용하여 추정(계산)하는 파라미터이다. 초모수(hyperparameter) : 모형에서 추정 모수 이외에 분석자가 지정하거나, 최적값을 찾아 주어야 하는 다른 모든 모수 지도 학습의 유형 분류(classification) : 타겟이 범주형 회귀(regression) : 타겟이 연속형, 값(수치)을 예측 데이터 분할(partition) 학습은 일반화를 목적으로 한다. 데이터 분할 주로 훈련, 테스트 데이터만 이용한다. 훈련 데이터 : 훈련 오차를 최소화, 모형의 모수를 추정한다. 검증 데이터 : 이 데이터가 충분하지 않은 경우 교차검증을 사용하여 최적 초모수를 선택한다. 테스트 데이터 : 훈련 혹은 검증 데이터와 독립적으로 따로 떼어놓은(hold-out) 데..
-
머신러닝빅데이터 분석 2021. 10. 13. 16:56
데이터로 부터 학습하도록 컴퓨터를 프로그래밍하는 과학 -> 다양한 곳에서 말은 서로 다르지만, 공통적으로 '데이터' 부분은 들어간다. 목적 일반화(generalization) : 훈련 데이터로 학습하지만 새로운 데이터에 대한 예측이 최종 목표이다. 확장성 이슈? 알고리즘의 확장성: 알고리즘이 어느 정도 빨라져야, 나중에 다른 것을 추가할 수 있다. 머신러닝 시스템의 종류 지도 학습 vs 비지도 학습 지도 학습(supervised learning) 훈련 데이터 = 특성들(features) + 레이블(label) 레이블은 결과, 특성들은 변수라고 생각하면 편하다. 특성들로 레이블을 예측하는 수학적 모형을 훈련한다. 특성은 레이블을 설명하기 위한, 여러가지 변수들 이라고 생각하면 편하다. 분류 레이블(=tar..
-
pandas빅데이터 분석 2021. 10. 12. 11:13
구조화된 데이터(structured data)를 빠르고 쉽게 다양한 형식으로 가공할 수 있는 강력한 데이터 분석 환경 제공 Pandas 배열 객체 : 행과 열을 레이블로 식별, 여러 가지 타입 허용 NumPy 배열 객체 : 행/열이 단순 정수형 인덱스, 단일 데이터 타입 DataFrame 객체 테이블 형식의 칼럼-기반 데이터 구조 행과 열에 레이블이 부착된 다차원 배열 데이터셋 결합 연결, 조인, 병합이 있다. 연결 pd.concat() 함수 np.concatenate() 함수와 유사 objs 인수는 리스트 혹은 튜플 axis=0은 행 단위로 연결, axis=1은 열 단위 연결 join 인수 서로 다른 소스를 연결하는 경우, 일부 공통 열이 있는 경우 채울 값이 없는 항목은 NA 값으로 채운다. pd.m..