CMS_419

머신 러닝 만들기 - 데이터 전처리

기계학습 2021. 9. 17. 17:07

Handling of Missing Data 비어있는 데이터 채우기 array([['India', 49.0, 86400.0], ['Brazil', 32.0, 57600.0], ['USA', 35.0, 64800.0], ['Brazil', 43.0, 73200.0], ['USA', 45.0, nan], ['India', 40.0, 69600.0], ['Brazil', nan, 62400.0], ['India', 53.0, 94800.0], ['USA', 55.0, 99600.0], ['India', 42.0, 80400.0]], dtype=object) 'nan' 이라고, 되있는 부분이 비어있는 데이터 공간이다. 이 공간을 같은 속성의 값을 가진 데이터들의 평균값으로 넣어줄 것이다. import numpy..

데이터 전처리

기계학습 2021. 9. 17. 15:14

데이터 과학자들이 가장 많이 시간을 많이 쓰는 작업, 가장 즐겁지 않는 부분 60%가 데이터 전처리이다. 분석, 처리에 적합한 형태로 만드는 과정 데이터 분석, 데이터 마이닝, 머신 러닝 프로젝트에 적용된다. 데이터는 비어있는 부분이 많거나 정합성이 맞지 않는 경우가 많다. 정합성 : 간단하게 논리적으로 말이 안되는 데이터 데이터 품질이 낮으면 좋은 결과를 얻을 수 없다. 데이터 품질 완벽한 데이터를 얻는 것은 불가능하다. 품질이 저해되는 주요 요인 2가지 측정 오류 : 사람의 실수로 잘못된 단위로 기록을 하거나 측정 장비 자체의 한계 등 측정과정에서 발생하는 오류 수집 과정 오류 : 데이터의 손실 , 중복 등의 문제로 발생하는 오류 잡음 측정 과정에서 무작위로 발생하여 측정값의 에러를 발생시키는 것 잡..

주소체계와 데이터 정렬

IOT네트워크프로그래밍 2021. 9. 14. 20:22

네트워크 바이트 순서 바이트 순서(Byte Order) 상위 바이트의 값을 메모리에서 어느쪽으로 두느냐에 따라서 구분한다. Big-Endian 상위 바이트 값이 메모리상에 먼저(번지수가 작은 위치) 표시 호스트 바이트 순서(Host Byte Order) Little-Endian 하위 바이트 값이 메모리상에 먼저(번지수가 작은 위치) 표시 호스트 바이트 순서(Host Byte Order) 데이터 표현 방식에 따라 문제점이 발생한다. 그래서 네트워크 상에서는 Big-endian을 쓴다. 바이트 순서 변환 (Endian Conversion) unsigned short htons(unsigned short); /*Port 정보의 바이트 순서 변경*/ unsigned short ntohs(unsigned shor..

Socket

IOT네트워크프로그래밍 2021. 9. 14. 19:40

소켓(Socket) 네트워크를 토한 입/출력을 하기 위해 사용자에게 필요한 수단을 제공하는 응용 프로토콜 인터페이스 소켓을 활용해서 데이터를 송/수신한다. 네트워크 입/출력을 위해 필요한 것 protocol 4계층 tcp,udp,raw(네트워크 보안) Port 번호(소스,목적지) IP 번호(소스,목적지) 응용 프로그램과 소켓 IP를 통해서 서버에 들어가서, 소켓 번호에 알맞은 곳에 가서 통신을 한다. 연결형 서비스 메일, 웹, 파일을 주고받는 거에 주로 쓴다. 비연결형 서비스 채팅, 게임, BMF TCP 소켓 연결형, 신뢰도가 높다. C에서 파일 처리하고 비슷하다. EX) 1 File *in; in = fopen(“c:\....,a+t); à file pointer 지정(file description) ..

Graphics System

그래픽스 2021. 9. 13. 13:23

Video Display Devices CRT : Cathode-Ray Tude(음극-선 튜브) CRT Basic Phosphor(형광체) : 전자 빔을 맞으면, 빛을 낸다. Refresh CRT: refresh rate 재생빈더: 1초에 얼마 만큼 재생하는 가 Hz : 1초에 몇번 재생되는가 FPS: 1초 당 프레임 Persistence(지속성): 전자 빔이 제거되고, 형광체가 빛을 내는 시간 Resolution(해상도): 1920*1080 같이 화면에서 최대로 표현할 수 있는 픽셀의 개수 Aspect Ratio(종횡비): 16:9, 16:10 같이 가로 세로 비율 픽셀은 서로 60%정도 겹치게 만든다. 이유는 빛이 생길 때, 서로 이어지는 거처럼 보이기 때문이다. Random-Scan Display ..

머신 러닝 만들기(파이썬을 이용) - 2

기계학습 2021. 9. 10. 15:57

훈련 세트와 테스트 세트 훈련 데이터 - training set 평가 데이터 - test set 데이터 준비 fish_length = [....] fish-weight = [....] 샘플링 편향 한쪽으로 편향된 데이터만 가지면, 잘못된 결과가 도출된다. 되도록 다양하게 데이터를 가져오는 것이 올바른 훈련 데이터가 된다. 넘파이 사용하기 import numpy as np input_arr = np.array(fish_data) target_arr = np.array(fish_target) -> 이차원 배열이 나온다. 데이터 섞기 np.random.seed(42) index = np.arange(49) np.random.shuffle(index) 데이터 나누고 확인 train_input = input_ar..

머신 러닝 만들기(파이썬을 이용)

기계학습 2021. 9. 10. 13:12

"생선의 이름을 자동으로 분류해야 한다." 라는 일을 하기위해서 머신러닝을 짜야한다. 문제 정의 도미 vs 빙어 2개의 class classification(분류) binary classification(이진 분류) 데이터 준비 도미(bream) 데이터 - 산점도(파랑) 빙어(smelt) 데이터 - 산점도(주황) 데이터 합치기 length = bream_length+smelt_length weight = bream_weight+smelt_weight fish_data = [[l, w] for l, w in zip(length, weight)] 정답 준비 1 - 도미 0 - 빙어 fish_target = [1]*35 + [0]*14 k-최근접 이웃 from sklearn.neighbors import KN..

Hadoop

빅데이터 분석 2021. 9. 8. 16:41

하둡(Hadoop) 대용량의 데이터를 분산 처리 할 수 있는 자바 기반 프레임워크 특징 대용량 데이터 처리 스케일 아웃 비슷한 성능의 리눅스 서버를 병렬로 연결하여 확장하는 방식 스케일 업 성능을 올리는 것이다. 병렬 처리를 가능하게 하는 단순한 데이터 모델과 프로그래밍 모델 프로그래밍 모델 : 맵리듀스 데이터가 있는 곳으로 코드가 이동한다. 이유: 데이터가 방대해서, 코드가 이동하는 것이 속도가 더 빠르다, 병목 형상을 줄일 수 있다. 소프트웨어적 장애 허용성(fault tolerance)을 구현된다. 복제본을 두는 방식(data replication)으로 해결한다. low latency보다 high throughput(높은 처리량)을 지원한다. 단점 셋업과 사용이 쉽지 않다. 소규모이거나 대용량 처리..

ABOUT ME

CMS_419 CMS_419

티스토리툴바

ABOUT ME

전체 글

티스토리툴바