-
Numpy빅데이터 분석 2021. 10. 4. 13:40
Numpy 숫자 배열을 효과 적으로 저장하고 가공하는 전문도구 파이썬 데이터 과학 도구 생태계의 핵심 Numpy 배열을 연속된 메모리 블록에 데이터를 저장한다. 벡터화 연산 : 루프 없이 데이터 처리 작업이 가능하다 ndarray 배열 생성 np.array() 함수를 써서, 배열을 생성한다. np.zeros(10, dtype=int) #0으로 채운 배열 np.ones((3,5), dtype=float) #1로 채운 배열 np.full((3,5), 3.14) #같은 값으로 채운 배열 np.arange(0, 20, 2) #선형 수열로 채운 배열(step), range()와 유사 np.linspace(0, 1, 5) #일정한 간격으로 채운 배열(개수) np.random.seed(0) #재현을 위한 씨드값 np..
-
Hadoop빅데이터 분석 2021. 9. 8. 16:41
하둡(Hadoop) 대용량의 데이터를 분산 처리 할 수 있는 자바 기반 프레임워크 특징 대용량 데이터 처리 스케일 아웃 비슷한 성능의 리눅스 서버를 병렬로 연결하여 확장하는 방식 스케일 업 성능을 올리는 것이다. 병렬 처리를 가능하게 하는 단순한 데이터 모델과 프로그래밍 모델 프로그래밍 모델 : 맵리듀스 데이터가 있는 곳으로 코드가 이동한다. 이유: 데이터가 방대해서, 코드가 이동하는 것이 속도가 더 빠르다, 병목 형상을 줄일 수 있다. 소프트웨어적 장애 허용성(fault tolerance)을 구현된다. 복제본을 두는 방식(data replication)으로 해결한다. low latency보다 high throughput(높은 처리량)을 지원한다. 단점 셋업과 사용이 쉽지 않다. 소규모이거나 대용량 처리..