ABOUT ME

-

Today: -

Yesterday: -

Total: -

CMS_419 CMS_419

빅데이터 분석 2021. 10. 12. 11:13

구조화된 데이터(structured data)를 빠르고 쉽게 다양한 형식으로 가공할 수 있는 강력한 데이터 분석 환경 제공

Pandas 배열 객체 : 행과 열을 레이블로 식별, 여러 가지 타입 허용
NumPy 배열 객체 : 행/열이 단순 정수형 인덱스, 단일 데이터 타입

DataFrame 객체

테이블 형식의 칼럼-기반 데이터 구조
행과 열에 레이블이 부착된 다차원 배열

데이터셋 결합

연결, 조인, 병합이 있다.

연결

pd.concat() 함수

np.concatenate() 함수와 유사
objs 인수는 리스트 혹은 튜플
axis=0은 행 단위로 연결, axis=1은 열 단위 연결

join 인수

서로 다른 소스를 연결하는 경우, 일부 공통 열이 있는 경우 채울 값이 없는 항목은 NA 값으로 채운다.

pd.merge()를 이용한 join

left, right : DataFrame 객체
디폴트는 내부 조인(inner join : 교집합) : how = 'inner'
외부 조인(outer join : 합집합) : how = 'outer'(누락된 값은 NA로 채움)

누락된 데이터 처리

Pandas에서는 누락된 값을 NaN과 None으로 호환성 있게 처리한다.

None

속도가 느리다.

NaN

특수 부동 소수점이다.

None보다 속도가 빠르다.

'빅데이터 분석' 카테고리의 다른 글

데이터 전처리 (0)	2021.11.15
분류 (0)	2021.10.27
머신러닝 (0)	2021.10.13
Numpy (0)	2021.10.04
Hadoop (0)	2021.09.08

관련글 관련글 더보기

댓글

인기포스트

ABOUT ME

LINK

ADMIN

티스토리툴바