-
구조화된 데이터(structured data)를 빠르고 쉽게 다양한 형식으로 가공할 수 있는 강력한 데이터 분석 환경 제공
- Pandas 배열 객체 : 행과 열을 레이블로 식별, 여러 가지 타입 허용
- NumPy 배열 객체 : 행/열이 단순 정수형 인덱스, 단일 데이터 타입
DataFrame 객체
- 테이블 형식의 칼럼-기반 데이터 구조
- 행과 열에 레이블이 부착된 다차원 배열
데이터셋 결합
연결, 조인, 병합이 있다.
연결
pd.concat() 함수
- np.concatenate() 함수와 유사
- objs 인수는 리스트 혹은 튜플
- axis=0은 행 단위로 연결, axis=1은 열 단위 연결
join 인수
서로 다른 소스를 연결하는 경우, 일부 공통 열이 있는 경우 채울 값이 없는 항목은 NA 값으로 채운다.
pd.merge()를 이용한 join
- left, right : DataFrame 객체
- 디폴트는 내부 조인(inner join : 교집합) : how = 'inner'
- 외부 조인(outer join : 합집합) : how = 'outer'(누락된 값은 NA로 채움)
누락된 데이터 처리
Pandas에서는 누락된 값을 NaN과 None으로 호환성 있게 처리한다.
None
속도가 느리다.
NaN
특수 부동 소수점이다.
None보다 속도가 빠르다.