CMS419 2021. 10. 12. 11:13

구조화된 데이터(structured data)를 빠르고 쉽게 다양한 형식으로 가공할 수 있는 강력한 데이터 분석 환경 제공

  • Pandas 배열 객체 : 행과 열을 레이블로 식별, 여러 가지 타입 허용
  • NumPy 배열 객체 : 행/열이 단순 정수형 인덱스, 단일 데이터 타입

DataFrame 객체

  • 테이블 형식의 칼럼-기반 데이터 구조
  • 행과 열에 레이블이 부착된 다차원 배열

데이터셋 결합

연결, 조인, 병합이 있다.

연결

pd.concat() 함수

  • np.concatenate() 함수와 유사
  • objs 인수는 리스트 혹은 튜플
  • axis=0은 행 단위로 연결, axis=1은 열 단위 연결

join 인수

서로 다른 소스를 연결하는 경우, 일부 공통 열이 있는 경우 채울 값이 없는 항목은 NA 값으로 채운다.

pd.merge()를 이용한 join

  • left, right : DataFrame 객체
  • 디폴트는 내부 조인(inner join : 교집합) : how = 'inner'
  • 외부 조인(outer join : 합집합) : how = 'outer'(누락된 값은 NA로 채움)

누락된 데이터 처리

Pandas에서는 누락된 값을 NaN과 None으로 호환성 있게 처리한다.

None

속도가 느리다.

NaN

특수 부동 소수점이다.

None보다 속도가 빠르다.