ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • pandas
    빅데이터 분석 2021. 10. 12. 11:13

    구조화된 데이터(structured data)를 빠르고 쉽게 다양한 형식으로 가공할 수 있는 강력한 데이터 분석 환경 제공

    • Pandas 배열 객체 : 행과 열을 레이블로 식별, 여러 가지 타입 허용
    • NumPy 배열 객체 : 행/열이 단순 정수형 인덱스, 단일 데이터 타입

    DataFrame 객체

    • 테이블 형식의 칼럼-기반 데이터 구조
    • 행과 열에 레이블이 부착된 다차원 배열

    데이터셋 결합

    연결, 조인, 병합이 있다.

    연결

    pd.concat() 함수

    • np.concatenate() 함수와 유사
    • objs 인수는 리스트 혹은 튜플
    • axis=0은 행 단위로 연결, axis=1은 열 단위 연결

    join 인수

    서로 다른 소스를 연결하는 경우, 일부 공통 열이 있는 경우 채울 값이 없는 항목은 NA 값으로 채운다.

    pd.merge()를 이용한 join

    • left, right : DataFrame 객체
    • 디폴트는 내부 조인(inner join : 교집합) : how = 'inner'
    • 외부 조인(outer join : 합집합) : how = 'outer'(누락된 값은 NA로 채움)

    누락된 데이터 처리

    Pandas에서는 누락된 값을 NaN과 None으로 호환성 있게 처리한다.

    None

    속도가 느리다.

    NaN

    특수 부동 소수점이다.

    None보다 속도가 빠르다.

    '빅데이터 분석' 카테고리의 다른 글

    데이터 전처리  (0) 2021.11.15
    분류  (0) 2021.10.27
    머신러닝  (0) 2021.10.13
    Numpy  (0) 2021.10.04
    Hadoop  (0) 2021.09.08

    댓글

Designed by Tistory.