Pandas (판다스)
Pandas 는 데이터분석 라이브러리입니다.
판다스 코드는 Jupyter Notebook으로 실행시킵니다. 판다스에서 주로 사용하는 자료구조는 Series 와 DataFrame 입니다.
Series 는 1차원 자료 , DataFrame 은 2차원 자료, 그리고 판다스에서는 3차원까지 커버 가능한데 주로 1-2차원을 사용합니다.
우선, 주피터 노트북과 판다스를 사용하려면 다운을 받아야 합니다.
주피터 노트북 다운 http://jupyter.org/
-> 맥북에서는 터미널에서 , 윈도우에서는 커맨드창에서 ' Jupyter notebook '을 치면 주피터 노트북이 실행됩니다. )
판다스도 다운받습니다. https://pandas.pydata.org/
주피터 노트북과 판다스가 모두 준비되었으면 판다스를 사용해봅시다.
판다스를 import 해줍니다.
1 2 3 4 | import pandas as pd | cs |
이제, 판다스의 자료구조 중 하나인, Series(시리즈)를 파악해봅시다.
시리즈 Series
ㄱ. 선언법 : pd.Series(리스트)
** 주의할 점은, S가 대문자여야 합니다.
1 | mink = pd.Series([1,2,3,4,5]) | cs |
ㄴ. 인덱스 함께 선언하는 방법 : pd.Series([리스트], index=[리스트])
1 | mink2 = pd.Series([1,2,3,4,5], index = ['a','b','c','d','e']) | cs |
--------------------------------------------------------------------------------------
활용해봅니다.
ㄱ) 시리즈 선언법
** 위와 같이 인덱스를 선언해주지 않으면 판다스에서 자동으로 0부터 인덱스를 선언해줍니다.
ㄴ) .index 를 사용하여 인덱스를 불러오기
ㄷ) 인덱스 선언하기 (바꿀 때도 사용)
ㄹ) 파이썬 딕셔너리를 사용해서 인덱스와 값을 나타내기
파이썬 딕셔너리 자료형으로 판다스 시리즈를 만들 수 있습니다. 이때 , 딕셔너리의 key가 인덱스가 됩니다.
'데이터 사이언스 > Pandas 판다스 ' 카테고리의 다른 글
판다스 sorting 1: 가장 큰 값을 n번 째 까지 구하기 : .nlarges() 함수 (0) | 2019.01.19 |
---|---|
판다스 중복값 확인 및 처리, 유일한 값 확인 및 개수 세기 (0) | 2019.01.19 |
판다스 drop 함수 사용해보기 (0) | 2019.01.15 |
Querying a DataFrame - Boolean Masking || 데이터프레임 퀴어링 방법 - 마스킹 (0) | 2019.01.08 |
판다스 2 - 시리즈 Series (0) | 2018.12.29 |