판다스 중복값 확인 및 처리, 유일한 값 확인 및 개수 세기

중복값 확인 : DataFrame.duplicated()

( 중복될 경우, 처음과 마지막 값 중 어떤 값을 남길 것인가 ? keep = 'first' ,' last ', False )

중복값 처리 : DataFrame.drop_ducplicates() ; 중복되지 않는 유일한 값 한 개만 남기고 나머지 중복되는 항목들은 제거

( 중복될 경우, 처음과 마지막 값 중 어떤 값을 남길 것인가 ? keep = 'first' ,' last ', False )

자세한 예시는 http://rfriend.tistory.com/266?category=675917 링크 참고

유일한 값 찾기 : pandas.unique() / pandas.Series.unique()

pandas.unique(values) : top-level unique method for any 1-d array-like object.

>>> pd.unique(pd.Series([2, 1, 3, 3]))
array([2, 1, 3])

>>> pd.unique(list('baabc'))
array(['b', 'a', 'c'], dtype=object)

pandas.Series.unique() : Returns ndarray or Categorical . The unique values returned as a NumPy array. In case of categorical data type, returned as a Categorical.

>>> pd.Series([2, 1, 3, 3], name='A').unique()
array([2, 1, 3])

유일한 값 개수 세기 : pd.Series.value_counts()

pd.Series.value_counts(normalize=False, # False면 개수, True면 상대적 비율 구함
sort=True, # True면 개수 기준 정렬, False면 유일한 값 기준 정렬

ascending=False, # False면 내림차순 정렬, True면 오름차순 정렬

bins=None, # None이면 유일값 기준 개수, None아니면 Bins Group별 개수

dropna=True # True면 NaN 무시, False면 유일값에 NaN 포함)

출처: http://rfriend.tistory.com/267 [R, Python 분석과 프로그래밍 (by R Friend)]

각 인자들에 대한 자세한 예시는 http://rfriend.tistory.com/266?category=675917 링크 참고

'데이터 사이언스 > Pandas 판다스 ' 카테고리의 다른 글

idiomatic python - 간단하게 판다스 표현하기 (0)	2019.01.26
판다스 sorting 1: 가장 큰 값을 n번 째 까지 구하기 : .nlarges() 함수 (0)	2019.01.19
판다스 drop 함수 사용해보기 (0)	2019.01.15
Querying a DataFrame - Boolean Masking \|\| 데이터프레임 퀴어링 방법 - 마스킹 (0)	2019.01.08
판다스 2 - 시리즈 Series (0)	2018.12.29

반시안

판다스 중복값 확인 및 처리, 유일한 값 확인 및 개수 세기

'데이터 사이언스 > Pandas 판다스 ' 카테고리의 다른 글

티스토리툴바

판다스 중복값 확인 및 처리, 유일한 값 확인 및 개수 세기

'데이터 사이언스 > Pandas 판다스 ' 카테고리의 다른 글

'데이터 사이언스 /Pandas 판다스 ' Related Articles

티스토리툴바