본문 바로가기

데이터 사이언스 /Pandas 판다스

판다스 중복값 확인 및 처리, 유일한 값 확인 및 개수 세기


중복값 확인 : DataFrame.duplicated()

 ( 중복될 경우, 처음과 마지막 값 중 어떤 값을 남길 것인가 ?  keep = 'first' ,' last ', False ) 



중복값 처리 : DataFrame.drop_ducplicates() ; 중복되지 않는 유일한 값 한 개만 남기고 나머지 중복되는 항목들은 제거

 ( 중복될 경우, 처음과 마지막 값 중 어떤 값을 남길 것인가 ?  keep = 'first' ,' last ', False ) 



자세한 예시는 http://rfriend.tistory.com/266?category=675917 링크 참고 







유일한 값 찾기  : pandas.unique() / pandas.Series.unique(


pandas.unique(values)   :  top-level unique method for any 1-d array-like object.

>>> pd.unique(pd.Series([2, 1, 3, 3]))
array([2, 1, 3])
>>> pd.unique(list('baabc'))
array(['b', 'a', 'c'], dtype=object)


pandas.Series.unique() Returns ndarray or Categorical . The unique values returned as a NumPy array. In case of categorical data type, returned as a Categorical.

>>> pd.Series([2, 1, 3, 3], name='A').unique()
array([2, 1, 3])



유일한 값 개수 세기  : pd.Series.value_counts()



pd.Series.value_counts(normalize=False, # False면 개수, True면 상대적 비율 구함 
                                     sort=True, # True면 개수 기준 정렬, False면 유일한 값 기준 정렬

                                     ascending=False, # False면 내림차순 정렬, True면 오름차순 정렬

                                     bins=None, # None이면 유일값 기준 개수, None아니면 Bins Group별 개수

                                    dropna=True # True면 NaN 무시, False면 유일값에 NaN 포함)


출처: http://rfriend.tistory.com/267 [R, Python 분석과 프로그래밍 (by R Friend)] 


각 인자들에 대한 자세한 예시는 http://rfriend.tistory.com/266?category=675917 링크 참고