중복값 확인 : DataFrame.duplicated()
( 중복될 경우, 처음과 마지막 값 중 어떤 값을 남길 것인가 ? keep = 'first' ,' last ', False )
중복값 처리 : DataFrame.drop_ducplicates() ; 중복되지 않는 유일한 값 한 개만 남기고 나머지 중복되는 항목들은 제거
( 중복될 경우, 처음과 마지막 값 중 어떤 값을 남길 것인가 ? keep = 'first' ,' last ', False )
자세한 예시는 http://rfriend.tistory.com/266?category=675917 링크 참고
유일한 값 찾기 : pandas.unique() / pandas.Series.
unique
()
pandas.
unique
(values) : top-level unique method for any 1-d array-like object.
pandas.Series.
unique
() : Returns ndarray or Categorical . The unique values returned as a NumPy array. In case of categorical data type, returned as a Categorical.
유일한 값 개수 세기 : pd.Series.value_counts()
pd.Series.value_counts(normalize=False, # False면 개수, True면 상대적 비율 구함
sort=True, # True면 개수 기준 정렬, False면 유일한 값 기준 정렬
ascending=False, # False면 내림차순 정렬, True면 오름차순 정렬
bins=None, # None이면 유일값 기준 개수, None아니면 Bins Group별 개수
dropna=True # True면 NaN 무시, False면 유일값에 NaN 포함)
출처: http://rfriend.tistory.com/267 [R, Python 분석과 프로그래밍 (by R Friend)]
각 인자들에 대한 자세한 예시는 http://rfriend.tistory.com/266?category=675917 링크 참고
'데이터 사이언스 > Pandas 판다스 ' 카테고리의 다른 글
idiomatic python - 간단하게 판다스 표현하기 (0) | 2019.01.26 |
---|---|
판다스 sorting 1: 가장 큰 값을 n번 째 까지 구하기 : .nlarges() 함수 (0) | 2019.01.19 |
판다스 drop 함수 사용해보기 (0) | 2019.01.15 |
Querying a DataFrame - Boolean Masking || 데이터프레임 퀴어링 방법 - 마스킹 (0) | 2019.01.08 |
판다스 2 - 시리즈 Series (0) | 2018.12.29 |