1、drop_duplicates()
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)
- subset: 列标签,可选
- keep: {‘first’, ‘last’, False}, 默认值 ‘first’
first: 删除第一次出现的重复项。
last: 删除重复项,除了最后一次出现。
False: 删除所有重复项。 - inplace:布尔值,默认为False,是否删除重复项或返回副本
data = pd.DataFrame({'A':['a','b','c','c'],'B':[1,1,2,2]})
print(data.A.drop_duplicates(keep='first'))
print(data.A.drop_duplicates(keep='last'))
print(data.A.drop_duplicates(keep=False))
此处不讨论其删除重复值的用法。
2、nunique()
如果只需要剔除重复值后,column中的值有哪几种,就可以使用nunique()
可以看到,A列的值有abc3个,所以这里返回3.
3、unique()
如果需要看到提出重复值后,columns中的值有哪几种,还可以使用unique()。
4、value_counts()
该函数可以对Series里面的每个值进行计数并且排序。
需要注意的是,如果有np.NaN,只有drop_duplicates()和unique()可以予以显示。