pandas函数之drop_duplicates

pandas版本号: 0.21.1 API链接

 DataFrame.drop_duplicates(subset=None,keep='first',inplace=False)

subset : column label or sequence of labels, optional
            Only consider certain columns for identifying duplicates, by default use all of the columns
keep : {‘first’, ‘last’, False}, default ‘first’
            first : Drop duplicates except for the first occurrence.
            last : Drop duplicates except for the last occurrence.
            False : Drop all duplicates.
inplace : boolean, default False
            Whether to drop duplicates in place or to return a copy

drop_duplicates是用于删除重复的数据，第一个参数时传入用于判断的列：

data = DataFrame({'k1':['one']*3+['two']*4,'k2':[1,1,2,3,3,4,4]})
data['v1']=range(7)
data
data.drop_duplicates(['k1','k2'])

drop_duplicates_subset.PNG

而第二个参数keep用于指定删除方式，first表示留下重复数据第一条，last表示留下重复数据的最后一条，False表示删除所有重复数据。

drop_duplicates_keep.PNG

inplace参数，False时表示在原数据的copy上删除重复数据后，返回copy视图的保留数据（默认为False），True时表示直接在原数据视图操作，没有返回值。

drop_duplicates_inplace.PNG

最后编辑于：2017.12.28 16:30:59

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

pandas函数之drop_duplicates

友情链接更多精彩内容