pandas函数之drop_duplicates

pandas版本号: 0.21.1 API链接

 DataFrame.drop_duplicates(subset=None,keep='first',inplace=False)

subset : column label or sequence of labels, optional
            Only consider certain columns for identifying duplicates, by default use all of the columns
keep : {‘first’, ‘last’, False}, default ‘first’
            first : Drop duplicates except for the first occurrence.
            last : Drop duplicates except for the last occurrence.
            False : Drop all duplicates.
inplace : boolean, default False
            Whether to drop duplicates in place or to return a copy

drop_duplicates是 用于删除重复的数据,第一个参数时传入用于判断的列:

data = DataFrame({'k1':['one']*3+['two']*4,'k2':[1,1,2,3,3,4,4]})
data['v1']=range(7)
data
data.drop_duplicates(['k1','k2'])
drop_duplicates_subset.PNG

而第二个参数keep用于指定删除方式,first表示留下重复数据第一条,last表示留下重复数据的最后一条,False表示删除所有重复数据。


drop_duplicates_keep.PNG

inplace参数,False时表示在原数据的copy上删除重复数据后,返回copy视图的保留数据(默认为False),True时表示直接在原数据视图操作,没有返回值。


drop_duplicates_inplace.PNG
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容