利用pandas.drop_duplicates()进行数据去重

想起昨天处理的数据没有去重，今天用pandas.drop_duplicates()对数据进行去重。
我们在使用Excel进行数据去重时，会选择要根据哪些列进行去重，这里我们需要先了解一下drop_duplicates()的参数构成及其含义。
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)
这条语句的含义是按照subset指定的列用keep指定的方法进行去重

subset：用来指定特定的列，默认是所有列
keep：指定处理重复值的方法：
- first：保留第一次出现的值
- last：保留最后一次出现的值
- False：删除所有重复值
inplace：是直接在原来数据上修改还是保留一个副本

最后编辑于：2018.12.18 14:31:43

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

利用pandas.drop_duplicates()进行数据去重

友情链接更多精彩内容