利用pandas.drop_duplicates()进行数据去重

想起昨天处理的数据没有去重,今天用pandas.drop_duplicates()对数据进行去重。
我们在使用Excel进行数据去重时,会选择要根据哪些列进行去重,这里我们需要先了解一下drop_duplicates()的参数构成及其含义。
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)
这条语句的含义是按照subset指定的列用keep指定的方法进行去重

  • subset:用来指定特定的列,默认是所有列
  • keep:指定处理重复值的方法:
    • first:保留第一次出现的值
    • last:保留最后一次出现的值
    • False:删除所有重复值
  • inplace:是直接在原来数据上修改还是保留一个副本
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。