想起昨天处理的数据没有去重,今天用pandas.drop_duplicates()对数据进行去重。
我们在使用Excel进行数据去重时,会选择要根据哪些列进行去重,这里我们需要先了解一下drop_duplicates()的参数构成及其含义。
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)
这条语句的含义是按照subset指定的列用keep指定的方法进行去重
- subset:用来指定特定的列,默认是所有列
- keep:指定处理重复值的方法:
- first:保留第一次出现的值
- last:保留最后一次出现的值
- False:删除所有重复值
- inplace:是直接在原来数据上修改还是保留一个副本