一、数据准备
第五行第六行数据重复
import pandas as pd
data = pd.DataFrame({'k1':['one', 'two'] * 3 + ['two'], 'k2':[1, 1, 2, 3, 3, 4, 4]})
二、丢弃所有重复出现的行
drop_duplicates会返回一个丢弃了所有重复出现的行的DataFrame,默认保留首次观察到的值
c = data.drop_duplicates()
print(c)
三、指明过滤掉某一行的重复的数据
eg:比如我们要滤掉k1列所有的重复值
data['v1'] = range(7)
print("原始值","\n",data)
d = data.drop_duplicates(['k1'])
print("根据k1去重","\n",d)
四、保留最后出现的值,使用关键字keep='last'
e = data.drop_duplicates(['k1', 'k2'], keep='last')
print("根据k1,k2去重","\n",e)