需要操作的文件如下:
操作之前的csv文件
但文件中数据的顺序是可不考虑的,就是AB=BA,因此需要删掉(.1,3)和(3,1)的其中一个。
经过搜索,发现了这个论坛给出了答案,网址是https://cloud.tencent.com/developer/ask/171141
写的代码如下:
import numpyas np
import pandasas pd
df1 = pd.read_csv('test.csv', encoding='gbk')
res = df1[~df1[['STUID_x', 'STUID_y']].apply(frozenset, axis=1).duplicated()]
print(res)
res.to_csv('无重复test.csv',index=False)
得到删除重复项后的文件:
去除重复项后的操作