利用Pandas合并多个csv文件并去重

前几天写了简单的饿了么爬虫,并按获取坐标保存为csv文件。
就像下面这个样子:


微信截图_20180606112158.png

因为里面数据格式都一样,就利用pandas来合并去重这些csv文件。

import os
import pandas as pd

path = 'c:/1'   #设置csv所在文件夹
files = os.listdir(path)  #获取文件夹下所有文件名

df1 = pd.read_csv(path + '/' + files[0],encoding='gbk')  #读取首个csv文件,保存到df1中

for file in files[1:]:     
  df2 = pd.read_csv(path +'/' +  file,encoding='gbk')  #打开csv文件,注意编码问题,保存到df2中
  df1 = pd.concat([df1,df2],axis=0,ignore_index=True)  #将df2数据与df1合并

df1 = df1.drop_duplicates()   #去重
df1 = df1.reset_index(drop=True) #重新生成index
df1.to_csv(path + '/' + 'total.csv') #将结果保存为新的csv文件
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。