欢迎大家关注公众号【哈希大数据】
一、python实例 合并文件并去重
#!/usr/bin/python#
-*- coding: utf-8 -*-
import os
import pandas as pd
import glob
import csv
def merge_csv(file_address):
csv_list = glob.glob(file_address + '*.csv')
print('该文件下下一共有', len(csv_list),'个csv文件需要合并')
for one_csv in csv_list:
print(one_csv) # read方法是以字符串形式获取内容
one_open = open(one_csv,'r').read()
with open('D:/try/merge_result.csv','a') as f:
f.write(one_open)
print('合并{}个文件完成'.format(len(csv_list))) return 'D:/try/merge_result.csv'
def drop_duplicate(file):
df = pd.read_csv(file)
datalist = df.drop_duplicates() datalist.to_csv(file,header=False)
print('去重操作完成')
if __name__ == '__main__':
file_address = 'D:\\test_accounts1\\'
merge_result = merge_csv(file_address) drop_duplicate(merge_result)
运行结果:
D:\anaconda python\python3.6.exe" D:/vernacular/coding_ziyi/merge_csv.py该文件下下一共有 6 个csv文件需要合并D:\test_accounts1\accounts.csvD:\test_accounts1\accounts_all_0.csvD:\test_accounts1\accounts_test_15.csvD:\test_accounts1\accounts_test_22.csvD:\test_accounts1\success_accounts_15.csvD:\test_accounts1\test_one.csv合并6个文件完成去重操作完成Process finished with exit code 0
二、python介绍 对文件的操作
我们已知程序是无法直接读写磁盘中的文件,而是请求操作系统提供数据操作接口,为我们生成一个文件对象,从而获取或写入需要的数据。因此在python中操作文件也不例外,首先使用Open打开文件的常规的语法为:
open(' D:/try/merge_result.csv', 'r', encoding='gbk', errors='ignore')
1、文件读取第一个参数:读取位置的设置(位置参数,必须指定):
使用相对位置:open('../data/merge_result.csv'),最终执行完成将会在data文件下保存合并数据的结果。从序号可以看出合并数据的结果确实是来自不同的文件。
同理也可以使用绝对位置:'D:/try/merge_result.csv',按照所需进行文件的位置的设置,这其中特别需要注意的是:python中对文件位置分隔符正斜杠’/和反斜杠’\’的使用。因为python中反斜杠‘\’有转义关键字符的功能。
2、文件读取第二个参数:读取方式的设置(位置参数,必须指定):
3、文件读取第三个参数和第四个参数:对文件编码方式的调整(命名参数,有默认值):
encoding指定读取文件的编码方式
errors='ignore'则是忽略文件中出现的编码不一致问题。
对文件的常用操作:
简化操作文件方式:
(可以同时实现文件的打开,读写,关闭操作)
with open('/Users/michael/test.txt', 'w') as f:f.write('Hello, world!')
这样操作也可以防止在实际使用中忘记使用调用close()方法
本次总结
本次主要介绍了python对文件的常规读写操作方式,是最常用的os模块操作之一。下期会接着介绍os模块对系统目录,文件,子模块,系统命令等其他相关操作方式。