一、打开文件
1、导入相关库
import pandas as pd
import numpy as np
import os
from pandas import DataFrame,Series
import re
2、源文件有列名
df =pd.read_csv(r'E:\work\daima\python\forestfires.csv')
3、若源文件没有列名
names=['X', 'Y', 'month', 'day', 'FFMC', 'DMC', 'DC','ISI', 'temp',
'RH','wind', 'rain', 'area']
df=pd.read_csv(r'E:\work\daima\python\forestfires.csv',header=None,names=names)
4、如果文件内含有有中文
df=pd.read_csv(r'E:\work\daima\python\forestfires.csv',encoding='ansi')
注:根据情况调整为encoding='gbk' 或encoding='gb2312',最好将源文件另存为utf-8格式
5、只读读取文件前几列
df=pd.read_csv(r'E:\work\daima\python\forestfires.csv',nrows=5) #只读前5行
6、跳过文件前几列
df=pd.read_csv(r'E:\work\daima\python\forestfires.csv',skiprows=[0,2,3]) #跳过第0,2,3行读取文件
7、处理大文本文件时-chunksieze
#源文件有3000多万行,要筛选a列含有'装修'的所有行
df=pd.read_csv(r'decorate.csv',encoding='ansi',chunksize=100000)#一次读取一万行
for chunk in df:
df_new = chunk[chunk['关键词'].str.contains('装修')] #筛选[关键词]列含有'装修'的所有行
df_new.to_csv(r'xin.csv', index = False, header = False, mode = 'a')
注:关于模糊筛选和精确筛选请参考
Python实现EXCEL常用操作——pandas简介
8、将数据写出到csv文件
data.to_csv(ceshi.csv,sep='',na_rep='NULL',index=False,header=False,mode='a')#data为DataFrame格式变量
data.to_csv(ceshi.csv,index=False,cols=['a','b','v'])#只写出部分列