pandas是处理excel与csv文件的利器,这次我来聚集一下自己所使用到的方法。
读取文件
- 常用
df_= pd.DataFrame(pd.read_excel("路径")) # csv文件使用read_csv
# read_csv的参数skip_blank_lines=True会忽略注释行和空行
# header默认情况下,对有表头的数据识别第一行作为header(即header=0)
# 对无表头的数据,则需设置header=None,否则第一行数据被作为表头,也可以指定行为表头,例如:header=4
# 同时呢,还有encodeing = "", 对文件进行转码读取(需要转码,可能是你的环境有问题)
# converters = {u'账号信息':str},利用converters 可以使得账号前缀 0不会缺失(字符串)
# 下同
- 打开一个ecxel文件里的多张表
df_count = pd.ExcelWriter("路径")
df_yue = pd.DataFrame(pd.read_excel("路径",sheet_name="sheet1"))
df_liushui = pd.DataFrame(pd.read_excel("路径",sheet_name="sheet2"))
处理pandas对象
- 常用
# read_html(网页文本) 读取网页html的table表格标签
pd. read_html(text)
# shape[0] 读取excel表格行数,shape[1]读取列数;
df.shape[0]
# 获取表头列表
columns_list = list(df)
print(columns_list)
# 更改表头
df.columns = ['A','B','C','D']
# excel文件的sheet名称列表
df_sheetnames = pd.ExcelFile(excel_path)
sheetnames = df_sheetnames.sheet_names
# iloc[0,0] 获取excel表格的指定数据
data = df.iloc[i,j] # 行,列
# 同时,也是可以更改数据 df.iloc[i,j] = ''
# 查看是否有重复行
re_row = df.duplicated()
print(re_row)
# 查看去除重复行的数据
no_re_row = df.drop_duplicates()
print(no_re_row)
# 查看基于[物品]列去除重复行的数据
wp = df.drop_duplicates(['物品'])
print(wp)
#整行添加数据
df.loc[a] = ['', '', '', '', '', ''] # a行数(int),或者也可以填index指定行(str)
# 读取行
df.loc[a] # a行数(int),或者也可以填index指定行(str)
# 读取列
df.loc[:,'A']
# 合并
df1.append(df2):将df2中的行添加到df1的尾部
df.concat([df1, df2],axis=1):将df2中的列添加到df1的尾部
df1.join(df2,on=col1,how='inner'):对df1的列和df2的列执行SQL形式的join
# 修改字段类型
df[['two', 'three']] = df[['two', 'three']].astype(float)
# 在excel中的长数据串前面加入单引号('),可解决数据变成科学计数格式!
- 使用
# 合并文件,列合并
lst = [df1, df2]
result = pd.concat(lst,axis=1) axis=1列索引,axis=0行索引
writer = pd.ExcelWriter(filename)
result.to_excel(writer,index=False)
writer.save()
- 不常用
# 数据统计
df.describe():查看数据值列的汇总统计
df.mean():返回所有列的均值
df.corr():返回列与列之间的相关系数
df.count():返回每一列中的非空值的个数
df.max():返回每一列的最大值
df.min():返回每一列的最小值
df.median():返回每一列的中位数
df.std():返回每一列的标准差
# 数据处理
df[df[col] > 0.5]:选择col列的值大于0.5的行
df.sort_values(col1):按照列col1排序数据,默认升序排列
df.sort_values(col2, ascending=False):按照列col1降序排列数据
df.sort_values([col1,col2], ascending=[True,False]):先按列col1升序排列,后按col2降序排列数据
df.groupby(col):返回一个按列col进行分组的Groupby对象
df.groupby([col1,col2]):返回一个按多列进行分组的Groupby对象
df.groupby(col1)[col2]:返回按列col1进行分组后,列col2的均值
df.pivot_table(index=col1, values=[col2,col3], aggfunc=max):创建一个按列col1进行分组,并计算col2和col3的最大值的数据透视表
df.groupby(col1).agg(np.mean):返回按列col1分组的所有列的均值
data.apply(np.mean):对DataFrame中的每一列应用函数np.mean
data.apply(np.max,axis=1):对DataFrame中的每一行应用函数np.max
# 数据清理
df[df[col] > 0.5]:选择col列的值大于0.5的行
df.sort_values(col1):按照列col1排序数据,默认升序排列
df.sort_values(col2, ascending=False):按照列col1降序排列数据
df.sort_values([col1,col2], ascending=[True,False]):先按列col1升序排列,后按col2降序排列数据
df.groupby(col):返回一个按列col进行分组的Groupby对象
df.groupby([col1,col2]):返回一个按多列进行分组的Groupby对象
df.groupby(col1)[col2]:返回按列col1进行分组后,列col2的均值
df.pivot_table(index=col1, values=[col2,col3], aggfunc=max):创建一个按列col1进行分组,并计算col2和col3的最大值的数据透视表
df.groupby(col1).agg(np.mean):返回按列col1分组的所有列的均值
data.apply(np.mean):对DataFrame中的每一列应用函数np.mean
data.apply(np.max,axis=1):对DataFrame中的每一行应用函数np.max
写入文件
- 常用
df.to_excel("路径",index=None) # csv文件使用to_csv
- 在同一个文件写入多张表
writer = pd.ExcelWriter("路径")
df_yue.to_excel(writer, sheet_name='sheet1',index=None)
df_liushui.to_excel(writer,'sheet2',index=None)
writer.save()
小操作
# 分割字符串
text_data = text.split('/')
# 去除字符串空格
str.strip()
# re提取字符串中的数字
text = re.sub("\D","",text_data[1])
print(text)
# 在字符串里插入字符
'#prdList__ct{}_accList__ctl0_accNam'.format('11')
# 昨天日期
yesterday = (datetime.date.today() + datetime.timedelta(days = -1)).strftime("%Y-%m-%d")
os操作
os.path.isfile()和os.path.isdir()函数分别检验给出的路径是一个文件还是目录。
os.path.exists()函数用来检验给出的路径是否真地存在
os.path.exists(path):文件或文件夹是否存在,返回True 或 False。
os.path.basename(path):返回文件名
os.mkdir(path):创建文件夹
os.remove(path)函数用来删除一个文件。
os.listdir(path)返回指定目录下的所有文件和目录名。
os.path.getsize(name):获得文件大小,如果name是目录返回0L
os.path.abspath(name):获得绝对路径
os.path.normpath(path):规范path字符串形式
os.path.split(path) :将path分割成目录和文件名二元组返回。
os.path.splitext():分离文件名与扩展名
os.path.join(path,name):连接目录与文件名或目录;使用“\”连接
os.path.dirname(path):返回文件路径
========================================================================================
os.sep可以取代操作系统特定的路径分隔符。windows下为 “\\”
os.name字符串指示你正在使用的平台。比如对于Windows,它是'nt',而对于Linux/Unix用户,它是'posix'。
os.getcwd()函数得到当前工作目录,即当前Python脚本工作的目录路径。
os.getenv()获取一个环境变量,如果没有返回none
os.putenv(key, value)设置一个环境变量值
os.listdir(path)返回指定目录下的所有文件和目录名。
os.remove(path)函数用来删除一个文件。
os.system(command)函数用来运行shell命令。
os.linesep字符串给出当前平台使用的行终止符。例如,Windows使用'\r\n',Linux使用'\n'而Mac使用'\r'。
os.curdir:返回当前目录('.')
os.chdir(dirname):改变工作目录到dirname
========================================================================================
glob.glob同时获取所有的匹配路径
for im in glob.glob(folder + '/*.jpg'):