数据预处理:一些pandas操作

官方文档:十分钟上手pandas
这里主要mark一些常用的操作

0.导入库

import pandas as pd
import numpy as np

1.读数据

data=pd.read_csv('path',header=None,encoding='utf-8',sep = '\t',index_col=0) #读取csv文件
data = pd.read_table('path',header=None,encoding='utf-8',sep = '\t',index_col=0)#读取txt文件

其中后面可以带一些指定的参数,指定编码、分隔符等等

2.导出数据

data.to_csv('path',encoding='utf-8',sep = '\t')  #同样可以指定格式

3.统计

data_sum=data.groupby(by=[0,1]).sum() #统计由(0,1)这两列分组下的总和
data_max=data.groupby(by=[0,1]).max() #统计由(0,1)这两列分组下的最大值
data_max=data.groupby(by=[0,1]).min() #统计由(0,1)这两列分组下的最小值
data_max=data.groupby(by=[0,1]).mean() #统计由(0,1)这两列分组下的均值
data_std=data.groupby(by=[0]).std() #统计标准差

4.修改表

new_data_time.reset_index(name='times')  #重命名列名

5.拼接数据

需求:统计了某列数据的结果,想要拼接到结果表中

data_sum=data_sum.assign(times=data_time[2]) #指定data_sum的列为data_time的数据,相当于把data_time名字为2的列拼到data_sum后

6.设置精度

需求:统计后发现float、double数据小数点位数太多

rret_1=rret_0.round({name1:1,name2:1}) #意思是:将这两列精确到小数点后1位
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容