关于数据
数据要通过产生、收集、归纳、分析、整理之后形成相对可靠可分析的数据形式。
之后,再此基础上对数据进行读取、显示、比较、处理、保存、归档。
实现对数据的二次加工、二次挖掘,查找出数据背后的信息与逻辑。
基于该信息(这种信息价值相比一眼看到底的内容,价值还是很大的),实现某种利益。
python是平时工作与学习,打交道比较多的一种语言。很方便,功能很强大,尤其是python包含各种各样的
包,所以功能丰富多彩。
pandas便是其中一员,是否是大将,还得看用的怎么样。不好说。
今天记录pandas学习的一部分内容。
学习pandas起因
原因很简单,看到datawhale举办了一个组队学习。
GitHub网址为:
GitHub - datawhalechina/joyful-pandas: Pandas中文教程
数据缺失
平台:VM-UBUNTU-16 ANACONDA-python.3.7
step-1:先读取数据,显示,观察
import pandas as pd
import numpy as np
df = pd.read_csv('路径/数据名') ##为读取data.csv格式文件
df.head()
注:看到的东西,一般是反向思维结果。也就说,遇到了问题,解决了问题,写的过程是反过来的。而且,还要有卖点。发文章用。
step-2:概括总结数据基本特征
如数据的完整性,信息特征、内在的排序、基本常识。更重要的发现数据的目的。只有知道
数据用途,才能判断目前读取的数据是否为好的数据。基于此关于数据缺失,pandas有以下命令:
df['Physics'].isna().head()
df['Physics'].notna().head()
df.isna().head()
df.info()
df[df['Physics'].isna()]
df[df.notna().all(1)]
。。。。。。。
step-3基于以上观察总结,计划目标:实现数据缺失值处理
举例如下:详细请参考以上链接第六章
填充与剔除
fillna; dropna;
插值
线性插值:
s=pd.Series([1,10,15,-5,-2,np.nan,np.nan,28])
s.interpolate()
高级插值方法
线性之外的插值,比如多项式,指数等等