关于数据

数据要通过产生、收集、归纳、分析、整理之后形成相对可靠可分析的数据形式。

之后，再此基础上对数据进行读取、显示、比较、处理、保存、归档。

实现对数据的二次加工、二次挖掘，查找出数据背后的信息与逻辑。

基于该信息（这种信息价值相比一眼看到底的内容，价值还是很大的），实现某种利益。

python是平时工作与学习，打交道比较多的一种语言。很方便，功能很强大，尤其是python包含各种各样的

包，所以功能丰富多彩。

pandas便是其中一员，是否是大将，还得看用的怎么样。不好说。

今天记录pandas学习的一部分内容。

学习pandas起因

原因很简单，看到datawhale举办了一个组队学习。

GitHub网址为：

平台：VM-UBUNTU-16 ANACONDA-python.3.7

step-1:先读取数据，显示，观察

import pandas as pd

import numpy as np

df = pd.read_csv('路径/数据名') ##为读取data.csv格式文件

df.head()

注：看到的东西，一般是反向思维结果。也就说，遇到了问题，解决了问题，写的过程是反过来的。而且，还要有卖点。发文章用。

step-2:概括总结数据基本特征

如数据的完整性，信息特征、内在的排序、基本常识。更重要的发现数据的目的。只有知道

数据用途，才能判断目前读取的数据是否为好的数据。基于此关于数据缺失，pandas有以下命令：

df['Physics'].isna().head()

df['Physics'].notna().head()

df.isna().head()

df.info()

df[df['Physics'].isna()]

df[df.notna().all(1)]

。。。。。。。

step-3基于以上观察总结，计划目标：实现数据缺失值处理

举例如下：详细请参考以上链接第六章

填充与剔除

fillna； dropna；

插值

线性插值：

s=pd.Series([1,10,15,-5,-2,np.nan,np.nan,28])

s.interpolate()

高级插值方法

线性之外的插值，比如多项式，指数等等