pandas-学习笔记-数据处理-缺失数据情况

关于数据

数据要通过产生、收集、归纳、分析、整理之后形成相对可靠可分析的数据形式。

之后,再此基础上对数据进行读取、显示、比较、处理、保存、归档。

实现对数据的二次加工、二次挖掘,查找出数据背后的信息与逻辑。

基于该信息(这种信息价值相比一眼看到底的内容,价值还是很大的),实现某种利益。

python是平时工作与学习,打交道比较多的一种语言。很方便,功能很强大,尤其是python包含各种各样的

包,所以功能丰富多彩。

pandas便是其中一员,是否是大将,还得看用的怎么样。不好说。

今天记录pandas学习的一部分内容。

学习pandas起因

原因很简单,看到datawhale举办了一个组队学习。

GitHub网址为:

GitHub - datawhalechina/joyful-pandas: Pandas中文教程



数据缺失

平台:VM-UBUNTU-16    ANACONDA-python.3.7 

step-1:先读取数据,显示,观察

import pandas as pd

import numpy as np

df = pd.read_csv('路径/数据名')  ##为读取data.csv格式文件

df.head()

注:看到的东西,一般是反向思维结果。也就说,遇到了问题,解决了问题,写的过程是反过来的。而且,还要有卖点。发文章用。

step-2:概括总结数据基本特征

如数据的完整性,信息特征、内在的排序、基本常识。更重要的发现数据的目的。只有知道

数据用途,才能判断目前读取的数据是否为好的数据。基于此关于数据缺失,pandas有以下命令:

df['Physics'].isna().head()

df['Physics'].notna().head()

df.isna().head()

df.info()

df[df['Physics'].isna()]

df[df.notna().all(1)]

。。。。。。。

step-3基于以上观察总结,计划目标:实现数据缺失值处理

举例如下:详细请参考以上链接第六章

填充与剔除

fillna; dropna; 

插值

线性插值:

s=pd.Series([1,10,15,-5,-2,np.nan,np.nan,28])

s.interpolate()

高级插值方法

线性之外的插值,比如多项式,指数等等

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。