数据探索神器：Pandas_profiling

写在前面的话

开始做数据分析，最头疼的就是数据探索和清洗了。Pandas里面有很多函数用于初步探索和分析，例如pd.describe()。

今天逛着逛着，发现了一个数据库，能够用一行代码就实现原始数据集的概览分析并生成html文件，这对我们对数据分布的大致情况很有帮助滴。

不过我在安装过程吃了很大的苦头，折腾了整整一个下午才搞定，所以想和大家也分享一下，避免和我一样踩坑！

1.先看一下它强大的report功能

image.png

从截图可以知道，report由5部分组成，分别是

1.Overview（数据概况）：包括列数、行数、缺失率、重复率、变量类型、内存以及对数据的最终结论warning。

image.png
2.Variables（变量情况）：对每个变量进行描述性统计分析，包括缺失值、最小值、Q1、中位数、Q3、最大值、标准差、变异系数等，此外还有直观的直方图可以查看。

image.png
3.Interactions（交互性分析）：对每两个变量进行图表展示。

image.png
4.Correlations（相关性分析）：制作变量间的热力图，进行相关性展示，Spearman、Pearson等各类矩阵都可以查看。

image.png

5.Missing Values（缺失值情况）：对全部变量进行缺失值图表展示。

image.png

6.Sample（数据示例）：对数据的前10行和后10行进行展示。

image.png

这个信息量很足的报告只需要一行代码就可以完成：

image.png

是不是帮我们省了好多力气呀~

2.安装Pandas_profiling

安装很简单，因为我自己用的是Anaconda，所以本来想要conda安装的，不过conda里面没有，所以最终使用pip安装的：
打开cmd》pip install pandas_profiling
安装完如果你的Jupyter Notebook无法打开，并且显示：[AttributeError: module 'attr' has no attribute 's']，则：
打开cmd》pip uninstall attr》pip install attrs
（想想我刚开始打不开Jupyter那痛苦的心情就觉得心塞）

3.使用Pandas_profiling

1.生成报告：data=pd.read_csv('train.csv')》data.profile_report(title='Data')
2.保存报告：data.profile_report(title='Data').to_file('Data.html')

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

数据探索神器：Pandas_profiling

数据探索神器：Pandas_profiling

写在前面的话

1.先看一下它强大的report功能

2.安装Pandas_profiling

3.使用Pandas_profiling

相关阅读更多精彩内容

友情链接更多精彩内容