数据探索神器:Pandas_profiling

写在前面的话

  • 开始做数据分析,最头疼的就是数据探索和清洗了。Pandas里面有很多函数用于初步探索和分析,例如pd.describe()。
  • 今天逛着逛着,发现了一个数据库,能够用一行代码就实现原始数据集的概览分析并生成html文件,这对我们对数据分布的大致情况很有帮助滴。
  • 不过我在安装过程吃了很大的苦头,折腾了整整一个下午才搞定,所以想和大家也分享一下,避免和我一样踩坑!

1.先看一下它强大的report功能

image.png

从截图可以知道,report由5部分组成,分别是

  • 1.Overview(数据概况):包括列数、行数、缺失率、重复率、变量类型、内存以及对数据的最终结论warning。


    image.png
  • 2.Variables(变量情况):对每个变量进行描述性统计分析,包括缺失值、最小值、Q1、中位数、Q3、最大值、标准差、变异系数等,此外还有直观的直方图可以查看。


    image.png
  • 3.Interactions(交互性分析):对每两个变量进行图表展示。


    image.png
  • 4.Correlations(相关性分析):制作变量间的热力图,进行相关性展示,Spearman、Pearson等各类矩阵都可以查看。


    image.png
  • 5.Missing Values(缺失值情况):对全部变量进行缺失值图表展示。


    image.png
  • 6.Sample(数据示例):对数据的前10行和后10行进行展示。


    image.png

这个信息量很足的报告只需要一行代码就可以完成:


image.png

是不是帮我们省了好多力气呀~

2.安装Pandas_profiling

安装很简单,因为我自己用的是Anaconda,所以本来想要conda安装的,不过conda里面没有,所以最终使用pip安装的:
打开cmd》pip install pandas_profiling
安装完如果你的Jupyter Notebook无法打开,并且显示:[AttributeError: module 'attr' has no attribute 's'],则:
打开cmd》pip uninstall attr》pip install attrs
(想想我刚开始打不开Jupyter那痛苦的心情就觉得心塞)

3.使用Pandas_profiling

  • 1.生成报告:data=pd.read_csv('train.csv')》data.profile_report(title='Data')
  • 2.保存报告:data.profile_report(title='Data').to_file('Data.html')
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 拿到数据进行分析之前,应该对数据进行探索,所谓的探索性数据分析(EDA: Exploratory Data Ana...
    askka阅读 2,159评论 0 6
  • Jupyter Notebook 利器 入门基础 windows一键安装:3.5.2版本第三方包:windows平...
    Babus阅读 1,945评论 0 1
  • 感恩每一次学习都是心灵的碰撞,不断打开全新思维角度! 感恩小故事大道理。人生许多迷茫都...
    春暖花开_8019阅读 385评论 0 3
  • 就想每天宅在家里,撒开脚丫子,满地跑… 刚开始准备装修房子的时候,就想着陈先生在一边打游戏,我在旁边看书,这滋味,...
    黑胡子船长22阅读 167评论 0 0
  • TextInputLayout是什么 TextInputLayout主要是作为EditText的容器,从而为Edi...
    itfitness阅读 23,335评论 5 25

友情链接更多精彩内容