EDA目标
- 熟悉数据集
- 了解变量间的相互关系
- 为数据处理和特征工程做准备
内容介绍
载入数据科学库和可视化库
- 数据科学库:pandas、numpy、scipy
- 可视化库:matplotlib、seaborn
载入数据
- 载入训练集和测试集 pd.read_csv()
- 简略观察数据 df.head()+df.shape
数据总览
- 熟悉数据的相关统计量 df.describe()
- 熟悉数据类型 df.info()
判断数据确实和异常
- 查看每列存在nan的情况
- 异常值检测
了解预测值的分布
- 总体分布概况(无界约翰逊分布等)
- 查看skewness和kurtosis
- 查看预测值的具体频数
特征分类为类别特征和数字特征,并对类别特征查看unique分布
数字特征分析
- 相关性分析
- 查看几个特征的峰度和偏度
- 每个数字特征的分布可视化
- 数字特征相互之间的关系可视化
- 多变量互相回归关系可视化
类型特征分析
- unique分布
- 类别特征箱型图可视化
- 类型特征的小提琴图可视化
- 类别特征的柱形图可视化
- 特征的每个类别频数可视化
用pandas_profiling生成数据报告
代码示例
- 见jupyter notebook,研究一下如何将notebook里的内容上传