《Python数据分析与挖掘实战》,第三章数据探索
前面的内容偏理论,简单整理下,我感觉有点儿用的吧
数据质量分析
数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般指不符合要求,以及不能直接进行相应分析的数据
脏数据通常包括:
- 缺失值
- 异常值
- 不一致的值
- 重复数据及含有特殊符号(*#¥)的数据
1. 缺失值
缺失值是指记录的缺失或者记录中某个字段信息的缺失
对于缺失值的处理:
- 删除记录
- 对可能值进行插补
- 不处理
可以看看缺失值的个数、占比情况,
2. 异常值
异常值是指样本中的个别值,其数值明显偏离其余的观测值,异常值也称为离群点
这里的异常值,我们就可以使用箱线图来看了,直观方便
相关性分析
分析连续变量之间线性相关程度的强弱
这一篇,大概这些比较有用吧,其他还有些关于pandas的操作,我之前有写过的,这里就不看了,还有些理论知识,感觉暂时没大用处,后面再看吧