EDA也被称为数据的初步分析,一般包括对以下一些或全部的探索:
单变量的统计特性和分布
- 均值、众数、标准差等
- 分位数,如第一个和第三个是四分位数
- 极端值检验,包括极大值和极小值。
均值:数值型变量的算术平均值,反映整体数值情况。
众数 :出现次数最多的数值或类别,分类和数值变量均可使用。
标准差:反映数据的离散情况,一般认为超过均值左右三倍标准差的数值为异常值。
分位数:中位数表示有一半位于中位数以上,一半位于中位数以下。四分位数即25%,50%,75%,其中25%和75%也被称为下、上四分位数。上下四分位数的差值被称为四分位距(QR)。可用箱线图表示,超过上下四分位数1.5倍QR的数据一般被认为是异常值。
变量分布
除了进行单变量统计量分析,对潜在的预测变量的分布检查也能得出有趣的特征。通常直方图用于连续变量的分布图,饼图或条形图用于名义变量和顺序变量,
直方图:通过将连续变量分段并统计每段频数绘制,如图所示,直方图可以检验连续变量的分布是不是有偏的,图中所示就比较接近正太分布。
饼图和条形图:对于分类变量可以通过饼图和条形图反映每种类别的占比。一种情况是当一种类别变量占分布的主导地位,其他类别都低的多时,应考虑将其他类别合并成一个新的大类。另一种情况是类别种类很多,即高基数性,也需要合并一部分类别。
特征分析
所谓特征分析是评分卡开发过程中对变量进行的广泛分析,包括对连续变量的分段并对每段中正常和违约的分布检查,目的是揭示违约和备选预测变量之间的相关性。即后续会重点介绍的分箱。
列联表:观测数据按两个或更多属性(定性变量)分类时所列出的频数表。目的是为了检验这些变量间是否有相关性,是否具有统计学显著性,这种检验被称作卡方检验。
极端值的识别
信用评分卡的开发过程隐含了两个假设
- 违约状态是预测变量的函数。
2.建模数据集中使用的变量由一个过程生成,该过程可以变现为一个单一的分布,这就是为什么假设一个单一的评分卡可以用这些数据进行建模。
这些假设意味着在这个过程之外的数据被称为极端值,由于生成这些数据的过程是未知的,很难确定哪些值是极端值,能够做的就是尽力找出看起来和大多数数据之间存在很大差异的观测值。这是极端值的一部分来源。
另一部分是因为业务数据存储过程中产生的明显错误,例如某人的年龄是200岁,至少在目前是显然的异常。
识别方法
- 最简单和常用的方法,为每个变量设置一个正常的取值范围,这种方法只对变量单独检验,忽略变量的相互影响,更容易解释和使用。
- 第二种建立在生成数据过程是具有特定函数形式的模型,如线性模型的假设基础上,偏离该模型的观测值被称为极端值。
- 第三种利用聚类算法将数据分为较小的子集,即簇或群,只包含较小观测值得簇或群被认定为极端值。
- 第四种依靠决策树算法发现包含少量观测值得连续节点,此方法在评分卡开发流程中不常用。
处理方法
极端值得定义是相对主观的,很多情况下只是意味着它们与其他数据服从不同的分布,并不是一定要删除,尤其是在占比很高的时候。这种时候可能要考虑是否要正对这一部分开发单独的评分卡。
一种简单的处理方法是用一元分析的某些值代替他们,比如均值、众数。需要注意的是替代值经常会导致被替代的值得分布有偏。
另一种是将极端值转换为缺失值,这种方法也只对每次检查一个变量上的极端值才有效,也可以使用多重归因法。