在分类场景中,逻辑回归模型是常用的算法。它具有结构简单、可解释性强、概率输出软分类等特点。
1.逻辑回归模型
在分类模型中,目标变量是离散、无序型的变量。例如违约与非违约。
伯努利概型
某个事件有“发生”与“不发生”两种互斥的状态。假设该事件发生的概率为p,不发生的概率为1-p,则有:,,合并后有:,在违约预测场景中,单个个体的违约事件可以看成伯努利概型:,参数就是需要预测的目标概率,概率的取值范围为0~1,线性回归并不适用,逻辑回归使用的sigmoid函数作为目标函数:
的特点:
- 单调性
- 有界性
- 可导性
逻辑回归模型的优缺点:
优点: - 结构简单
- 可解释性强
- 支持增量训练模型
- 给出概率而非判别类型,可用于更加复杂的决策
- 工程化容易,方便测试、部署、监控、调优
缺点: - 预测精度一般
- 对变量要求高:
o 输入变量为数值型
o 不能用缺失值
o 对异常值敏感
o 变量尺度差异大时,对结果有影响,需要归一化
o 变量间的线性相关性对模型有影响,需要变量挑选或正则化
2.构建模型
进入模型的变量需要满足以下条件:
1.变量不存在较强的线性相关性和多重共线性:单变量分析与多变量分析可以有一定约束
2.变量具有显著性:变量p值足够小,例如低于0.1
3.变量具有合理的业务含义
模型截距项含义
3.尺度化
得到符合要求的模型后,通常将概率转化为分数,分数的单调性与概率相反,即分数越高,违约概率越小,信用资质越好。尺度化的公式为:
,其中,
:point to double odds
PDO的作用:
假设当前的好坏比为,对应的分数为,当好坏比上升一倍变为,即,此时的分数为,因此的含义为好坏比上升一倍时,分数上升个单位。取值满足所有评分的取值为正。
(如有不同见解,望不吝赐教!!)