1、业务背景
随着信息时代的发展,通讯数据伴随着每个人的通讯行为时时刻刻都在产生,它反映了个人日常通讯消费习惯、通话习惯及通讯行为表现出的社交圈等。对于通讯运营商来说通讯数据是核心资产,实现核心资产价值的需求始终存在。对于有信贷业务的企业来说如何拓展数据维度,通过大量碎片化行为数据对客户进行风险评价、提升风控能力是在大数据趋势下势在必行的工作。通讯数据在信贷风控领域的应用对于电信运营商及拥有信贷相关业务的企业来说是双赢的业务结合点,既实现了数据价值最大化利用,又可解决拓展风险评价维度的问题。本文将举例介绍通讯行为数据在客户违约风险评价中的应用思路。(通讯数据均已获得用户授权方可开展业务)
2、通讯数据介绍
某公司提供了客户四类基本通讯信息,包含:客户基本信息、通话详单信息、历史账单数据、通讯录信息,见下图:
直接使用基本通讯数据是无法深度解析客户通讯行为的,需要根据业务经验及专家知识将粗粒度的通讯数据加工为更细维度的模型解释变量,从更深入的角度对客户通讯行为进行描述。以某公司提供的通讯数据为例,通过以上基本信息,加工出以下解释变量:
利用通讯录数据,可发掘出客户与谁联系最多,把联系最多的人定义为通讯亲密度最大的人,通讯亲密度(C)的定义为:
此处赋予主叫通话时间较大权重,体现出客户的主观联系意愿。计算出客户与其各联系人亲密度后按亲密度由高至低排序后赋值,亲密度最高的联系人其亲密度为C20,C20=20;亲密度第二高的为C19,C19=19,以此类推全部赋值,用来计算关系网络分数(S),关系网络分数计算方式定义为:
Vi为客户的联系人违约情况。
这里取前20个通讯关系紧密的联系人(人的社交范围问题可参考《Social Brain Hypothesis》Robin Dunbar,本文不详细叙述)。
通过关系网络分数,可以反映出该客户通讯亲密度最高的社交圈内人群的综合违约情况。
最终,通过基本通讯数据,形成三大类解释变量,对客户进行描述。
本例中涉及的变量衍生方式为特定场景下的结果,仅做抛砖引玉。通讯数据加工及提取根据不同的业务场景及专家知识会有不同加工方式,但是,其原则都是从粗粒度的数据中尽量挖掘出更细维度的通讯数据,对客户的通讯行为进行全面的刻画。在业务实践中必须根据需求结合各方经验多做探索和尝试,才能形成满意结果。
3、思路及方法
本文的问题是通讯数据对信贷客户进行违约风险评价,那么应变量的选择很显然就是客户历史违约数据,此类违约数据可以是历史违约总天数、历史黑名单情况,也可以是两者的综合情况。在违约天数与历史黑名单情况综合情况下,可以对违约天数进行转换,转换为与黑名单数据在同一个标度下数据,也可将黑名单数据转化为违约天数数据标度,然后加和成为应变量。最终的应变量有两种处理方法,一种是确定客户风险高低阈值后转化为离散型0(低风险客户)1(高风险客户),另一种是直接保留连续型数值变量。最终建模数据如下图所示:
建模数据准备完毕后,选择适当的算法建立模型至关重要,对应不同的应变量处理方式,分别可建立分类模型与回归模型,分类模型可对新的样例进行类别预测,并且可输出属于各类别的概率,回归模型可直接对违约天数进行预测。
(1)分类模型:采用离散化0、1描述的应变量,可采用LR、ANN、SVM、GBM等机器学习模型进行建模,基于以上模型的建模需根据模型需要对变量进行进一步处理,例如离散化、归一化等。
(2)回归模型:连续型数值应变量可采用ANN、SVR、GBM,也可选择恰当的link-function建立广义线性模型。
通常在数据集中选取80%的数据作为训练集,20%数据作为验证集,对模型进行训练及验证。通过验证集数据对模型进行评价,分类模型画出ROC曲线或PRC曲线对模型效果进行评价,回归模型可计算均方误差、AIC等对模型进行评价。
最后,选取效果最佳的模型进行线上部署,对客户进行实时信贷风险评价。
4、应用方式
通过对通讯数据与信贷违约情况进行建模,可实现对新客户在通讯行为角度进行风险评价。对于数据维度较宽的企业来说,该模型输出的结果可作为客户在通讯行为的评分,作为解释变量进入最终风控模型;对于数据维度有限,例如只有通讯数据的企业来说,通过此方法建模可实现对客户的信贷风险评价,作为风控环节纳入整个风控体系。
你可能感兴趣的文章
如有转载或合作需求,欢迎联系我们
邮箱:xservice@zhongan.io
微信:1084569292