初识大数据风控

现在负责一款风控产品的开发，想跟大家聊一下关于大数据风控的话题，下面是我整理的一些材料，欢迎讨论...

什么是大数据风控？

简单来说，就是在互联网时代，人们大量的信息都被数字信息记录了下来，形成一个庞大的数据库，通过一些技术手段可以将传统金融风控所需要的信息提取出来，通过机器的大规模数据运算，完成大量用户的贷款申请审核工作，提升工作效率。同时也可以依据这些数据及网上验证身份主体的手段，建立一套针对互联网人群的小额贷款风控体系，最近炒的比较热的大数据风控，主要是通过“数据库”做好反欺诈、身份核实、失联修复、用户资质授信、还款意愿评估、还款能力评估及稳定性评估等，决定是否放贷以及放贷额度、贷款利率。

数据来源

对于大数据风控业务而言，数据来源主要包括几部分：

一是用户申请时提交的数据信息，如年龄、性别、籍贯、收入状况等，这些数据可以了解用户的基本情况，验证用户的身份；

二是用户在使用过程中产生的行为数据，包括资料的更改、选填资料的顺序、申请中使用的设备等，可以通过用户的行为来进行特征挖掘；

三是用户在平台上累积的交易数据，如果公司运营比较久的话，可以累积比较多的用户借款相关数据，这类数据对于判断用户信用会有很高的价值；

四是第三方数据，包括来自政府、公用事业、银行、运营商等机构的数据，以及用户在电商、社交网络、网络新闻等互联网应用上留存的数据。这类数据可以从多角度展示用户的特征，利用这些数据进行建模分析，可以找出不同特征与信用水平之间的相关性。

建模分析

大数据风控模型构建的两个必要步骤，一是发现不同特征与违约之间是否有相关性，二是为不同的特征赋予权重或违约概率，以确定拥有多项特征的用户的信用状况，决定是否提供金融服务、具体的额度以及利率水平。

建模的技术主要包括logistic回归、决策树、普通线性回归、分层分析、聚类分析、时间序列等机器学习算法，随着人工智能技术的进步，神经网络、强化学习等前沿的算法也已经运用到大数据建模过程中。

模型开发出来后，应用到具体的信贷等金融活动中，等若干个放款周期结束后，会有结果数据出来，这时候需要依据这些运营数据对模型进行修正，经过一次次的迭代，模型的有效性、实用性会逐步提升。

例如，一家企业完成了100万单的信贷记录，这就意味着在贷款陆续到期后，其大数据风控体系将收获100万的数据样本，这些数据样本与用户信用高度相关，具有很高的价值，使用这些数据对风控模型进行进一步的优化，可以提升风控的有效性。由此可见，大数据风控需要与具体业务紧密结合，不断“学习”，才能够稳定、可持续的升级，对业务有进一步的指导意义。

总体来说，目前大数据风控还在发展初期，未来行业一个可能的演化路径是：一些拥有数据资源和技术算法优势的企业在市场规模上具备了一定优势后，拥有更多的数据资源来支持模型的优化迭代，强化其技术优势，从而可以在控制风险的基础上提高贷款申请的通过率，使自己技术支持下的交易规模越做越大。在不考虑黑天鹅事件的前提下，行业可能出现强者恒强的马太效应。

就我所见到的数据分析维度比较全面的公司是蝙蝠征信

http://www.bianfuzhengxin.com/dataCenter/1.html

大数据风控企业

就线上小额贷款来说最关键的还是数据来源和数据的真实性，风控模型的构建和优化都是建立在前期不断的试错上，而这确是需要很大的资金投入。技术都是在数据基础上的应用，只有构建好底层数据，技术才能发挥优势。

初识大数据风控

推荐阅读更多精彩内容