今天老师带着我们花了整整一天时间针对一份汽车贷款违约数据进行了一次信用风险建模。整个建模过程是在R语言上做的。现在我把今天学到的东西整体罗列一下。
首先,向R中导入数据,通过setwd()创造导入途径,然后用read.csv()对数据进行读取。这里需要读取两份文件:一份是接受客户贷款的的数据A,另一份是在客户申请时被拒绝的客户数据B。这样做的目的是后期合并成一张数据,以保证最后的建模合理性。
接下来需要把数据集A中的解释变量(自变量)和被解释变量(因变量y)分开,目的为了做拒绝推断。做法是由于自变量众多,一般选取客户近期的交易数据作为解释变量,比如客户的五年内信用不良事件数量,FICO打分,可循环贷款账户数量等。解释变量就是是否违约。可通过筛选子集的方式,对数据集A和B建立解释变量数据集Ax和Bx。
2.对数据集Ax和Bx进行数据清洗和数据标准化。
首先对数据中的缺失值进行处理。第一步,下载dfexplore安装包,通过dfplot()来检查两个数据集缺失值情况。图中红线即为缺失值。
然后创建一个函数用来求解缺失比例和缺失个数。函数如下:
NA-detect=function(data){
res=cbind(sapply(data,function(x) sum(is.na(x)))),sapply(data,function(x) sum(is.na(x))/length(x))
colnames(res)=c(‘NA-number’,‘NA-proportion’)
return(res)}
通过NA-detect()查看缺失比例和缺失个数。
由于x变量均为连续变量,可用均值和中位数对数据进行填充。代码如下:
Ax[is.na(Ax$tot_derog),‘tot_derog’]=meadian(Ax$tot_derog,na.rm=T)
其它解释变量填充一样。当填充完毕后,需重新运行NA_detect(),检查缺失值是否填充完毕。
其次,对数据集异常值也要进行处理。处理思想是把每个解释变量按照从大到小进行排列然后把变量的最小和最大的1%的数据赋予新值(新值即是临界点值)。方法是先建立一个函数:
outlier=function(var){
var[var<quantile(var,0.01)]=quantile(var,0.01)
var[var>quantile(var,0.99)]=quantile(var,0.99)
print(‘ok’)
return(var)}
然后应用for循环对Ax和Bx进行赋值。
最后对数据进行标准化,可以采用中心标准化和极差标准化两种方式。
极差标准化算法较简单易理解一点。代码如下:
normalize=function(x){
return((x-min(x))/(max(x)-min(x)))}
Ax=as.data.frame(sapply(Ax,normalize))
Bx=as.data.frame(sapply(Bx,normalize))
3.开始建模并预测。
第一步,合并解释变量Ax与被解释变量Y可通过cbind.data.frame()实现
orgin=cbind.data.frame(Ax,bad_ind)
通过Y变量与数据进行排序。
第二步,对数据集orgin进行数据分区,可采用随机抽样和分层抽样两种方式,这里介绍分层抽样。需要先下载一个包sampling,然后调用strata分层抽样函数对数据集orgin进行抽样。抽样的目的是得到训练集合测试集。
分层抽样代码:
select=strata(orgin,stratanames=‘bad_ind’,size=table(orgin$bad_ind)*0.6),method=‘srswor’)$ID_unit
然后选子集得到训练集被解释变量train_y和解释变量train,以及测试被解释变量test_y和解释变量test。
第三步,调优
调优的目的是让预测模型尽可能准确。主要思想是通过KNN算法通过训练集对测试集进行预测,然后拿测试数据预测得到的被解释变量和测试数据真实被解释变量做列联表,有由于本次测试是风险评估,所以看各k值下不同的覆盖率,得到最大覆盖率所对应的k值等于1。
然后通过得到的k值,再次通过KNN算法对Bx数据进行预测。得到B预测值并合并到B表中。然后通过A数据集中bad_ind内数据求比值(得到比例为3.88,表示不违约客户是违约客户的3.88倍)。对B数据通过分层抽样获得相同比例的抽取。所获得的数据集为C,然后删除C数据集中和A不同的变量,对A和C进行合并。就得到一个既包括被接受样本又包括被拒绝样本的是否违约的数据集data了。
以上过程只是先找到合适的数据集进行建模。
接下来便开始进行建模。
第一步,违约推断
将数据集data中分类变量转换成因子。先找到data中分类变量,然后通过factor()转换。
第二步,对数据集自变量进行粗略筛选。由于原始变量太多,因此在前期需要将不重要的变量进行踢出。
这里可先下载一个party的安装包,调用随机森林算法进行粗筛。方法是先调用cforest函数对原始数据进行随机森林运算。然后通过varimp()计算各变量的差异重要性,并进行排序,可用过画图barplot观察各个变量的差异重要性。最后根据业务经验筛选出前()%的变量。我这里是60%。当然也可以通过IV算法,确定变量个数。
第三步,对变量进行细筛。所用方法是IV算法。大概意思是对每一个变量算出违约与不违约人数占样本总数概率p1和p2,然后(p2-p1)*ln(p2/p1)求出每个变量的差异值。并根据差异值大小进行排序,差异值越大,对预测目标变量越有显著意义。(哦,忘了,还需要对缺失值和异常值处理,这里就不多说了)
第四步,对数据data进行分区。即抽样获得训练样本和测试样本。可通过sample()或者strata()获得比例还是6:4最好。
第五步,对剩下的变量中连续变量进行分箱处理。可用woe分箱转换。此算法主要为后期的打分做准备。可调用woe.replace()对训练集进行分箱转换。得到两个新的转换后数据集train_woe和test_woe.
第六步,建模。通过逻辑回归进行建模。可调用用lm()函数。
模型评估有以下几种可供参考:ROC模型,洛伦兹模型,累积提升度,K-S统计量等方法。
好了,先这样,如有错误,请大家多多指正。