简单的违约特征探索

本文章数据截取自一家银行的真实客户与交易数据;涉及客户主记录、帐号、交易、业务和信用卡数据;下载地址:https://pan.baidu.com/s/1mjg8OGS

Note:

本文同时用了dplyr包(处理速度很快)和sqldf包(sql语句写起来比较方便,但是速度没有dplyr快)的方法进行数据整理

导入数据

library(tidyverse)
library(sqldf)
accounts <- read_csv("accounts.csv")
clients <- read_csv("clients.csv")
disp <- read_csv("disp.csv")
loans <- read_csv("loans.csv")
trans <- read_csv("trans.csv")

……………………………………………………

使用“loans”数据,根据“status”变量生成违约标识变量(bad_good),
其中当等于status=A时,#取值为bad_good=0,
其中当等于status in (B,D)时,取值为bad_good=1,
等于status=C时,bad_good为缺失值。*/
A代表合同终止,没问题;B代表合同终止,贷款没有支付;
C代表合同处于执行期,至今正常;D代表合同处于执行期,
欠债状态。

loans <- mutate(loans,bad_good=ifelse(status %in% c("B","D"),1,ifelse(status =="A",0,NA_integer_)))

********************************************************

是否违约与借款人的年龄是否有关系?
借款人的年龄信息在clients表中,所以要将两个表连接起来

#dplyr方法
dpl_data <- left_join(loans,disp,by=c("account_id")
          ) %>% left_join(y=clients,by=c("client_id")
                          ) %>% filter(type=="所有者") %>% select(-one_of(c("disp_id","type")))
#SQL方法
sql_data <- sqldf("select  a.*,c.sex,c.birth_date,c.district_id,
             c.client_id  from  loans as a
       left join disp as b on a.account_id=b.account_id
       left join clients as c on b.client_id=c.client_id
       where b.type='所有者'")
setequal(dpl_data,sql_data)
dpl_data <- mutate(dpl_data,age=floor((as.Date(dpl_data$date)-as.Date(dpl_data$birth_date))/365))
aggregate(dpl_data$age,by=list(dpl_data$bad_good),mean)
 Group.1         x
1       0 36.60591 
2       1 37.55263 

从图中可以简单看出年龄在不同好坏状态下的分布相差不大,相关性应该不大,不过还要进行假设检验才能得出结论

ggplot(dpl_data,mapping = aes(x=as.factor(bad_good),y=age))+geom_boxplot()
image.png

*****************************************************************

是否违约与借款人的资产否有关系?
因为账户余额在“trans”表中,所以要将loans表和trans表连接

dpl <- left_join(loans,trans,by="account_id",suffix = c("_x", "_y")) %>% arrange(account_id,date_y) %>% select(
  -one_of(c("trans_id","type","operation","amount_y","k_symbol","bank","account" ))
) %>% rename(date=date_x,amount=amount_x)
data2<-sqldf("select  a.*,b.balance,b.date as t_date  
              from  loans as a
              left join trans as b on a.account_id=b.account_id
              order by a.account_id,t_date")

dpl$date2 <- as.Date(dpl$date)
dpl$date2_y <- as.Date(dpl$date_y)
dpl$balance2 <- as.numeric(substr(gsub(",","",dpl$balance),2,nchar(dpl$balance)))

dpl <- select(dpl,-one_of("date","date_y","balance"))

只需要贷款前一年内的账户余额

dpl2 <- filter(dpl,date2>date2_y & date2<=date2_y+365)

dpl4<-select(dpl2,account_id,status,amount,balance2) %>% 
  group_by(account_id,amount,status) %>% 
  summarize(avg_balance=mean(balance2,na.rm = T),stdev_balance2=sd(balance2,na.rm = T))%>%
  arrange(account_id)
data4<-sqldf("select  a.account_id,a.status,a.amount,
              avg(balance2) as avg_balance,
             stdev(balance2) as stdev_balance2
             from dpl2 as a
             group by a.account_id
             order by a.account_id")
dpl4$bad_good<-ifelse(dpl4$status=="B" 
                       | dpl4$status=="D",1,
                       ifelse(dpl4$status=="A",0,NA))
dpl4$bad_good <- as.factor(dpl4$bad_good)

资产高低和违约的可能性是否有关系?
从图可以看出资产低的客人违约的可能性较高

with(dpl4,{
  aggregate(avg_balance,by=list(bad_good),mean)
})
Group.1        x
1       0 42499.40
2       1 34642.31
ggplot(dpl4,mapping = aes(x=bad_good,y=avg_balance))+geom_boxplot()
image.png

贷款数额高的客人违约的可能性较高

with(dpl4,{
  tapply(amount,bad_good,mean)
})
0         1 
 91641.46 205002.00 
ggplot(dpl4,mapping = aes(x=bad_good,y=amount))+geom_boxplot()
image.png

贷款额度超出资产越高的客人违约的可能性较高

dpl4 <- mutate(dpl4,rate=amount/avg_balance)
with(dpl4,{tapply(rate,bad_good,mean)})
ggplot(dpl4,mapping = aes(x=bad_good,y=rate))+geom_boxplot()
image.png

资产波动越高的客人违约的可能性较高,不过不明显

with(dpl4,{tapply(stdev_balance2,bad_good,mean)})
ggplot(dpl4,mapping = aes(x=bad_good,y=stdev_balance2))+geom_boxplot()
image.png
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,313评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,369评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,916评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,333评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,425评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,481评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,491评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,268评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,719评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,004评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,179评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,832评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,510评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,153评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,402评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,045评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,071评论 2 352

推荐阅读更多精彩内容

  • 中华人民共和国合同法全文 2017-03-03 1039 合同法规 总 则 第一章一般规定 第一条为了保护合同当事...
    米兰越阅读 483评论 0 1
  • “2016年至今(截至2017年8月23日),银行间、上海、深圳三市共有33个发行主体出现实质性违约,涉及78只债...
    重名这么多阅读 496评论 0 3
  • 长期的竞争优势植根于诸多结构性特症,而管理者对这些特征的影响其实极为有限。 从根本上讲,初创企业的投资者应该投资于...
    棒棒黑眼圈阅读 166评论 0 0
  • 醒来的时候 不知道自己为什么哭 时常会有的事情 做过的梦总是回想不起 只是 一种有什么消失的丧失感 ——新海诚《你...
    好事多磨_阅读 341评论 0 0
  • 良宵解语楼东 倚风清影香浓 喜乐悲欢一梦 空山寂寂 流水长伴春红
    芳芳的梦想实验室阅读 829评论 13 11