一、案例背景
Thera Bank是一家拥有不断增长客户群的银行。这银行中大多数客户的存款规模都是不一样的。由于贷款业务的客户数量很少,所以银行希望有效地将存款用户转化为贷款用户以此扩大贷款业务量的基础,以带来更多的贷款业务,并在此过程中,通过贷款利息赚取更多。
因此,该银行去年为存款用户但未办理个人贷款业务的客户开展了一项推广活动来促使其办理个人贷款业务,有部分客户通过此活动已经办理了相关服务。这时的零售营销部门希望制定更好的策略去定位营销,以最小的预算提高成功率。该部门希望识别出更有可能购买贷款的潜在客户,提高转化的成功率,降低营销的费用。
二、数据理解
本数据集总计5000行,14列数据,对应字段理解如下:
- ID - 客户唯一身份标识
- Age - 客户年龄属性
- Experience - 客户工作经验
- Income - 客户年收入(单位:千美元)
- ZIP code - 家庭邮编
- Family - 客户家庭成员人数
- CCAvg - 每月信用卡消费额(单位:千美元)
- Education - 客户受教育程度(1:本科 2:研究生 3:高级)
- Mortgage - 房屋抵押价值(如有)(单位:千美元)
- Personal Loan - 此客户是否接受上一次活动中提供的个人贷款?(1:是 0:否)
- Securities Account - 是否有证券账户?(1:是 0:否)
- CD Account - 是否有存款证明(CD)帐户吗(1:是 0:否)
- Online - 是否有网银账号(1:是 0:否)
- CreditCard - 是否有信用卡(1:是 0:否)
总体来说,该数据集主要由Personal Loan贷款结果以及一系列用户的身份资产信息等构成
三、数据观察及清洗
本文数据清洗流程上仍然分为初步观察和清洗两步,数据观察主要通过以下几步:
- df.head()——显示前几列数据
- df.info()——显示各列数据类型
- df.describe()——各列数据的描述性统计
针对异常数据类型及数据问题进行修正,修正后重新进行描述性统计,观察数据总体特征
四、 数据分析
整体思路:
1 此次活动效果如何?促成了多少人进行贷款?
2 什么样的人更倾向于进行贷款
- 工作年限对贷款的影响
- 收入对于贷款的影响
- 家庭人数对于贷款影响......
PART 1 活动效果
活动效果即使是否达成该目标,本案例中的目标是进行贷款,因此只需要统计Personal Loan 中贷款和没有贷款的人数即可
通过此次活动,5000名客户中有480名客户开通了贷款业务,占比约10%左右,且该活动仅针对未办理贷款的用户开展,总体来说,业务提升了10%以上,效果已经相当不错
PART 2 贷款潜在客户的相关特征分析
2.1 贷款用户总体特征
要分析贷款用户的潜在影响因素,就是要将是否贷款Personal Loan这一字段与其他字段求出相关性(corr()函数),找出相关系数最大的值并展示
在此基础上进一步划分画板,将各列与personal loan(是否贷款)相关系数进行可视化展示,得到如下结果
从图中可以发现:
1.影响贷款的强相关变量有:收入、每月信用卡消费额、是否有存款账户
2.影响贷款的弱相关变量有:教育程度、房屋抵押价值、家庭人数
3.其余因素如邮编、是否有网银、信用卡、证券账户均对贷款无太大影响
4.年龄和工作年限尽管也无显著影响,但由于其为连续性变量,不排除某一区间内人群对贷款需求较大,后续需进一步分析
2.2 变量相关性的进一步剖析
在上一步的基础上将影响贷款的变量进一步分析,根据变量性质分开处理
定性变量
将本案例中的变量分为定性与定量,分别探究其与是否贷款的影响,本案例中的定向变量主要有是否存在银行存款账户、教育程度、家庭人数等
2.1.1 是否存在银行存款账户
由结果知,开通了存款账户的用户申请贷款的可能性相较于未开通存款账户的用户整整差了六倍,因此想办法让客户开通存款账户未尝不是提高贷款率的手段之一
2.1.2 教育程度
随着学历升高,申请贷款的比例增加,说明高学历用户更倾向于成为贷款用户,侧面反映出学历越高,越能接受超前消费的消费观,越容易成为贷款的潜在用户
2.1.3 家庭人数
家庭人数3-4的客户相对于1-2的客户申请贷款可能性更高,侧面反映出随着家庭成员增加,经济压力逐渐加大,贷款的潜在需求增加,更倾向于使用该业务
定量变量
本案例中主要对定量变量中的年领、收入、信用卡还款额和房屋抵押贷款与是否开通贷款的关系进行探究,由于是定量变量,区间为连续区间,相对于定性变量,为便于了解数据全貌,此类变量应针对不同区间分别统计
2.2.1 年龄
综合来看,贷款用户和非贷款用户年龄差距不大,从具体年龄层来看,32.0-39.0这一年龄段客户更倾向于贷款
2.2.2 收入
其余定量变量如收入、房屋抵押价值、每月信用卡消费额的分析过程与年龄这一变量基本相同
总体来看,高收入群体较低收入群体更倾向于贷款,当收入超过82,贷款人数将达到之前的5倍,超过98,贷款意愿达到17%以上,超过170,贷款意愿达到一半以上,因此收入越高,贷款业务意向越强烈
2.2.3 房屋抵押价值
当房屋抵押价值超过109.5后,贷款意愿明显提高,总体来看,房屋抵押价值越高,客户越倾向于贷款
2.2.4 每月信用卡消费额
大部分贷款用户信用卡消费额平均值接近4,而未贷款用户则接近2,足足是两倍之多,而从用户分层来看,信用卡消费额超过2.8千美金之后,贷款概率提升了4倍,超过6千美金,会回落到0.3左右,较2.8千美金之前有显著提升,因此要重点把握每月信用卡消费额大于2.8千美金以上的客户
五、结论
通过这次活动,个人贷款业务增长了近10%,说明此次推广活动的效果还是不错的
对于开通了银行账户的用户需要加强营销力度,他们的贷款意愿相对于没有开通银行账户更强
教育水平越高的客户越容易接受贷款
家庭人口较多的家庭贷款意愿较强,尤其是独生子女的家庭
年龄区间在30-40岁的客户相对贷款意愿更强
相对收入越高,贷款的意愿越强烈, 当年收入超过82时,贷款意愿会有5倍以上的上升,超过98时,贷款意愿达到17%以上,超过170时,贷款意愿达到一半
当房屋抵押值大于190.5千美元时,贷款申请的意愿有明显的提升
每月消费额在2.8千美元以上的客户,贷款申请的意愿有明显的提升