导读:地久天长的爱情故事总是让人向往,但分手总是来的让人不知所措。如果我能早点知道你为何对我不满,会不会没有走到尽头的一天?同样的戏码也总是发生在企业和用户的身上,如何早知端倪并采取挽回措施,且往下看。
背景与问题
某运营商的用户在使用该公司提供的某套餐过程中,可能因为价格、服务等等各种原因选择继续使用或停用该套餐。对该运营商来讲,如果能够提前预测到哪些用户可能会流失,并找到用户对该套餐不满的原因,进行适当调整,便能最大程度将用户挽回。运营商提供了该套餐的用户数据,希望能预测客户是否会流失。
客户是否会流失的信息很可能隐含在他的通话时间、短信使用、消费情况等信息中。
数据挖掘平台iCloudUnion利用自带的算子快速建立起流失客户的预测模型,帮助运营商根据历史数据分析用户是否会继续使用该套餐,并有针对性地采取挽回措施。
解决方案
在该案例中,客户分为在网客户和流失客户两类,预测客户是否流失为一个分类问题,可尝试选用决策树、随机森林、迭代决策树等分类算法,根据分类效果确定最终模型。
主要分成两个步骤:
第一步:训练和测试分类模型,预测客户是否流失。
第二步:在该套餐数据其他时间段的新数据集上检验训练出的模型效果(训练用了3个月数据,新数据为其他的1年左右的数据)。
第一步:训练和测试分类模型
训练分类模型
上图所示工作流主要分为数据切分、训练分类模型、利用模型分类这几个步骤。
数据切分
在网客户数据量为10万条,流失客户数据量为1万7千条,考虑将在网客户数据三等分(SplitDataByPercent算子),流失客户数据二等分(SplitDataByPercent算子),互相融合(Union算子)形成3份数据(每份数据包含约33000条在网数据和8800条流失数据)。
训练分类模型
用三组数据分别训练出一个决策树分类模型。
利用模型分类
将三个模型和三组数据交叉验证进行分类,可以防止模型过拟合。
输出的结果我们可以双击PerformanceClassification的右端View接口看到,可以对比各个模型的分类效果。
同理,可以构建随机森林和GBDT的分类工作流,经过对比发现GBDT的分类效果最好,具体结果如下表所示。
表1模型测试结果对比
GBDT的混淆矩阵如下图所示:
图8 GBDT模型应用所得的混淆矩阵
第二步:在该套餐数据其他时间段的新数据集上检验训练出的模型效果
多模型应用效果检验
读取和合并新数据,并用三个保存的模型进行分类,同样双击View可以查看分类效果,具体如下表所示:
表2在新数据上的模型测试结果对比
图10 在新数据上GBDT模型应用所得的混淆矩阵
在新数据上测试结果:在网用户预测正确率99.05%,流失用户预测正确率88.39%。
实施效果
此案例中,我们通过训练的GBDT分类模型可以非常精确(97.45%)地辨别出某用户是否会流失。
用户基于此模型来针对性地设计客户反馈方案,对易流失客户进行访问和分析,从而提高服务质量和业务水平。