1、背景
目的:平台每日活跃用户没有显著提升,但用户构成比例中新访客比率逐渐上升,老用户的留存率逐渐下降,根据需求进行付费用户流失情况作一个专题分析,内容包括:流失用户识别,定位用户流失原因,预警即将流失用户并提供用户分群名单给运营人员做重点运营
2、问题分析与模型构建
定义流失周期——抽取用户行为特征、消费特征数据——建立决策树模型——用户流失预警
2.1、确定用户流失周期
随着周期越长,用户的访问率越低,存在一个时间拐点,在该周期后的用户访问率随周期的延长而下降缓慢,下降缓慢的这批用户即为平台长期活跃的用户,而该周期即为用户流失周期。
STEP1
从日志数据表抽取某时间段数据建立用户最后一次活跃日期的临时表,该表包含用户id、最近一次登录时间两个字段。
STEP2
从用户访问表中抽取此段时间前某时间节点有过登录行为的用户,建立临时活跃表。
STEP3
以周(天)为时间间隔分别统计此时间段每周(天)回访用户数,进一步计算回访户用比例,统计汇总成曲线图。

可以看到,第五周后回访率下降速度减慢,可将出现连续5周未登录APP的用户定义为流失用户。
2.2抽取用户行为特征、消费特征数据
指标选取依据:
(1)用户人口统计学特征
(2)根据用户访问路径:访问、注册、浏览、付费、评价提取相对应指标,并以日为粒度提取用户行为指标

其中,具有流失倾向的用户在访问行为上可能回显著不同于正常用户,而消费行为则反应用户对平台的忠诚度
2.3建立决策树模型
决策树是一种常见的数据挖掘方法,由于其具有很好的解释性,可以有助于定位原因。
2.3.1查看数据基本情况


2.3.2将数据集划分为训练集和测试集

2.3.3 网格搜索法找出最佳参数

2.3.4训练模型

2.3.5模型评估
评估指标采用ROC曲线:
ROC曲线纵坐标为真阳性率(True Positive Rate,TPR),
横坐标为假阳率(False Positive Rate,FPR),

因此,FPR和TPR是一对相互制约的关系,FPR越大,说明犯第二类错误的样本越多,把样本判定为正例的可能性就越大(条件越宽松),所以AUC(Area under roc Curve)越大,说明该模型的性能越好

2.3.6可视化结果


3.后续分析
可通过线上部署脚本,定期将前5周用户产生的数据预测用户流失状态,并结合RFM模型分析不同用户群中流失用户的特征,针对性地制订挽留方案。
另一方面,也需要从调研的角度对流失用户的原因从定性、定量的角度作出深入研究。