在前面两篇的理论和操作中已经说的比较明白,RFM用户分层是根据用户的R(最近消费)F(消费频率)M(消费金额)三个维度来对用户进行切片。
既然是模型就会有缺陷,或者不一定是缺陷只是模型表征为在某些场景下无法更加充分地实现业务需求。所以,这个时候就要对模型进行适当的调整了。
指标L的引入
举个栗子
对于同样的两个流失用户A和B,用RFM模型衡量出来的价值几乎相同,不同的是用户A在2012年进入平台,用户B在2014年进入平台,这个时候两个用户的价值还相同吗?很明显,A用户高的价值是高于B用户的,而且也更加容易召回。
所以,可以加入的指标是用户生命周期L ,用来衡量不同用户在平台的时长,那加入的这个L怎么用呢?
操作实现
依然是基于在tableau中的实现,此次的数据源是自带的supermarket示例。
基础指标创建
L参数,依次创建L=2和L=3和L=4
L值
均值L
模型重建
有没有发现这个分层公式和上一篇的什么不同?
- 去掉了M指标,去掉M是为了在突出F后面会在可视化里做互补
- 弱化了F指标,F会重点体现在老客的分类上
是的,上一篇是中规中矩的分了8个维度层,而有的时候需要对模型进行精简,突出业务场景的问题,尽量降低其他因素的影响(当然了还有更多的时候是要分层分的更细==我去哭会)
可视化
一目了然有木有啊哈哈哈哈哈(气泡的大小代表用户的购买金额)
关于阈值
有没有注意到,每个指标的分类过程中对比的阈值使用的是均值?这里可能会存在两个问题
二分类逻辑:均值有的时候不是最好的阈值对照,在电商的逻辑中往往是‘二八原则’,所以在长尾用户和高净值大客的作用下,我们会被均值会蒙蔽双眼。
计算偏移:最后的模型是建立在两层计算上的,第一个是参数处理后的值,第二个是和均值进行对比。两层流转下,用户的价值信息传递会发生不同程度的偏移。
怎么解决?
- 在分布不均匀的样本中,可以使用中位数代替算数平均值进行分类或者使用分位数直接进行分层。
- 使用数据挖掘算法进行分类,会自动将有相同特征的用户进行分类,最常见的算法叫KMeans聚类算法。
此处留个坑,下一篇写聚类算法下的用户分层建模。
参考:赵彦博的知乎回答
我的tableau public:yangliang的tableau public主页