前言
UserBehavior是阿里巴巴提供的一个淘宝用户行为数据集,数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。这些海量数据蕴含着无尽的价值,本文选取淘宝用户行为数据利用SQL进行数据分析,为精细化运营提出指导性意见。
数据集来源于阿里天池:https://tianchi.aliyun.com/dataset/dataDetail?dataId=649&userId=1
项目目标
分析目的:
通过对2017年11月25日至2017年12月3日之间的用户行为数据分析,为客户提供更精准的隐式反馈推荐。
从用户角度:提高用户忠诚度,帮助用户快速找到商品;从网站角度:提高网站交叉销售能力,提高成交转化率。
分析思路:
数据清洗
数据导入
借助Navicat for MySQL将数据(UserBehavior.csv) 导入MySQL中进行处理。
理解数据
数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢),本次共随机抽样100W条记录进行数据分析。
列名称说明:
user_id:用户ID
item_id:商品ID
category_id:商品类目ID
behavior_type:用户行为
timestamp:时间戳
行为类型说明:
pv:商品详情页PV,等价于“点击”
Buy:商品购买
Cart:将商品加入购物车
Fav:收藏商品
清洗数据
对数据进行预处理,包括缺失值,重复值,异常值的处理,目的在于补全缺失数据,删除重复数据,纠正存在的错误,并提供数据一致性。
查找缺失值
对数据进行一个整体的统计,每列的数据均为100W,无缺失值。
查找重复值
用户可以对某个商品进行多次浏览、收藏、加购和购买,但对某个商品在特定时间点只能够有一种行为类型。在此针对所有字段作为一个整体来查重。查询结果如下,无重复值。
一致化处理
timestamp列无法直接进行分析,需要对其列转化为三列,分别为date_time, date,time。
异常值处理
查找日期值,发现有研究价值的的日期区间为2017/11/25-2017/12/3,在此之外的数据,数量极小,按异常值处理。
对2017年11月25日至2017年12月3日之外的数据进行删除处理。
再次验证删除后的数据,日期区间为2017/11/25-2017/12/3,且无明显异常值,符合标准。
数据分析
这一环节的所有结果均为先使用sql分析数据,获得分析结果,然后将分析结果导出到tableau里进行可视化。
用户的行为习惯分析
PV、UV、成交量随日期分布情况
UV,PV及成交量在12月2日和3日显著增长,但同为周末的11月25及26日没有明显增幅,因此周末的原因导致用户活跃度提升的原因较小,更有可能由是于双十二提前的推广活动导致用户开始大量浏览商品,预付定金等。
PV、UV、成交量随小时(hour)分布情况
由图可以看出,24小时内,PV、UV及成交量随着时间的整体变化趋势是一致的。而且PV、UV及成交量的整体走势与我们大多数人的作息习惯是吻合的。
在0-6点访问量和访问人数最低,6点后访问用户增长迅速,至10点逐步稳定,之后呈现稳定略微波动的状态,到18点时有一个较低的点,推测此时为大多数人的晚饭时间。之后用户活跃度开始快速上升,并在20-22时达到一天中用户活跃度的最高值,22点后逐渐回落。
可以考虑在20-22点这个时间段进行一些商品推荐和促销活动,以提高转化率。
用户行为转化分析(漏斗分析)
流量行为转化分析
从上图可见,点击浏览行为占比总行为量的89.61%,而购买仅占比2.04%,由此我们可以计算出转化率,转化率非常低,仅为2.28%。(89.61%/2.04%-=2.28%)
也就是说用户的行为在浏览商品详情页后出现了大量的流失,那么用户是否也是在点击后产生了大量的流失呢?
用户转化分析
新建一张用户行为数据表。
查询用户不同行为数据。
由上图可以看出,用户并未在点击后就大量流失,而且有68.92%的付费用户,用户的购买转化率还是很高的。由此我们推测流量行为转化中用户的点击行为远远大于收藏和加购,用户无法很快获得心仪的产品,这也是最后仅有2.28%转化为购买的原因,可能是要对同种产品进行比较。
所以研究如何提高用户点击后到其他行为的转化是一个重点,可以优化商品推荐以及筛选功能,使用户不用浏览那么多的网页,用更少的选择获得更心怡的商品。
从浏览到购买,用户行为可以如下:
从图中看,用户有四种购买行为的留存。整体来看,点击-加购的用户留存率是最高的(黄色转化率),点击-收藏的用户远小于点击-加购的用户,可能是因为加入购物车后可以直接下单购买,而加入收藏后并没有可以下单的页面,如果需要购买必须重新点击商品进入详情页才能下单,多了一个步骤。
而由四条路线的转化率(绿色转化率)可以看出,用户收藏并加购后购买转化率是最高的(76.82%),故可以通过引导用户进行收藏并加购来提高用户的购买转化率。
针对用户流失情况,我们有初步的分析:
研究之后一段时间内用户是否购买同种类商品,如未购买,表明物品非刚需,但还是能够吸引到用户,说明产品的运维做的很棒;如购买,需要做竞品分析,进一步优化产品运营。
而此次数据时间临近双十二,双十二活动可能会对用户流失有一定影响,用户要先收藏/加购等活动价格更优惠时购买,这需要结合双12活动后的数据做分析。
商品分析
选择用户浏览TOP10商品:
选择用户购买TOP10商品:
由图可以发现,购买量TOP 10的转化率整体比浏览量 TOP 10要好一些,但二者转化率表现均不佳。对此,建议平台方优化算法,精准推送,如商品的分类是否可以更加精准细化,参考用户的购买偏好等,从多方面获取计算。
值得注意的是,其中有六个商品类目同时出现在两个榜单上,说明这些商品都是能够很好地吸引用户注意力的。
用户价值分析(RFM模型)
RFM分析模型
R: 最近一次消费时间间隔(Recency),用户最近一次消费日期距2017/12/3的时间间隔
F: 消费频率(Frequency),用户在2017/11/25—2017/12/3之间的消费频率
M:消费金额(Monetary),用户在2017/11/25—2017/12/3之间的消费金额
由于源数据中没有提供金额(M),所以这次分析从R、F两个维度对客户群进行分析。
我们针对R、F值建立评分体系:
计算用户R、F值:
给每个用户的R、F值评分:
计算出R、F评分平均值:
将用户进行分类:
通过RFM模型对客户群进行划分,可以对不同的用户群体采用不同的管理策略,达到对不同的客户群进行精准营销的目的:
价值客户比较少,需要重点关注并保持,可以有针对性地给这类客户提供VIP服务,提高其满意度,增加留存;
发展客户占比较大,这类客户消费频次低,我们需要提升他们的消费频率,可以通过优惠券叠加等活动来刺激消费;
保持客户占比是最大的,这类客户消费时间间隔较远,但是消费频次高,对于这类客户,应该始终保持关注,主动联系,了解客户的需求,及时满足这类用户的需求,使其一直保持较高的忠诚度,引导持续性消费;
对于挽留客户,需要关注他们的购物习性做精准化营销,以唤醒他们的购买意愿,或通过短信关怀等手段进行唤回,以促使其继续消费。
结论和建议:
用户行为时间模型
可根据用户活跃时段来进行活动促销安排,促销时间安排在20-22点为最佳。在此时间段内,做一些营销活动提高转化率、增加访客数,例如直播,准点秒杀等;并且可在上午十点后开始预告晚上即将推销的商品,带动白天时间段的用户活跃度。
根据留存监控用户的持续用户行为,防止用户流失。
用户行为转化分析
通过对用户行为的转化分析,可以看出用户从点击到购买的转化率还是比较高的,目前来看可以通过引导用户收藏并加购来提高用户从收藏/加购到购买的转化率;
流量行为从点击到购买的转化率仅有2.04%,故从点击到购买的行为转化是一个提高的重点,针对这一环节的建议优化电商平台的搜索匹配度和推荐策略,提高筛选精确度;
优化收藏到购买的操作过程,增加用户收藏并加购的频率,以提高购买转化率。
商品分析
通过对商品品类的分析可以看出能吸引用户点击的商品购买转化率较低。针对用户关注度高但销量不高的这部分产品,可以从以下着手:对于高浏览量商品,建议平台方优化算法,精准推送,减少用户的时间成本,以提高购买量;
对于高购买率商品,建议提高曝光率,可以在电商首页优先进行展现购买topN的商品,结合多平台宣传,提高浏览量,以满足用户的购买需求。
用户价值分析
通过RFM模型分析得到的不同类型的用户,应该采取不同的激励方案。
对于重要价值用户,需要重点关注并保持,应该提高满意度,增加留存;
对于占比最高的保持客户(忠诚度较高,购买能力不足),适当给予折扣或施行捆绑销售销售政策;
对于发展客户,消费频率低,其他值很高,也可考虑发放限时优惠券,或捆绑销售来增加用户的购买频率;
对于重要挽留客户,可通过主动联系客户,调查原因或者推送客户新品信息,关注他们的购物习性做精准化营销,以唤醒他们的购买意愿。