淘宝用户行为分析(SQL取数实现)

前言

UserBehavior是阿里巴巴提供的一个淘宝用户行为数据集,数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。这些海量数据蕴含着无尽的价值,本文选取淘宝用户行为数据利用SQL进行数据分析,为精细化运营提出指导性意见。

数据集来源于阿里天池:https://tianchi.aliyun.com/dataset/dataDetail?dataId=649&userId=1

项目目标

分析目的:

通过对2017年11月25日至2017年12月3日之间的用户行为数据分析,为客户提供更精准的隐式反馈推荐。

从用户角度:提高用户忠诚度,帮助用户快速找到商品;从网站角度:提高网站交叉销售能力,提高成交转化率。

分析思路

数据清洗

数据导入

借助Navicat for MySQL将数据(UserBehavior.csv) 导入MySQL中进行处理。

在Navicat for MySQL中导入 数据源UserBehavior.csv
导入完成(表user_behavior)

理解数据

数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢),本次共随机抽样100W条记录进行数据分析。

列名称说明:

user_id:用户ID

item_id:商品ID

category_id:商品类目ID

behavior_type:用户行为

timestamp:时间戳

行为类型说明:

pv:商品详情页PV,等价于“点击”

Buy:商品购买

Cart:将商品加入购物车

Fav:收藏商品

清洗数据

对数据进行预处理,包括缺失值,重复值,异常值的处理,目的在于补全缺失数据,删除重复数据,纠正存在的错误,并提供数据一致性。

查找缺失值

对数据进行一个整体的统计,每列的数据均为100W,无缺失值。

查找重复值

用户可以对某个商品进行多次浏览、收藏、加购和购买,但对某个商品在特定时间点只能够有一种行为类型。在此针对所有字段作为一个整体来查重。查询结果如下,无重复值。

一致化处理

timestamp列无法直接进行分析,需要对其列转化为三列,分别为date_time, date,time。

异常值处理

查找日期值,发现有研究价值的的日期区间为2017/11/25-2017/12/3,在此之外的数据,数量极小,按异常值处理。

对2017年11月25日至2017年12月3日之外的数据进行删除处理。

再次验证删除后的数据,日期区间为2017/11/25-2017/12/3,且无明显异常值,符合标准。

数据分析

这一环节的所有结果均为先使用sql分析数据,获得分析结果,然后将分析结果导出到tableau里进行可视化。

用户的行为习惯分析

PV、UV成交量随日期分布情况

UV,PV及成交量在12月2日和3日显著增长,但同为周末的11月25及26日没有明显增幅,因此周末的原因导致用户活跃度提升的原因较小,更有可能由是于双十二提前的推广活动导致用户开始大量浏览商品,预付定金等。

PV、UV成交量小时(hour)分布情况

由图可以看出,24小时内,PV、UV及成交量随着时间的整体变化趋势是一致的。而且PV、UV及成交量的整体走势与我们大多数人的作息习惯是吻合的。

在0-6点访问量和访问人数最低,6点后访问用户增长迅速,至10点逐步稳定,之后呈现稳定略微波动的状态,到18点时有一个较低的点,推测此时为大多数人的晚饭时间。之后用户活跃度开始快速上升,并在20-22时达到一天中用户活跃度的最高值,22点后逐渐回落。

可以考虑在20-22点这个时间段进行一些商品推荐和促销活动,以提高转化率。

用户行为转化分析(漏斗分析)

流量行为转化分析

从上图可见,点击浏览行为占比总行为量的89.61%,而购买仅占比2.04%,由此我们可以计算出转化率,转化率非常低,仅为2.28%。(89.61%/2.04%-=2.28%)

也就是说用户的行为在浏览商品详情页后出现了大量的流失,那么用户是否也是在点击后产生了大量的流失呢?

用户转化分析

新建一张用户行为数据表。

查询用户不同行为数据。

由上图可以看出,用户并未在点击后就大量流失,而且有68.92%的付费用户,用户的购买转化率还是很高的。由此我们推测流量行为转化中用户的点击行为远远大于收藏和加购,用户无法很快获得心仪的产品,这也是最后仅有2.28%转化为购买的原因,可能是要对同种产品进行比较。

所以研究如何提高用户点击后到其他行为的转化是一个重点,可以优化商品推荐以及筛选功能,使用户不用浏览那么多的网页,用更少的选择获得更心怡的商品。

从浏览到购买,用户行为可以如下:

用户行为分析

从图中看,用户有四种购买行为的留存。整体来看,点击-加购的用户留存率是最高的(黄色转化率),点击-收藏的用户远小于点击-加购的用户,可能是因为加入购物车后可以直接下单购买,而加入收藏后并没有可以下单的页面,如果需要购买必须重新点击商品进入详情页才能下单,多了一个步骤。

而由四条路线的转化率(绿色转化率)可以看出,用户收藏并加购后购买转化率是最高的(76.82%),故可以通过引导用户进行收藏并加购来提高用户的购买转化率。

针对用户流失情况,我们有初步的分析:

研究之后一段时间内用户是否购买同种类商品,如未购买,表明物品非刚需,但还是能够吸引到用户,说明产品的运维做的很棒;如购买,需要做竞品分析,进一步优化产品运营。

而此次数据时间临近双十二,双十二活动可能会对用户流失有一定影响,用户要先收藏/加购等活动价格更优惠时购买,这需要结合双12活动后的数据做分析。

商品分析

选择用户浏览TOP10商品:

选择用户购买TOP10商品:

由图可以发现,购买量TOP 10的转化率整体比浏览量 TOP 10要好一些,但二者转化率表现均不佳。对此,建议平台方优化算法,精准推送,如商品的分类是否可以更加精准细化,参考用户的购买偏好等,从多方面获取计算。

值得注意的是,其中有六个商品类目同时出现在两个榜单上,说明这些商品都是能够很好地吸引用户注意力的。

用户价值分析(RFM模型)

RFM分析模型

RFM分析模型

R: 最近一次消费时间间隔(Recency),用户最近一次消费日期距2017/12/3的时间间隔

F: 消费频率(Frequency),用户在2017/11/25—2017/12/3之间的消费频率

M:消费金额(Monetary),用户在2017/11/25—2017/12/3之间的消费金额

由于源数据中没有提供金额(M),所以这次分析从R、F两个维度对客户群进行分析。

我们针对R、F值建立评分体系

计算用户R、F值:

给每个用户的R、F值评分

计算出R、F评分平均值:

将用户进行分类:

通过RFM模型对客户群进行划分,可以对不同的用户群体采用不同的管理策略,达到对不同的客户群进行精准营销的目的:

价值客户比较少,需要重点关注并保持,可以有针对性地给这类客户提供VIP服务,提高其满意度,增加留存;

发展客户占比较大,这类客户消费频次低,我们需要提升他们的消费频率,可以通过优惠券叠加等活动来刺激消费;

保持客户占比是最大的,这类客户消费时间间隔较远,但是消费频次高,对于这类客户,应该始终保持关注,主动联系,了解客户的需求,及时满足这类用户的需求,使其一直保持较高的忠诚度,引导持续性消费;

对于挽留客户,需要关注他们的购物习性做精准化营销,以唤醒他们的购买意愿,或通过短信关怀等手段进行唤回,以促使其继续消费。

结论和建议

用户行为时间模型

可根据用户活跃时段来进行活动促销安排,促销时间安排在20-22点为最佳。在此时间段内,做一些营销活动提高转化率、增加访客数,例如直播,准点秒杀等;并且可在上午十点后开始预告晚上即将推销的商品,带动白天时间段的用户活跃度。

根据留存监控用户的持续用户行为,防止用户流失。

用户行为转化分析

通过对用户行为的转化分析,可以看出用户从点击到购买的转化率还是比较高的,目前来看可以通过引导用户收藏并加购来提高用户从收藏/加购到购买的转化率;

流量行为从点击到购买的转化率仅有2.04%,故从点击到购买的行为转化是一个提高的重点,针对这一环节的建议优化电商平台的搜索匹配度和推荐策略,提高筛选精确度;

优化收藏到购买的操作过程,增加用户收藏并加购的频率,以提高购买转化率。

商品分析

通过对商品品类的分析可以看出能吸引用户点击的商品购买转化率较低。针对用户关注度高但销量不高的这部分产品,可以从以下着手:对于高浏览量商品,建议平台方优化算法,精准推送,减少用户的时间成本,以提高购买量;

对于高购买率商品,建议提高曝光率,可以在电商首页优先进行展现购买topN的商品,结合多平台宣传,提高浏览量,以满足用户的购买需求。

用户价值分析

通过RFM模型分析得到的不同类型的用户,应该采取不同的激励方案。

对于重要价值用户,需要重点关注并保持,应该提高满意度,增加留存;

对于占比最高的保持客户(忠诚度较高,购买能力不足),适当给予折扣或施行捆绑销售销售政策;

对于发展客户,消费频率低,其他值很高,也可考虑发放限时优惠券,或捆绑销售来增加用户的购买频率;

对于重要挽留客户,可通过主动联系客户,调查原因或者推送客户新品信息,关注他们的购物习性做精准化营销,以唤醒他们的购买意愿。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,904评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,581评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,527评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,463评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,546评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,572评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,582评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,330评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,776评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,087评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,257评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,923评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,571评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,192评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,436评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,145评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352

推荐阅读更多精彩内容

  • 第一讲 图书馆的类型(多选题) 国家图书馆(中,法,英,美,俄) 公共图书馆(内江市图书馆)一般免费开放 科学与专...
    林汉洲麻麻阅读 1,364评论 0 0
  • 引言:今天谈谈源码文件如何编译Class字节码文件以及字节码文件如何加载到JVM中。 源码转换为字节码文件 1.源...
    竹blue阅读 411评论 0 1
  • 20多岁,是一个让人又爱又恨的年纪。 20多岁的我们,有的即将走出大学,步入社会;有的还没完全做好准备,就已经迷迷...
    小心雨说阅读 519评论 0 1
  • 渐变的面目拼图要我怎么拼? 我是疲乏了还是投降了? 不是不允许自己坠落, 我没有滴水不进的保护膜。 就是害怕变得面...
    闷热当乘凉阅读 4,241评论 0 13
  • 夜莺2517阅读 127,718评论 1 9