第四阶段可视化案例总结

单车网站业务案例

由于后面的用户消费行为和回购率、复购率还没有完全消化,所以先做前两个部分的用户行为总结


分析运用的工具为Python,其中涉及numpy、pandas两个模块(库),可视化运用的工具为powerbi,分析的过程主要分为四个部分:

1.数据的读取与查看数据基本情况

2.数据清洗与整理

3.用户消费趋势分析

4.用户个体的消费情况

一、数据的读取与查看数据基本情况

1.数据获取的格式为‘txt’文本,在这里使用pandas进行数据的读取,同时对数据的字段进行命名,并设立分隔符,使列表更加美观,增加可读性。

*注:userid:用户ID;order_dt:购买时间;order_product:购买产品的数量;order_amount:消费金额

2.对数据进行基本的查看,如字段的类型、描述型统计;

简略分析:从描述性统计的情况,用户的平均消费产品量为2.4,说明大部分的用户只购买了小量的产品,由于最大值为99,中位数为2,所以该平均值数据受到了极值一定的影响;用户的平均消费金额为35.59,也受到了极值一定的影响;

二、数据清洗与整理

1.首先,为了方便把数据导入powerBI进行数据可视化,所以将order_dt(即购买时间)进行时间格式的转换;

2.其次,由于以下的分析内容按月分组进行分析,所以这里添加一个新的字段month,只显示每月第一日,以此达到按月分组的效果。

三、用户消费趋势分析

分析方向:1.每月消费总额趋势

                2.每月消费次数趋势

                3.每月消费人数趋势

                4.每月消费产品购买量趋势

1.对每月消费总额的数据进行提取。方法:首先对数据进行按月分组,通过求和sum()函数,查看order_amount列的结果,即每月消费总额。

2.对每月消费次数的数据进行提取。方法:在按月分组的基础上,对每月的订单进行计数。

3.对每月产品购买量的数据进行提取。方法同1

4.对每月消费人数的数据进行提取。方法:利用unique函数,查看userid在每月的去重出现情况,然后获取利用map行数返回user_id去重后出现情况结果的长度,效果如下:

为了方便powerbi可视化的操作,我个人把前四个Series都合成为同一个DateFrame表,后两个Series合为一个DateFrame表里,并进行命名,最终以excel格式导出。如下:

可视化展示

1.每月消费总额趋势

分析:1.消费总金额的高峰在前三个月,有可能是因为网站开放进行了一系列拉新的活动;

          2.三个月后,消费总金额在呈现断崖式下降,然后逐渐稳定,有稍微下降的趋势;

2.每月消费产品购买量趋势


分析:由图可知,产品购买量在前三个月达到了最高峰,后续购买量趋于稳定地下降趋势;与消费总金额的趋势情况匹配;

3.每月消费人数与消费次数趋势

分析:1.由图可知,月消费人数低于月消费次数,差异并不大;

          2.在经历前三个月的数据高峰(8000-13000)之后,后续的消费人数与消费次数都呈断崖式下降,然后趋于稳定,都低于平均值(受极值影响),在2000-3000之间。

四、用户个体消费分析

分析方向:1.每个用户每月的消费金额与产品购买量描述性统计

                2.用户的消费金额分布

                3.用户的消费次数分布

                4.用户累计消费金额占比

1.每个用户每月的消费金额与产品购买量描述性统计

方法:为了方便,在这里使用pivot_table()函数创建数据透视表,直接创建按user_id分组的,仅显示消费金额与消费次数的DateFrame表,进行描述性统计并输出为excel表,如下

分析:每个用户平均购买了7个产品,但中位值为3,说明大部分用户只购买了少量的产品;

          每个平均消费总额106,但中位值为3,也与上述判断匹配

可视化:

2.用户的消费金额分布。方法:利用cut函数,以用户的消费金额划分范围,划分100份。范围为0—最大的消费金额值+50,由于取值范围左闭右开,所以+50,步长为50。范围用一个列表生成器定义,而列表的标签则从索引1开始。最终输出excel如下:

可视化:因为极值过大,为了降低影响,利用切比雪夫定理过滤异常值

3.用户的消费次数分布。方法:同上(划分范围与份额不同)

可视化:因为极值过大,为了降低影响,利用切比雪夫定理过滤异常值 :95的有效数据在5个标准差加平局值内,5%的极值可以过滤

4.用户累计消费金额占比:方法:在按userid分组的基础上,以order_amount对表内进行升序,并通过cumsum()函数进行累计计算;然后,在按userid分组的基础上,order_amount对表内进行升序,对表捏字段进行求和;最后把两表相除,得出占比,如下:

可视化:

分析:50%的用户贡献了18%的消费额,排名前20%的用户贡献了70%消费额,排名前10%的用户50%的消费额。一方面说明数据受极值影响较大,另一方面表明消费额排名前20%的是主要的消费群体,根据二八定律,该单车网站业务需要留存好这部分主要消费群体,适当扩展主要消费群体。


总结

1.本阶段遇到的问题主要是绘图函数的各种参数,因为这部分知识点比较庞大,要通过多练习熟悉。

2.业务知识的缺失,通过课程和项目也在不断了解业务知识,接下来需要在日常的学习任务加上业务知识!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,937评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,503评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,712评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,668评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,677评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,601评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,975评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,637评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,881评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,621评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,710评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,387评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,971评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,947评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,189评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,805评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,449评论 2 342