Ali_Mum_Baby数据分析

一. 分析背景与目的

销售额=客单价×销售量,通过分析该数据集的销售量来分析其销售情况。

1. 商品维度:哪些品类商品更受欢迎,对于后续的运营有何指导?

2. 用户维度:不同年龄阶段,不同性别之间的用户购买喜好如何?哪些用户的价值更高?

二. 数据来源与分析工具

数据来源阿里云天池: https://tianchi.aliyun.com/dataset/dataDetail?dataId=45

分析工具:MySQL, Excel, PPT

三. 数据预处理

3.1数据探索:

各列数据意义:

TableColumnDiscription

table baby(94*3)

user_id: User ID (Bigint).

birthday: Children’s birthday (e.g. 20130423).

gender: Children’s gender (“0” denotes female, “1”  denotes male, “2” denotes unknown).

table babyh(1000*7)

user_id: User ID (Bigint).

item_id: Item ID (Bigint).

cat_id: Category ID (Bigint).

cat1: Root category ID (Bigint).

property: Property of the corresponding item  (String).

buy_mount: Purchase quantity (Bigint).

day: Timestamp.

3.2 数据处理:

a) 缺失值处理

缺失值确认:

select  sum(case when user_id is null then 1 else 0 end) as a,

sum(case  when birthday is null then 1 else 0 end) as b,

sum(case  when gender is null then 1 else 0 end) as c from baby;


select  sum(case when user_id is null then 1 else 0 end) as d,

sum(case  when auction_id is null then 1 else 0 end) as e,

sum(case  when cat_id is null then 1 else 0 end) as f,

sum(case  when cat1 is null then 1 else 0 end) as g,

sum(case  when property is null then 1 else 0 end) as h,

sum(case  when buy_mount is null then 1 else 0 end) as i,

sum(case  when day is null then 1 else 0 end) as g from babyh;


通过select sum(case when ** is null then 1 else 0 end) from table;未发现各列存在缺失值,但是从判断0值中发现property列存在140rows的缺失值;

select  count(property) from babyh where property=0;


缺失值处理:缺失值一般有四种处理方法:人工手动补全,删除缺失数据,用平均值/中位数/众数代替,用统计模型计算出的值代替;此次对缺失数据直接进行删除。

删除缺失值

delete  from babyh where property=0;

b) 异常值处理

出生日期:发现baby表中出生日期有1984年的异常值,删除。

性别:分组汇总得男孩总计433名,女孩总计485名,26条记录不明性别(删除);

select gender, count(gender) from baby  group by gender;


c) 增加年份、月份和孩童年龄列;

alter  table babyh add column yearh int not null;

update  babyh set yearh = left(day,4);

alter  table babyh add column monthh int not null;

update  babyh set monthh = mid(day,5,2);

alter  table babyh add column age int not null;

update  babyh set age = 2015-yearh;

四. 数据分析正文

导出数据,进行可视化。

4.1整体趋势角度


从时间上看,2012~2014年的销量均为稳步提升,且2014年增幅更大,较2013年增长了60%,尤其是2014年9月份,销量占全年销量的16.3%(上图数据为删除极大异常值:一用户在12月产生10000销量数据,此数据需要再确认,如非数据错误,则此客户需要特殊对待)。


从2013和2014年全年销售情况看,Q1为销售淡季,Q3为销售旺季。

4.2从用户维度

上图为购买量前30的用户,联系实际的正常用户每年的儿童物品购买量,这些用户应该为批发用户。

利用RFM模型区分用户价值:R指的是最近一次消费 (Recency),F指的是消费频率 (Frequency),M指的是消费金额 (Monetary)。如前所述,用户id均是唯一值,数据集仅有用户一次购买的数据,因此无法做消费频率(F)的分析;因为仅有销售数量而没有消费金额(M)记录,所以用每笔订单的消费件数来代替消费金额进行等级划分。

R值和M值的五档区间范围是:




根据RFM模型计算结果,1.4%的用户为高质量客户,这些用户购买量大,且近期活跃,需要重点维护;43.2%的用户为发展客户,这些用户的单次购买量不是很大,但是近期活跃于,可以通过推荐新品等措施来挖掘客户价值;1.6%的用户为挽留客户,这些用户的购买量高于均值,但是已经有一段时间没有购买,需要采取诸如优惠券等措施挽回;53.9%的用户为一般客户,此类用户的购买量不大,且也已有一段时间未消费,正常维持即可。

4.3从商品维 


1. 上图为总销量排名前20的商品销售情况,商品50003700和250822在Q1销量较好;商品50018831,50013636,50003700,50010558,50019308和50024439在Q2销量较好;商品50007016,50002524和50006602在Q3季度销售情况较好;商品50018831,50013636, 50011993, 50016006和50005953在第四季度销量较好;相对来说,商品50018831, 50013636, 211122在四个季度的销量相对较均匀,都居于前列,日常可多备货。



2. 男女宝宝人口占比相差不大(47% vs53%),但是销售量差别较大(38% vs 62%)。


1~4岁儿童占比较大,相应地,销量主要也是分布在此年龄段,可选择性地多上架此年龄阶段的商品;且3~8岁儿童中,女生销量明显高于男生,故而相对可多上架此年龄段女宝宝的相关商品;

五. 结论

1. 近几年总体趋势呈利好状态。从2012~2014年的数据来看,销售数量呈现逐年递增的趋势,2015年1~2月总体销量较2014年对应月份高。

2. 对高价值用户进行专门维护。运用RFM模型寻找不同价值用户,采取不同措施进行维护。如1.4%的用户为高质量客户,这些用户购买量大,且近期活跃,需要重点维护;43.2%的用户为发展客户,这些用户的单次购买量不是很大,但是近期活跃于,可以通过推荐新品等措施来挖掘客户价值;1.6%的用户为挽留客户,这些用户的购买量高于均值,但是已经有一段时间没有购买,需要采取诸如优惠券等措施挽回;53.9%的用户为一般客户,此类用户的购买量不大,且也已有一段时间未消费,正常维持即可。

3. 热门商品重点把控。从2012~2014年销售数据来看,销售旺季主要在5月份和9月份。商品50003700和250822在Q1销量较好;商品50018831, 50013636, 50003700, 50010558,

50019308和50024439在Q2销量较好;商品50007016,50002524和50006602在Q3季度销售情况较好;商品50018831, 50013636, 50011993,

50016006和50005953在第四季度销量较好;商品50018831, 50013636, 211122在四个季度的销量相对较均匀,都居于前列,可以着重关注,做好库存。

4. 增大1~4岁宝宝用品数量,尤其是女宝宝的商品数量。从数据来看,1~4岁儿童占比较大,相应地,销量主要也是分布在此年龄段,可选择性地多上架此年龄阶段的商品;且3~8岁儿童中,女生销量明显高于男生,故而相对可多上架此年龄段女宝宝的相关商品。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,463评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,868评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,213评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,666评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,759评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,725评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,716评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,484评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,928评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,233评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,393评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,073评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,718评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,308评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,538评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,338评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,260评论 2 352

推荐阅读更多精彩内容