一.项目背景
希望通过对数据中的信息进行挖掘,找出需要进行改善的地方,针对性的采取措施,从而提高最后的产品销量。
本次所用数据集含订单表及婴幼儿信息表,数据集字段说明和示例数据分别如下所示:
订单表:
婴幼儿信息表:
二.分析思路
1.销量随时间的变化规律是怎样的?
2.婴儿年龄对产品销量的影响?
3.婴儿性别对产品销量的影响?
母婴产品消费人群的主要年龄段,销量在性别之间是否有差异(用户画像)
母婴产品年度及月度销量趋势(上新时间)
母婴产品销量TOP品类、单品,对应的消费人群(上新品类及单品)
母婴产品中购买力最强的商品属性关键词(上新商品关键属性)
三.数据分析
这里要分析销量的各种关系,所以先对销量数据进行数据清洗:从购买数据可以发现,平均购买量为2.5,这里最大购买数量居然达到了10000,所以购买数据中存在异常数据,这里的处理方法是将超过平均值3倍标准差的异常数据进行剔除,平均值为2.5,标准差为63,剔除购买数量大于191.5的数据。
1.婴儿性别对销量的影响
使用vlookup函数,通过用户id关联,将baby的性别与订单表匹配。
由上饼图可见,baby性别是男孩的用户数量总体是大于女孩的,男孩是销售数量总体也是大于女孩的,销售数量和用户数量占比几乎一致。
我们再看看不同性别购买的最大数量:
通过对比数据可以看到,男孩用户有几笔大额交易的购买数量,160件-25件,而女孩用户的购买数量最大为13,因此,这几笔大的交易量使得男孩的购买量大于女孩的购买量,这里可以对数据进行进一步分析,研究数据来源是否准确,到底是用户本身造成的偏差,还是数据来源的问题。
结论:总体来看,baby的性别对销量并没有直接关系。
2,婴儿年龄对销售的影响
从数据透视结果看到,0-1岁的年龄购买量最高,未出生到3岁的购买量占总购买量的80%以上。我们再看看相同性别内年龄分布对购买数量的影响:
从上图中可以发现,无论男孩还是女孩,0-1岁的年龄购买量是最高的,男孩和女孩的年龄分布也是类似的。
结论:0-1岁的年龄购买量是最高的,从图中可以看出,不同产品即使销量不同,但是趋势类似,即随着年龄的增加,商品的销量出现了较为明显的下降。
3.不同产品销量分布情况
截取销量前15名的单品订单,可以看出,50013636是热销单品,前三名单品分别是50013636,50010558,50013207,销量前15名的单品总销售已经占比40%。
从图中看出,排名前三的类目是5008168,50014815,28。
4.销量随着时间的趋势变化
由图看出整体销量是每年递增的,且每年内的趋势几乎相同,销量在11月达到峰值。