转载请在文章起始处注明出处,谢谢!
项目介绍:
黑色星期五是美国感恩节后一天,圣诞节前的一次大采购活动,当天一般美国商场会推出大量的打折优惠、促销活动, 由于美国的商场一般以红笔记录赤字,以黑笔记录盈利,而感恩节后的这个星期五人们疯狂的抢购使得商场利润大增,因此被商家们称作黑色星期五。 商家期望通过以这一天开始的圣诞大采购为这一年获得最多的盈利。
数据来源:kaggle网站
分析的主要框架:
1.整体消费的情况
2.用户画像分析(探究最优价值的用户类型:性别、年龄、职业、婚姻)
3.按照职业的维度分析
4.城市业绩分析(城市分布 、居住年限分布)
5.产品分析(探究最优价值的产品)
6产细化分析:产品销售额Top10产品、产品销售额Top10产品类别
7.结论以及建议
导入必要的库和数据集:
字段解释:
User_ID: 用户ID
Product_ID: 产品ID
Gender: 性别
Age: 年龄(分0-17、18-25、26-35、36-45、46-50、51-55、55+共7个年龄段)
Occupation: 职业(由0~20数字组成,分成20个类别)
City_Category: 城市(A,B,C )
Stay_In_Current_City_Years:在当前城市停留的年份(分0、1、2、3、4+共5个类别)
Marital_Status: 婚姻状况(0表示未婚,1表示已婚)
Product_Category_1 产品类别1,是一级分类
Product_Category_2 产品类别2,是二级分类
Product_Category_3 产品类别3,是三级分类
Purchase: 金额(美元)
观测数据:
数据集共有537577条记录,年龄为已经分好区间的文本,产品类别2、3存在缺失值,但不必作处理。
先让我们从整体看下数据的情况:
从此次消费的数据来看,应该是记录的大客户的数据,总的消费额达到了50亿美金,人均消费也达到了惊人的85万美金。
用户画像分析(探究最优价值的用户类型:性别、年龄、职业、婚姻)
根据两幅饼图可知,在这次活动中,男性是消费的主力军,贡献了76.8%的销售额,是女性的三倍多。且参与活动的男性人数约为女性的2.5倍,所以此次活动中,可针对性地多推销男性用户需求的产品。
结合图表可知,26-35岁的人消费和人数在所有年龄段中均是最高的,消费人数和金额主要集中在18-45这个年龄阶段,几乎贡献了80%的销售额。
由表可知,这批用户中已婚和未婚的消费额和人数为‘四六开’,总体上未婚的贡献了更多的消费额。
将上述的三个指标结合起来,综合分析下消费的情况
平均消费的指标中,26-35岁年龄段中的男性,无论是已婚或是未婚,平均消费水平位居前二且差距不大。
从消费能力图中可以看出,26-35岁的男性‘单身狗’总的消费能力极其强大,排第二的是同年龄段的已婚男士。从人数图中可知‘26-35/男性/单身狗’依旧稳居榜首,18-25岁的未婚男士人数排第二。
按照职业的维度来看,哪些职业是消费的主力军呢?
结合图表可知,‘4,0,7’这三个职业消费能力最高,消费总额占比达到了近40%。
从各个城市的角度来分析下消费情况
结合图表可发现,C 城市的参与活动的用户量占总的53%,但是贡献销售额仅仅占了30%,相反B城市是占的总用户量的29%确贡献了40%的销售额,并且AB城市的客单价是分别是C城市的2倍多。我们大致能够猜测到AB城市的消费水品较高,下次举办活动的时候,可以对AB城市的价格适当提高。C城市可以适当降低价格,通过提高销售量来提高销售额。
结合居住年限分析各城市的消费情况
B城市居住一年左右的人消费总额最多,但居住一年的人数最多的并不是B城市而是C城市;B城市中各个年限的总体的消费水平都是要高于AC两个城市的。
商品角度分析
最受用户欢迎的,销量和销售额均在前10的产品如上表所示。
由图可知,产品分类明细中,类别1的销售总额最高,且远远高于其他产品,排名第二的是类别5,接着是8,均只有类别1的一半不到。
男性和女性分别更青睐于哪一款产品?
总结:
1.总体来说此次活动男性购买力大于女性
2.年龄在26-35岁,职业编号为“4,0,7”的未婚男性消费人群属于高消费人群
3.B城市的消费能力最强,C城市最弱
4.B城市居住一年左右的人消费总额最多但居住各年限人数最多的是C城市
5.黑色星期五期间,一级商品分类的5、1、8的销量、销售额是排在前3的
6.最受欢迎的产品是“P00110742”,同事也是男女性最爱买的产品