淘宝母婴商品分析报告
一、项目背景及目的
随着电商行业的迅速发展,其内部竞争也越发激烈,商家店铺为了更好地提升销售量,应当逐渐改变运营思维,通过销售数据去了解市场,了解用户,从而制定精准的营销策略。本文以阿里天池母婴用品销售数据为例,通过产品和用户两个方面去分析母婴用品销售情况,得出结论,为商家提出针对性地建议。
二、分析思路及内容
本文分析内容主要分为两部分:产品方面和用户方面。产品方面主要分析了母婴用品总体的销售情况,并对各类产品进行了细分,为商家备货选择、促销推广提供了依据,最后借助逻辑树分析母婴用品销量提升的影响因素,为商家提供销售改进策略。用户方面主要验证婴儿年龄及性别对产品销售量的影响,为商家进行精准营销提供依据。
三、数据处理
3.1数据说明
本文数据来源为阿里天池母婴用品销售数据,数据地址为:https://tianchi.aliyun.com/dataset/dataDetail?dataId=45
数据集中包含两个数据表,分别为商品销售数据和婴儿信息,其中指标具体含义如下所示:
user_id 用户身份信息(作为用户唯一标识)
action_id 购买行为编号
cat_id 商品种类(对应具体的商品种类)
cat1 商品类别(购买商品的类别)
property 商品属性(具体分类信息)
buy_mount 购买数量
day 购买时间
user_id 用户身份信息(作为用户唯一标识)
birthday 婴儿生日
gender 婴儿性别
商品销售数据共计29972条,时间跨度从2012.年7月2日到2015年2月5日,婴儿信息共计953条
为了可以更好地理解数据信息,我们对数据集中的指标进行重命名,具体如表所示:
user_id 用户ID
action_id 订单ID
cat_id 商品ID
cat1 商品类别ID
property 商品属性
buy_mount 购买数量
day 订单日期
user_id 用户ID
birthday 婴儿生日
gender 婴儿性别
3.2数据清洗
本文使用Excel表格工具对相关数据进行清洗,分别进行检查缺失值、删除重复值、数据一致化处理等操作。
3.2.1检查缺失值
商品销售数据表中共计样本数29972条,利用COUNTA函数对各指标样本数进行统计,具体数据如表所示:
指标字段 样本计数
用户ID 29972
订单ID 29972
商品ID 29972
商品品类ID 29972
商品属性 29828
购买数量 29972
订单日期 29972
从表中可以看出商品销售数据各指标字段中商品属性指标中存在缺失值,缺失个数为144,缺失率为0.48%,因为商品属性指标中的数据为编码形式,对销售数据相关分析没有影响,因此本文用0进行填充。
婴儿信息数据表中共计样本数953条,利用COUNTA函数对各指标样本数进行统计,具体数据如表所示:
指标字段 样本计数
用户ID 953
婴儿生日 953
婴儿性别 953
从表中可以看出在婴儿信息数据表中,各指标字段的样本数量均为953条,不存在缺失值。
3.2.2删除重复值
为了对母婴商品销售数据进行有效地分析,本文对母婴商品销售数据进行去重操作,考虑到同一个用户可能会重复下单,本文采取用户ID+订单ID为去重字段,利用Excel数据栏目中“删除重复值”功能进行去重操作,没有发现重复值。
3.3.3数据一致化处理
在母婴商品销售数据和婴儿信息两个数据表中都涉及到了日期数据,但原数据中日期数据为一串数字,为了将其转换为日期数据,本文利用Excel数据栏目中的“分列”功能,将其中的日期元素分离出来,从而实现了数据格式的转化。
3.3数据整合
为了方便对母婴商品销售数据进行用户特征分析,本文利用VLOOKUP函数以用户ID为主键将母婴商品销售数据和婴儿信息两个数据表结合起来,建立商品销售-婴儿信息匹配表。在建立匹配表的过程中发现,商品销售数据中的部分用户没有注册婴儿信息,为了保证数据的完整性,本文将缺失数据进行了删除操作。同时使用IF和DATEDIF函数计算婴儿的年龄,并进行分组操作,其具体函数形式为:IF(G2>H2,DATEDIF(H2,G2,"Y")+1,-1),其中对于那些提前备货的用户的婴儿年龄标注为-1,表示提前备货。在婴儿信息原数据中,婴儿性别为0、1和2,本文使用IF函数对婴儿的性别进行标注,0代表女孩,1代表男孩,2代表未知,可能是用户注册时没有填写,其中性别未知的样本量为26,数据量较小,对相关分析影响不大,为了保证分析的有效性,本文选择将其删除,最后整理好的匹配表形式如图所示:
4产品层面分析
通过时间序列分析、多维度分析、对比分析、逻辑树分析等多种分析方法对母婴商品销售数据进行分析,主要从母婴用品整体销售量变化趋势、不同类别商品细分、销售量变化因素探析三个方面进行。
4.1母婴用品整体销售量变化趋势分析
通过时间序列分析法对母婴商品销售量进行年、季度两个维度的趋势分析。
(1)年度分析
从图1中可以看出,2012年到2015年母婴销售量呈现先增后降的趋势,但其中2012年和2015年的销售数据不完整,只有一部分,因此不做过多对比。其中,2013年全年母婴商品销售量为22813件,2014年全年母婴商品销售量为42241件,销量增长了19428件,增长幅度为85.2%。这可能是因为互联网经济发展良好,拉动了网上购物的销量。
(2)季度分析
从图2中可以看出,不同季度的商品销量有很大的差别,其中第四季度销量最高,第四季度的销量占全年总销量的41.4%,而在第四季度中,11月的销量是最高的,占第四季度销量的55.9%,占全年销量的23.2%。这是由于第四季度临近年底,各种节日增多,商家会推出大量的促销活动,刺激消费者消费,从而拉升销量,同时11月份有淘宝平台进行的“11.11”购物节活动,这种平台性的促销活动也极大地拉升了商品的销量。这就导致全年第四季度销量相对较高,而其他季度销量则相对平均,从图3中也可以看出母婴商品销量的波动变化。
4.2不同类别商品销量分析
将商品进行细分,分析不同类别商品的销售数据,判断哪些商品属于热卖产品,哪些商品属于滞销产品,帮助商家改进进货策略。
从图4中可以看出,整个母婴商品共分6个类别,其中销量排名前三的分别是28、50014815、50008168三类商品,这三类商品销量占比分别为37%、26%、25%。
另一方面,商品总销量=购买次数×单次购买量,从购买次数和单次购买量两个方面分析不同类别商品的特征,其中28、50014815两类商品属于购买次数少,单次购买量大的商品,商家对于这两类商品应该进行组合销售,提高单次成交额,而50008168这类商品属于购买次数多,单次购买量少的商品,对于这类商品商家应该进行长期促销活动,提高消费者购买次数,进而提高销售量,如图6所示。
4.3商品销售量变化因素分析
本文使用对比分析法、逻辑树分析法对母婴商品销售数据变化因素进行分析,由于2012年、2015年两年数据不完整,因此只分析2013年和2014年的数据。从之前的分析中得出,2014年商品销售量比2013年的销售数据有了很大的提升,我们利用逻辑树法对销售量影响因素进行分析。从分析思路图中可以看出,对销售影响因素我们主要从用户、产品、用户行为三个方面进行了分解。
(1)用户方面
在用户方面,本文假设是新用户的增加和老用户复购率增加提升了销售量。通过对用户ID筛选重复值,来确定重复购物的老用户,在2013年和2014年都有过消费行为的即为老用户,统计之后发现,2013年和2014年的老用户仅有5位,而2013年到2014年新增用户有5271位,因此可以确定2014年的销量提升,主要原因是新用户的大幅度增加。
(2)产品方面
在产品方面,本文假设销量提升是因为大量新品上架和原有商品促销,通过筛选2013年和2014年的商品ID发现,2014年新上架的产品共有171种,贡献的销售量为3287件,同时2014年总共销售产品有578种,总销售量为42241件,新品率为29.6%,销售量贡献率仅为7.8%,可以看出2014年销售量的提升主要还是源自老产品销量的提升。
(3)用户行为方面
在用户行为方面,本文假设销售量的提升是因为用户产品连带率的提升以及用户复购率的提升,产品连带率=用户在一次消费中购买了2种及以上的商品购买量/总购买量,这个数值越大,说明用户单次消费中连带购买产品越多。为了计算这个指标,在原数据中构建辅助列,将用户ID+订单日期定义为一次购买行为,如果在一次购买中出现了两种以上产品,就说明用户连带消费行为。通过Excel数据透视表工具进行筛选,发现在一次购买行为中的商品种类均为1,说明用户并没有进行连带消费,销量提升并没有受到产品连带率的影响。
另一方面,如果一个用户出现了多次一样的一次购买行为,说明该用户出现了复购行为,复购行为的增加也会提升销售量,通过数据透视表对复购行为进行统计,发现用户的一次购买行为计数均为1,说明并没有出现复购行为,复购没有对销售量的提升有所影响。
4.4产品销售数据分析总结
母婴用品销售数据逐年上升,说明母婴用品市场发展趋势良好,同时母婴用品销售高峰集中在一年的第四季度,尤其是11月份,商家应该把握机会,在年底的时候加大促销力度,提升产品销售量,在产品细分方面,母婴用品的6个主要类目产品中,销量排名前三的分别是28、50014815、50008168三类商品,这三类商品销量占总销量的88%,商家在备货的时候应该着重关注这三类产品,同时这三类产品具有不同的特征,其中28、50014815两类商品属于购买次数少,单次购买量大的商品,商家对于这两类商品应该提高单次交易销售量,设置例如大礼包、促销装、量大优惠等产品促销活动,提高单次成交额,而50008168这类商品属于购买次数多,单次购买量少的商品,对于这类商品商家应该进行长期促销活动,提高消费者购买次数,进而提高销售量。
在销售量提升影响因素探析方面,本文从用户、产品、用户行为三个方面进行了分析,通过相关数据验证,发现2013年-2014年母婴用品销售提升的主要影响因素分别是新用户的大量增加,以及2013年的热卖产品在2014年销量继续走高,针对这个情况,商家应该积极推出一系列新用户优惠活动,吸引新顾客,同时关注之前的热卖产品,做好相关产品的推广活动。
5用户需求数据分析
通过假设检验分析法,分析不同的用户特征对产品需求的影响,为了方便分析,本文通过VLOOKUP函数构建产品销售数据-用户信息匹配表。
5.1假设不同的婴儿性别会对产品销量造成影响
从图中可以看出,男孩、女孩人数人别为438人、492人,占比分别为47%和53%,男孩、女孩产品购买量分别为559件、935件,占比分别为37%和63%,在男孩、女孩人数相差不大的情况下,女孩的产品购买量大于男孩的购买量,可以说明女孩对母婴产品有更大的需求,为了能进一步确定性别对产品需求量的影响,再用Excel数据分析工具中的方差分析进行检验,检验结果如图所示:
其中P值远小于0.05(置信度),说明男孩、女孩之间对母婴用品的需求有显著地差别。其中,销售量差距最大的是50014815类产品。
5.2假设不同年龄对产品需求量造成影响
各年龄段婴儿中对母婴用品需求量最大的是1岁以下的婴儿,产品购买量为546件,其次是1-3岁的婴儿,产品购买量为488件,同时准父母为尚未出生的宝宝备货的热情也是非常高涨的,婴儿尚未出生的用户人数为144人,产品需求量为237。为了可以进一步确定年龄段对产品需求量的影响,本文用方差分析进行检验,检验结果如图所示:
其中P值小于0.05,说明各年龄段对产品的需求量有显著的产别,1岁以下的婴儿对50014815类产品需求量最高,1-3岁的婴儿对5008168类产品需求量最高,提前备货的准父母们则对各类产品需求相对平均。
5.3用户需求数据分析总结
本文用假设检验法分析了婴儿性别及年龄对产品销售量的影响,并进一步通过方差分析进行了检验,结果发现婴儿的性别及年龄对母婴用品的销售量有着显著地影响,其中女孩比男孩有着更高的产品需求,女孩对50014815类产品需求最高,而男孩对5008169类产品需求最高,商家应该有针对性地对产品设置男女款,分别进行促销,同时婴儿不同的年龄对产品的需求也有显著的差别,其中母婴用品需求最旺盛的分别是1岁以下及1-3岁,同时一些准父母也对会提前备货,因此商家应该加大对低年龄段婴儿的产品推广,同时邀请父母参加相关产品的体验测评活动。