本文是数据分析入门课程的毕业项目,我选的题目是电商购物平台母亲节礼品特征分析。
前言
分析背景
不知道大家有没有感觉到给老人送礼是个难事,也是门学问。出于好奇心和孝心,想对电商购物平台母亲节礼品的购买数据进行分析,找出一些数据指标,比如:价格,销量,类别等。从而找到大家买得较多较好的礼品类目,指导未来为老人送礼的购买决策。-
所需解决的问题
- 主要有哪几类经常送老人的礼物?
- 在某一个大类产品中,可以细分为哪些具体的产品?
- 销量前十的产品有哪些?
- 销量前十的产品的品牌有哪些?
- 销量和价格是否存在一定的关系?
数据集描述
本项目使用的数据都是通过八爪鱼抓取的天猫上的数据。这里选取了三类商品,分别是老人按摩类商品、老人医疗及健康服务类商品、老人手机。因此数据集由这三类商品构成。收集了商品的标题、价格、品牌、月销量、累计评价、商品名称等信息。
遇到的问题:天猫对爬虫软件有限制,导致无法一次抓取到全部数据。最后采用了一个workaround,因为八爪鱼里第二页搜索结果抓不全(似乎天猫的防抓取规则是通过计时间来完成的),重新从第二页开始抓取数据(指定打开的网页从第二页开始)。八爪鱼的使用不在本文的讨论范围。
方法论
做这个毕业项目,主要的方法论是根据Tiger提供的数据分析(Data Analytics)套路。
项目步骤
- 数据获取:通过八爪鱼抓取天猫的数据。
- 数据清洗:整理数据,将不规范的数据规范化,缺失的数据补齐。
- 数据分析和可视化:确定数据指标,并将分析结果可视化。
- 商业洞察和最终的分析报告。
数据清洗
因为抓取的按摩产品数据包括很多商品,比如:按摩椅、腿部按摩器等。而标题并不能完全反映出商品名称,手动处理,添加商品名称列。产品名称和型号个人感觉作用不大,抓取的数据很多有误,决定抛弃这两列数据。
其他数据清洗包括:去掉重复数据,填充数据。
df = pd.read_excel(data, 'All')
df.drop_duplicates()
# 填充空值
df['促销价格'] = df['促销价格'].fillna(df['价格'])
df['价格'] = df['价格'].fillna(df['促销价格'])
df['累计评价'] = df['累计评价'].fillna(0)
数据分析和可视化
- 按摩类产品之按摩椅
按照累计评价降序排列,找出前十个产品:
按照月销量降序排列,找出前十个产品:
结论:大部分按摩椅的价格小于10000。10000-50000之间占很小的部分。最高价格接近50000。其中,价格在5000左右的占比最高。
大部分按摩椅的累计评价也就是累计销量都小于1000。1000-4000的数量非常少。
- 按摩类产品之按摩床垫
按照累计评价降序排列,找出前十个产品:
按照月销量降序排列,找出前十个产品:
结论:按摩床垫价格比较便宜,大部分价格小于275。价格在200-212之间占比最高。大部分按摩床垫的累计销量都小于2000,大于10000的很少。
- 其他按摩产品
按照累计评价降序排列,找出前十个产品:
按照月销量降序排列,找出前十个产品:
结论:其他按摩产品的大部分价格都小于750,价格小于125的占比最高。大部分累计销量小于2000。
- 按摩类产品总的分析
结论:最受欢迎的按摩产品是按摩椅,数量占总数据量的65.69%,其次是其他类按摩产品,数量占总数据量的28.43%。在其他类按摩产品中,最受欢迎的是腿部按摩器,数量占总数据量的34.48%, 其次是手持按摩器,数量占总数据量的22.41%,第三是脚步按摩器,数量占总数据量的20.69%。
- 医疗健康类产品之体检卡
按照累计评价降序排列,找出前十个产品
按照月销量降序排列,找出前十个产品
结论:体检卡的价格大部分小于1500,最多集中在1000左右。1500-2500的较少,大于2500的更少。累计销量大部分小于250。累计评价前十的体检卡机构瑞慈占50%,普惠和爱康国宾占20%,慈铭占10%。
- 医疗健康类产品之其他产品
结论:医疗健康类产品之其他产品的价格大部分小于100,累计评价大部分小于10。从饼图中可以看出高血压慢性病管理服务占60%,心理咨询占40%。
- 手机
按照累计评价降序排列,找出前十个产品
按照月销量降序排列,找出前十个产品
结论:老人手机大部分价格小于1000,价格更多集中在小于500的范围内。累计销量大部分小于25000。从饼图中看出,累计销量前十的老人手机品牌,第一的是尼凯恩,占30%,第二是小米,占20%,纽曼、诺基亚、中兴、天语、优思各占10%。从散点图中看出,销量较好的手机价格都小于1000。但并不能看出销量和价格之间确定的关系。
分析结论
按摩产品受欢迎程度:按摩椅 > 腿部按摩器 > 手持按摩器 > 脚步按摩器
如果为老人选购按摩产品的话,首选是按摩椅。具体买哪一种按摩椅可以参考按累计评价排名前十的按摩椅。而参考月销量排名前十的按摩椅可以看到近期的一个趋势。医疗健康类产品中体检卡的销量不高,说明人们还是很少在电商购物平台购买这类产品。其中健康服务类:高血压慢性病管理服务和心理咨询的销量就更少。这是新兴的网购产品,高血压在老人中还是非常普遍的。也许未来可以扩大医疗健康类产品的市场,人们在电商购物平台可以方便地购买各类产品将成为一个趋势。
几个体检机构瑞慈,普惠,爱康国宾和慈铭也可以指导我们在线下的购买体检卡的决策。受欢迎的老人手机价格比较便宜,受欢迎的有这几个品牌:尼凯恩,小米,纽曼,诺基亚,中兴,天语,优思。非智能手机依然占有很大的比重。智能手机厂家也可以努力开拓老人智能手机市场。未来智能手机成本越来越低,必将占领老人手机市场。
个人认为送老人手机也是个不错的选择。具体买哪一种手机可以参考按累计评价排名前十的手机。
其他思考
- 对爬虫工具的使用不熟练,导致数据选取得较少。但是按照销量选取了排名靠前的数据,基本反应了真实的情况。有些数据无法抓取到,比如商品评分。
- 数据分析经验的缺乏会导致对数据的解读不够深刻。
主要参考资料
- Tiger数据分析入门课程的资料和作业
- 余博文章:独家!完整到爆的数据分析流程剖析
感谢
首先要感谢Tiger和余博的帮助,以及社群中其他朋友的帮助。这个社群为大家营造了积极向上的学习数据分析的环境,牛人很多,我也学到了很多。如果没有之前的积累,没有认真上课和做作业,这个项目也无法完成。
感谢张洁同学参与了项目选题的讨论。