一、数据来源
和鲸社区>数据集>https://www.kesci.com/home/project/5eaa217e366f4d002d736e4e/dataset
二、数据说明
2010-2011年的英国零售商的交易记录 (salesdata和data是一样的表)
三、数据导入
1.将数据导入MySQL中,更改数据类型。
2.查看表结构:字段类型,主键,是否为空等属性。
四、数据解读
1.查看共有多少条记录,每列是否有缺失值
其中产品描述和客户编号有缺失,缺失率分别是:0.27%左右和25%左右。
2.产品价格<=0的订单数及客户数
价格=0 的有114668条记录,考虑可能是畅销品。
价格<0 的有两条记录,且unit price = -11062,数据较大,考虑可能是系统疏漏或操作错误导致的异常数据。
3.查看共有多少条退货记录,即产品数量<0
五、数据清洗
1.用户名缺失删除
共删除135080条记录。
2.退货及异常数据处理
删除数量 <= 0 和 价格 <0 的记录
3.删除重复值
My SQL 删除重复值分4步:
1)将查询的重复数据插入一个新表中;
2)删除原来的表的数据;
3)将新表的数据再插入原表中;
4)删除新表。
4.查看清洗后的数据
5.新增一列销售额:销售额 = 数量 * 价格
六、客户消费行为分析
MySQL+Tableau结合
主要从消费次数,消费金额,客户购买产品数量三个维度进行分析。
1)客户平均消费次数和平均消费金额
客户平均消费4-5次,客户平均消费金额1468英镑左右。
2)每月的销售额趋势
Tableau 可视化:
从销售额趋势来看,2010年12月到2011年2月,订单量发生了很明显的变化,考虑可能是零售商为了迎接新年加大库存,避免因库存不足而导致销售不好的情况。
3)每月订单数量趋势
4)客户购买产品 SKU 数
5)大客户分析:二八定律
公司目前经营较接近“二八定律”,20%多点的的客户能带来80%的销售额。
6)各SKU销售数量情况
由于SKU数较多,所以只展示了销售数量>5000的产品描述