分析思路:
1.了解数据
(1)对数据源的数据进行整理
(2) 数据导入到python
(3)查看数据
- 数据有15列,327047行,没有空值
- MonthID,itemID,LocationID 需要修改数据类型,新添加列Month,方便按月进行统计
2、数据处理
(1)数据类型转换
- 把列ItemID,Location 改成字符串类型
- 把MonthID修改成日期型,添加一列Month类型是整型
(2).描述性统计
- 销售价格和数量中都有负数,估计应该是退货,可以统计一些退货的情况
- 销售价格中位数7,平均值是19,数据右偏,最大值是3357,可以统计一下大客户的情况在总体中的情况
(3)图形化客户消费情况
- 销售价格大部分在1000以内,深入局部
- 取1000以内的数据分布好像都在400以内了
- 退单的金额大都在-100以内
- 大单的分布在2000-3500之前,3500 之后又极值
- 查看一下极值,根据实际情况分析一下
3、人货场 —(用户和员工)
思路:- 分析大客户2/8原则找出最有生产力的客户
- 分析员工,看那些员工最有战斗力
- 分析用户的类别,看那些类别客户产出多。
(1)用户消费情况
- 客户数怎么这么少啊,如果按照销量,重点服务客户应该放在前25销量的客户
(2)用户类别分析
- 类别中金额卖的最多的是020-Mens,050-shoes,040-Juniors,030-kids, 跟 类别销售数量最多的不一样,找找原因,重点推荐金额占比高的
- 折扣在010womens中上升了6个百分点,打折对这类商品很有用。
(3)DM(管理者)排名统计
3.人货场—商品
(1)看一下商品销售额与数量的关系
- 处理一下极值
- 价格和销售数量规律性增长
(2)商品退货率
- 退货销售额在销售额,打折销售销售额占比不足1%
3、人货场 ——区域分析
(1)城市
(2)大区
- 商店尺寸的大小和销量关系不明显。
(3)区域质量
- 一共有10个区域,有5个区域加起来的的销售额占了总销售额的80%。
(4)新老店情况
总结:(1)客户购买分布呈现2:8分布,可以重点服务大客户
(2)新店的份额较低,是不是可以做些推广活动
(3)重点分析一下落后区域的市场原因。