1、前言
本报告基于30天淘宝乐高销售数据进行分析,主要探究以下3个问题:
(1)什么价位的产品市场竞争小,收益高?
(2)不同价位的产品如何分布?货源在哪?
(3)Top卖家的市场策略是怎样的?
用到工具:python(pandas、numpy、jieba)、Tableau
2、数据读取与处理
- 数据读取
import pandas as pd
import numpy as np
tb_df=pd.read_excel('C:\\Users\\zsc\\Desktop\\淘宝乐高销售情况\\乐高淘宝数据.xlsx')
tb_df.head(10)
tb_df.info()
- 字段说明:
goods_name——宝贝标题
shop_name——店铺名称
price——价格
purchase_num——30天内付款人数
location——卖家地址
- 对整个DataFrame去重复值
tb_df.drop_duplicates(inplace=True)
tb_df.info()
- 缺失值检查与处理
tb_df['purchase_num'].isnull().sum() #结果为0,无缺失值
- 重置索引
tb_df=tb_df.reset_index(drop=True)
- 提取并转换 purchase_num 字段的数值并命名为purchase_num1
tb_df['purchase_num1']=tb_df['purchase_num'].str.extract('(\d+)').astype('int')
- 计算销售额 sale_amount 字段
tb_df['sale_amount']=tb_df['purchase_num1']*tb_df['price'] #付款人数*
- 对宝贝标题进行搜索关键词分析
#jieba分词
import jieba
result_list=jieba.lcut(tb_df['goods_name'].str.cat(sep='。'))
#词频统计函数
def word_fre(jieba_list):
list1=[i for i in jieba_list if len(i)>=2]
list_set=set(list1)
list2=[]
count_nums=[]
for i in list_set:
list2.append(i)
count_nums.append(list1.count(i))
dataFrame=pd.DataFrame({'word':list2,'num':count_nums})
return dataFrame
#关键词数据导出,用tableau做词云图
word_fre(result_list).to_csv('D:\\tableau\\lego_ciyun.csv')
- 将处理后的数据导出,使用Tableau进行数据可视化
3、数据分析与 Tableau 可视化
-
新建价格数据桶,将所有产品按[0~50),[50,100),[100,200),[200,300),[300,500),[500,1000)进行分类。利用分组分析法进行探究与分析。
3.1从市场价格维度进行分析
3.1.1 什么价位的乐高最受消费者欢迎?
-
价格区间的销量饼图。
乐高价格越低销量越高。在0~50元的乐高最受消费者欢迎。
3.1.2 那个价位的乐高市场是理想(竞争小,市场份额大)的?
-
各价格区间商品数量
目前0~50元区间的乐高数量最多,占所有乐高数量的26.06%,竞争最为激烈;
200元以上的商品比较少,只有不到20%;
竞品最少的是定价在1000元及以上的产品。
-
各价格区间的销售额
·
≥1000元的商品,销售额最高,占据总销售额的32%.
单价100~200元和300元及以上的产品占据总销售额的79%;
这是一个典型的二八定律。
-
对价格区间的理想程度进行指标化衡量
这里定义:如果某个价格区间销售额越大,而在售的商品数越少,那么这个价格区间的理想市场分越高。
理想市场分 = 价格区间销售额占比 ÷ 价格区间商品数占比
综合各价格区间商品数量分析, 售价≥1000级别市场是最理想的,其次是300-500元和500-1000元。
3.2 对卖家特点进行分析
3.2.1 卖家在全国范围内是怎样分布的?
商家的地理分布一定能反映出资源的地理分布,顺藤摸瓜就能找到货源优势地带。
-
卖家整体分布图
整体分布在广东、上海、北京等经济发达地区。
-
卖家最多的城市Top10
目前淘宝一共有739家店铺出售乐高玩具。来自汕头市的店铺占据了42%,上海15%,广州13%,北京8%,深圳8%.
- 卖家数与销售额树状图
嘉兴的卖家只有2个,但是得到了34%的市场份额(按销售额计算);上海的卖家数为108,市场份额23%,相对平衡;汕头是一个拥挤的市场,有314个卖家,但是总的市场份额只有13%。同样也说明汕头乐高类玩具产业发达,资源多销售门槛低;拥有几乎同样市场份额的北京,只有61个卖家。
单独看嘉兴,该地区的数据约等于乐高官方旗舰店一家的数据。
- 不同价格区间的卖家所在地的交互图
注:此处应用了tableau的交互图。饼图是乐高各价格区间的商品数与总商品数的占比,条形图是该价格区间各地卖家数量
商品分布在200元以下的产品主要来自汕头,300元以上高价位产品主要集中在上海、北京和广州等大城市。前者应该就是国产平价积木玩具的生产地带。但是高端的乐高产品,北上广应该是货源优势地带。
3.2.2 对销售额TOP卖家店铺分析
-
销售额TOP10卖家
TOP10中乐高官方旗舰店、天猫国际进口超市、天猫超市、乐高玩具专卖店是B店,其余的是C店。
官方旗舰店的销售数据参考意义不大,而liji0904作为C店排在第三,值得探究。
-
liji0904产品结构
产品覆盖各个价格区间,数量也比较均衡。
-
liji0904店销售结构
100-200元的产品销量最高,500-1000元的产品是销售额最高的。可以看出这家店的引流主力就是100-200元的产品,然后靠300元以上的产品推动销售额。
-
该店销量Top20及销售额Top20商品一览
- liji0904店铺宝贝标题分析
df=pd.read_csv(r'D:\tableau\lego_taobao.csv')
title=df.groupby('shop_name').get_group('liji0904').goods_name.str.cat(sep='。')
#jieba分词
import jieba
result_list=jieba.lcut(title)
#词频统计函数
def word_fre(jieba_list):
list1=[i for i in jieba_list if len(i)>=2]
list_set=set(list1)
list2=[]
count_nums=[]
for i in list_set:
list2.append(i)
count_nums.append(list1.count(i))
dataFrame=pd.DataFrame({'word':list2,'num':count_nums})
return dataFrame
result=word_fre(result_list)
result.to_csv('C:\\Users\\Desktop\\liji0904_ciyun.xlsx')#导入tableau做词云图
liji9040的宝贝标题基本都会用上“乐高”、“积木”、“玩具”、“拼装”、男孩或女孩和该商品名称及数字编码,一些宝贝还会用上“旗舰店”、“官网”。查看全站搜索大词,基本重合。
4、分析总结
按照制定的指标综合考量,售价≥1000级别市场是最理想的,其次是300-500元和500-1000元。除此以外的低端市场比较难做。
在低端市场,广东汕头是大多数卖家的根据地。300元以上的商品大多是上海北京广州的卖家的选择。存在即合理,货源可以依据这个去查找。
观察淘宝前三唯一的c店,能发现他就是典型的关注理想市场的卖家。而且这家店产品覆盖全面而且比较均衡,市场比较理想的高价位商品会稍微多一点。销售数据也印证了我们的第一条观点。他们的策略是100-200元的产品引流(价格越低,销量越高),然后靠300元以上的产品推动销售额(市场更大,而且竞争相对小)。