数据来源:https://www.kaggle.com/nicapotato/womens-ecommerce-clothing-reviews
分析工具:Excel,PowerBI,Python
1. 数据准备
该数据集包括23486行和10个特征变量。每一行对应一条客户评论,包括以下变量:
由上表可以看出,评论标题、评论内容、高级部门名称、部门名称及类目名称存在缺失值,对于高级部门名称、部门名称、类目名称及Review Text缺失的数据,直接进行删除;针对Title缺失的数据,考虑到其在后续分析中没有实际运用,所以选择字段删除。处理结束后共有22628条数据。
由上表可以知道该数据集不存在数据重复。
数据中的Rating,Recommended IND,Positive Feedback Count的标准差均较小,说明数据分布程度比较集中。
2. 数据分析
- 客户的年龄分布情况
在25-50岁之间商品售出量最多,占比最大,其中39岁有一个异常高值。所以商家应该注重客户群年龄段分布特征,进而采取针对性的营销策略。
- 好评度(Rating)分布特征
不同好评等级的年龄段分布基本一致,由此可以说明,并不因客户年龄的大小对商品的好评等级产生偏差。
- 好评度分布特征
客户对商品的总体满意度较好,好评度高的商品,被推荐的概率也很大,并且好评度为4和5的商品占比77%,因此好评度在4星及以上基本可以作为商品受欢迎度的一个评价指标。当然,根据数据显示,公司还应继续做的更好。
- 商品好评排行
商家可根据上面的商品好评排行对客户进行优先级推荐,以增加购买几率,并且可以针对好评反馈很少的商品采取应对措施。
- 商品销售概况(按类目)
按class类别,Dresses销量最好,而上一级别Department中,Tops销量最好,最上级的General销量最多。商家应根据服装的需求量合理进行商品的调配。
每一种商品被推荐占比相当大,从侧面反映出商品受欢迎度以及客户的满意度均较高,通过客户的推荐也形成了规模的传播,能够吸引更多潜在的客户发生购买行为。同时,商家也应根据有效的用户评论信息,提取客户意见或建议,并采取合理的措施进行改进,争取提高推荐率。
由上图可以得出,intimates类型的商品在整个年龄段内销量都不是太突出,小于100件;相反,General和General Petite类型的商品呈现巨大幅度的波动,销量呈先上升后下降的趋势,并且在39岁达到峰值,整体上General类型的商品的销量大于General Petite类型,高销量年龄段差值基本固定在200件。
具体到每一种商品上,整体上可以看出连衣裙(Dresses)、针织衫(Knits)以及衬衫(Blouses)销量排名前三,但是三者之间的差值在高销量年龄段不定,甚至出现相等或反超。所以商家在保证商品种类齐全的前提下,合理调配资源,争取做到供给合理。
- Review Text的分析
和销量排名前三的商品类似,其对应的评论长度也很大,分别是连衣裙(Dresses)、针织衫(Knits)以及衬衫(Blouses)。
针对高销量的3种商品采取评论内容的词云统计分析:
词云代码
from wordcloud import WordCloud,STOPWORDS
import matplotlib.pyplot as plt
import re
with open("D:/knits.txt","r",encoding='utf-8') as f:
txt=f.read()
txt = re.sub("[^a-zA-Z]", " ", txt).lower()
wc=WordCloud(background_color="white",scale=5,prefer_horizontal=1.0,max_words=100,stopwords=STOPWORDS).generate(txt)
wc.to_file('D:/knits.png')
plt.imshow(wc)
plt.axis("off")
plt.show()
- Dress的评论内容词云分布
- Blouse的评论内容词云分布
- Knits的评论内容词云分布
从上面三张词云图中可以看出,评论中出现最多就是服装的面料和颜色,也反映了消费者对这两种因素更为看重。企业可以根据客户对服装面料和颜色方面的意见或建议进行斟酌性的改变。
3. 总结
- 平台的绝大部分消费者年龄段在25-50岁之间,在39岁出现异常高值。
- 不同好评等级的年龄段分布基本一致。
- 客户对商品的总体满意度较好,好评度高的商品,被推荐的概率也很大。
- 连衣裙(Dresses)、针织衫(Knits)以及衬衫(Blouses)销量排名前三。
- 消费者对服装的面料和颜色更为看重。