黑色星期五数据分析

1.数据准备

本次黑色星期五数据集来自kaggle,关于零售商店中黑色星期五的55万观察数据集,它包含不同类型的数字或分类变量和缺失值。利用Jupyter Notebook对数据集进行清洗处理、可视化操作。一共12个字段,538k条数据。

数据来源:

黑色星期五数据集

字段说明:


2. 数据分析内容

对于商品销售类的数据分析方向可以从 销售画像,用户画像、商品画像 三个维度展开分析。

销售画像主要针对以下几个方面:


用户画像主要针对以下几个方面:


商品画像主要针对以下几个方面:


3.数据清洗

加载数据,查看数据情况:

import numpy as np

import pandas as pd

import matplotlib.pyplot  as plt

data = pd.read_csv('BlackFriday.csv')

data.info()


因产品分类存在缺失值,无法填补,故去掉产品分类字段,不作为分析的内容。


4.数据分析

【1】销售画像

销售总额

用户总数,用户人均消费金额

商品总量

【2】用户画像

用户性别分布和消费情况

用户性别分布情况


男女消费金额分布情况


import seaborn as sns

plt.style.use("fivethirtyeight")

sns.set_style({'font.sans-serif':['simhei','Arial']}) #设置字体

labels = ['Male','Female']

x = [M,F]

explode = (0.1,0)

plt.pie(x,labels=labels,autopct='%.0f%%',textprops = {'fontsize':10,'color':'k'},

      explode=explode,shadow=True,startangle=60,pctdistance = 0.5)

plt.axis('equal')

plt.title('用户性别分布情况')

plt.show()

可以看出,本次黑色星期五用户中,男性用户约为女性用户的2.5倍,男性消费水平是女性消费水平的3.3倍,男性在数量和消费金额上都比女性多。

用户年龄分布和消费情况

dt.drop_duplicates('User_ID').groupby('Age')['User_ID'].count()


用户年龄分布情况

dt.groupby('Age')['Purchase'].sum()


不同年龄消费金额分布


用户年龄主要集中在18-45之间,其中26-35用户数占比总用户数的34.9%,消费金额占总销售额的40%,可见这个年龄段是本次活动的主力军。

用户职业分布和消费情况

用户职业分布


不同职业消费金额分布

4,0,7三个职业用户数占总用户数的35.6%,其消费金额前三也是4,0,7,可见,这三个职业的消费人数和消费金额大于其他职业。

用户婚姻分布和消费情况

dt.drop_duplicates('User_ID').groupby('Marital_Status')['User_ID'].count()


用户婚姻分布

dt.groupby('Marital_Status')['Purchase'].sum()


不同婚姻状态的消费情况

dt.groupby('Marital_Status')['Purchase'].sum()/dt.groupby('Marital_Status')['User_ID'].count()


未婚和已婚的人均消费情况

未婚在本次活动中占比大于已婚,但是未婚和已婚在人均消费情况下基本一致,可见婚姻状态对消费金额影响不是很大。

用户城市居住时间分布和消费情况

dt.drop_duplicates('User_ID').groupby('Stay_In_Current_City_Years')['User_ID'].count()


用户在当前城市居住时间分布

dt.groupby('Stay_In_Current_City_Years')['Purchase'].sum()


不同用户在当前城市居住时间消费情况

当前城市居住时间大部分是在1年,消费水平在四个类别中最高。

【商品画像】

最受喜爱的商品分布和消费情况

dt.groupby('Product_ID')['User_ID'].count().sort_values(ascending=False).head(10)


最受喜爱的商品前十分布

dt.groupby('Product_ID')['Purchase'].sum().sort_values(ascending=False).head(10)


成交金额最多的商品前十分布情况

最受喜爱的商品前十分布和成交金额最多的商品重叠部分比较少,不过也是正常,成交数量最多若是单价不高,成交金额也就不是最多。

男女消费者喜爱的商品分布和消费情况

男性消费者在哪些商品比较受欢迎


女性消费者在哪些商品比较受欢迎

喜爱的商品在男女消费者之间差距比较大,重复的商品数不多。

不同年龄段喜欢的商品分布和消费情况

不同年龄段喜欢的商品分布



不同年龄段喜欢的消费情况

未婚和已婚喜欢的商品分布和消费情况


未婚用户最受喜爱前十的商品名


已婚用户最受喜爱前十的商品名  

未婚用户和已婚用户最受喜爱前十商品中有7个是一样的,可以大致看出在是否结婚对商品的需求影响不明显。

不同职业喜欢的商品分布和消费情况

以4,0,7三个职业进行分析

dt[dt['Occupation']==4].groupby('Product_ID')['User_ID'].count().sort_values(ascending=False).head(10)

dt[dt['Occupation']==0].groupby('Product_ID')['User_ID'].count().sort_values(ascending=False).head(10)

dt[dt['Occupation']==7].groupby('Product_ID')['User_ID'].count().sort_values(ascending=False).head(10)

dt[dt['Occupation']==4].groupby('Product_ID')['Purchase'].sum().sort_values(ascending=False).head(10)

dt[dt['Occupation']==0].groupby('Product_ID')['Purchase'].sum().sort_values(ascending=False).head(10)

dt[dt['Occupation']==7].groupby('Product_ID')['Purchase'].sum().sort_values(ascending=False).head(10)

4,0,7三职业喜欢的商品分布和消费情况总体大致一样,喜欢商品重复率高。

不同城市喜欢的商品分布和消费情况

dt[dt['City_Category']=='A'].groupby('Product_ID')['User_ID'].count().sort_values(ascending=False).head(10)

dt[dt['City_Category']=='B'].groupby('Product_ID')['User_ID'].count().sort_values(ascending=False).head(10)

dt[dt['City_Category']=='C'].groupby('Product_ID')['User_ID'].count().sort_values(ascending=False).head(10)

dt[dt['City_Category']=='A'].groupby('City_Category')['Purchase'].sum()

dt[dt['City_Category']=='B'].groupby('City_Category')['Purchase'].sum()

dt[dt['City_Category']=='C'].groupby('City_Category')['Purchase'].sum()

A,B,C三城市最受欢迎的商品都是P00265242,其他商品三座城市的重叠率高,可见,ABC城市的人群在商品需求方面比较类似。

5.总结

本文利用实际数据进行分析,从 销售画像,用户画像、商品画像三个维度展开,基于Python的数据处理,可视化展示等技术分析数据的内在特性。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,992评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,212评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,535评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,197评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,310评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,383评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,409评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,191评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,621评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,910评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,084评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,763评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,403评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,083评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,318评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,946评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,967评论 2 351

推荐阅读更多精彩内容