Python电商数据清洗及分析

一、数据来源

本文使用python来分析一份电商数据,源数据可在下方评论获取。

二、分析思路

image

三、分析过程

3.1 读取数据

首先导入后续分析需要的第三方库及一些常用设置

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
# 设置风格
sns.set(style='white', font_scale=1.2)
%matplotlib inline
plt.rcParams["font.sans-serif"] = "SimHei"
plt.rcParams['axes.titlesize'] = 20
plt.rcParams['axes.unicode_minus']=False
import warnings
warnings.filterwarnings("ignore")

通过pandas库读取数据

filename = "./电商数据源.csv"
data = pd.read_csv(filename,encoding="gbk")
data.head()
image

从读取结果可以看到数据源包含24个字段,每个字段的含义如下:

3.2 数据清洗

数据清洗阶段主要处理不符合业务逻辑的异常值,还有缺失值和重复值。

3.2.1 清洗发货日期早于下单日期的异常值

# 根据业务需要提取数据,发货日期早于下单日期
# 1)转换时间类型
data["OrderDate"] = pd.to_datetime(data["OrderDate"])
data["ShipDate"] = pd.to_datetime(data["ShipDate"])
# 2)计算时间差
data["interval"] = (data["ShipDate"]-data["OrderDate"]).dt.total_seconds()
# 3)找时间差为负的数据并删除
data.drop(index=data[data["interval"]<0].index,axis=0,inplace=True)
print(data.shape)

采用如下代码查看数据,建立对数据的基本认识

# 查看行列数量
data.shape
# 数据整体描述
data.describe()
# 数据信息
data.info()
# 统计NAN数据
data.isna().sum()
image

可以看到ShipMode(发货模式)和PostalCode(邮编)两列存在缺失值。

3.2.2 清洗RowID重复值

# 重复值
print(data["RowID"].unique().size)
data[data["RowID"].duplicated()]
data.drop(index=data[data["RowID"].duplicated()].index,axis=0,inplace=True)
print(data.shape)

3.2.3 处理ShipMode缺失值

data[data["ShipMode"].isnull()]
data["ShipMode"].unique()
# 众数填充缺失值
# data["ShipMode"].mode()
data["ShipMode"].fillna(data["ShipMode"].mode()[0],inplace=True)

3.2.4 清洗Discount的异常值和缺失值

data[data["Discount"]>1]
data[data["Discount"]<0]
data["Discount"] = data["Discount"].mask(data["Discount"]>1,None)
# 处理缺失值
data["Discount"].isna().sum()
# 平均折扣
meanDiscount = data["Discount"].mean()
# data[data["Discount"].notnull()]["Discount"].sum()/data[data["Discount"].notnull()]["Discount"].size
data["Discount"].fillna(meanDiscount,inplace=True)

3.2.5 删除PostalCode列

邮编对分析意义不大,这里直接删除

data.drop(columns=["PostalCode"],inplace=True)

3.2.6 将订单日期拆分为年、月、季度

data["Order-year"] = data["OrderDate"].dt.year
data["Order-month"] = data["OrderDate"].dt.month
data["quarter"] = data["OrderDate"].dt.to_period('Q')
data[["OrderDate","Order-year","Order-month","quarter"]].sample(5)
image

3.3 数据分析

3.3.1 销售额与增长率

sales_year = data.groupby(by='Order-year')['Sales'].sum()
# print(sales_year)

sales_rate_12 = sales_year[2012] / sales_year[2011] - 1
sales_rate_13 = sales_year[2013] / sales_year[2012] - 1
sales_rate_14 = sales_year[2014] / sales_year[2013] - 1
# print(sales_rate_12,sales_rate_13,sales_rate_14)

sales_rate_12_label = "%.2f%%" % (sales_rate_12 * 100)
sales_rate_13_label  = "%.2f%%" % (sales_rate_13 * 100)
sales_rate_14_label  = "%.2f%%" % (sales_rate_14 * 100)
# print(sales_rate_12,sales_rate_13,sales_rate_14)

sales_rate = pd.DataFrame(
    {'sales_all':sales_year,
     'sales_rate':[0,sales_rate_12,sales_rate_13,sales_rate_14],
     'sales_rate_label':['0.00%',sales_rate_12_label,sales_rate_13_label,sales_rate_14_label]
    })
# print(sales_rate)

sales_rate = pd.DataFrame(
    {'sales_all':sales_year,
     'sales_rate':[0,sales_rate_12,sales_rate_13,sales_rate_14]
    })
y1 = sales_rate['sales_all']
y2 = sales_rate['sales_rate']
x = [str(value) for value in sales_rate.index.tolist()]
# 新建figure对象
fig=plt.figure(figsize=(10,6)) 
# 新建子图1
ax1=fig.add_subplot(1,1,1)
# ax2与ax1共享X轴
ax2 = ax1.twinx()
ax1.bar(x,y1,color = 'dodgerblue')
ax2.plot(x,y2,marker='o',color = 'r')
ax1.set_xlabel('年份')
ax1.set_ylabel('销售额')
ax2.set_ylabel('增长率')
ax1.set_title('销售额与增长率')
image

3.3.2 地区分析

sales_area = data.groupby(by="Market")["Sales"].sum()
# sales_area
pie_labels = sales_area.index.to_list()
f, ax = plt.subplots(figsize=(10,10))
pie_sales_area = plt.pie(sales_area,labels=pie_labels,autopct="%.1f%%",startangle=90)
plt.title('2011-2014年总销售额占比')
image
# 各地区每一年的销售额
sales_area = data.groupby(by=["Market","Order-year"])["Sales"].sum()
# 将多层索引设置为列,level这个参数的意思是要把哪些索引设置为列
sales_area = sales_area.reset_index(level=[0,1])
# pd.pivot_table(data=sales_area,values="Sales",index="Market",columns="Order-year",aggfunc="sum")
# 绘制柱形图
fig = plt.figure(figsize=(10,6))
sns.barplot(x="Market",y="Sales",hue="Order-year",data=sales_area,estimator=np.sum)
plt.title('2011-2014年不同地区销售额对比')
image
# 各地区不同产品的销售额
sales_area = data.groupby(by=["Market","Category"])["Sales"].sum()
# 将多层索引设置为列,level这个参数的意思是要把哪些索引设置为列
sales_area = sales_area.reset_index(level=[0,1])
# pd.pivot_table(data=sales_area,values="Sales",index="Market",columns="Order-year",aggfunc="sum")
# 绘制柱形图
fig = plt.figure(figsize=(10,6))
sns.barplot(x="Market",y="Sales",hue="Category",data=sales_area,estimator=np.sum)
plt.title('不同产品类型在不同地区的销售额对比')
image

3.3.3 销售淡旺季分析

sales_year_month = data.groupby(by=["Order-year","Order-month"])["Sales"].sum()
# 将多层索引设置为列,level这个参数的意思是要把哪些索引设置为列
sales_year_month = sales_year_month.reset_index(level=[0,1])
# 绘制折线图
fig = plt.figure(figsize=(10,6))
sns.lineplot(x="Order-month",y="Sales",hue="Order-year",data=sales_year_month,estimator=np.sum)
plt.title('2011-2014年不同月份销售额对比')
image

3.3.4 每月新增用户

data_customer = data.copy()
data_customer = data_customer.drop_duplicates(subset=["CustomerID"])
new_customer = data_customer.groupby(["Order-year","Order-month"]).size()
new_customer = new_customer.reset_index(level=[0,1])
new_customer.columns = ["Order-year","Order-month","count"]
new_customer = pd.pivot_table(data=new_customer,values="count",index="Order-month",columns="Order-year",fill_value=0)
new_customer
image

3.3.5 用户RFM模型
首先计算用户的R、F和M值,然后根据均值算法或评分制算法来对用户分类,均值算法就是直接与各自的平均值比较,高于平均值即为高,低于平均值即为低;评分制算法就是对R、F和M制定相应的打分规则,一般采用5分制,计算得到R、F和M相应的得分,最后与得分的平均值进行比较。

# 获取2014年数据
data_14 = data [data ['Order-year']==2014]
data_14 = data_14[['CustomerID','OrderDate','Sales']]
# print(data_14.shape)
customdf = data_14.copy() 
customdf.set_index('CustomerID',drop=True,inplace=True)  
customdf['orders'] = 1 
customdf
rfmdf = customdf.pivot_table(index=['CustomerID'],
                    values=['OrderDate','orders','Sales'],
                    aggfunc={'OrderDate':'max',
                            'orders':'sum',
                            'Sales':'sum'})

rfmdf['R'] = (rfmdf["OrderDate"].max()-rfmdf["OrderDate"]).dt.days
rfmdf.rename(columns={'Sales':'M','orders':'F'},inplace=True)
rfmdf

1)均值算法

def rfm_func(x):
    level = x.apply(lambda x: "1" if x >= 0 else '0')
    label = level.R + level.F + level.M
    d = {
        '011':'重要价值客户',
        '111':'重要唤回客户',
        '001':'重要深耕客户',
        '101':'重要挽留客户',
        '010':'潜力客户',
        '110':'一般维持客户',
        '000':'新客户',
        '100':'流失客户'
    }
    result = d[label]
    return result

rfmdf['label'] = rfmdf[['R','F','M']].apply(lambda x:x-x.mean()).apply(rfm_func,axis=1)
rfmdf
result = rfmdf.groupby('label')["OrderDate"].count()
result = result.reset_index()
result.columns = ["label","count"]
result
# 绘制柱形图
fig = plt.figure(figsize=(10,6))
order = ['重要价值客户', '重要唤回客户', '重要深耕客户', '重要挽留客户', '潜力客户', '一般维持客户', '新客户', '流失客户']
sns.barplot(x="count",y="label",data=result,orient='h',order=order)
plt.title('RFM用户数')
image

2)RFM模型除了使用上面的均值算法,还可以使用评分制算法来实现,评分一般采用5分制,评分规则也要根据具体的业务情况来决定,这里我们采用五分位数来制定评分规则,python实现如下:

rfm_score_df = rfmdf[['R','F',"M"]]
# 修改describe区间范围,得到五分位数
rfm_score_df.describe(percentiles=[0.2,0.4,0.6,0.8])
image.png

计算R、F和M的评分

# 区间( ],所以第一个设置为最小值-1
section_list_R = [-1,9,24,43,103,362]
grade_R = pd.cut(rfm_score_df['R'],bins=section_list_R,labels=[5,4,3,2,1])
rfm_score_df['R_S'] = grade_R.values.astype(int)

# 区间( ],所以第一个设置为最小值-1
section_list_F = [0,4,7,13,19,48] 
grade_F = pd.cut(rfm_score_df['F'],bins=section_list_F,labels=[1,2,3,4,5])
rfm_score_df['F_S'] = grade_F.values.astype(int)

# 区间( ],所以第一个设置为最小值-1
section_list_M = [0,365,1196,2855,4938,23296]
grade_M = pd.cut(rfm_score_df['M'],bins=section_list_M,labels=[1,2,3,4,5])
# 上一步的cut方法返回值是category类型,不能用户后续计算,这里要转为数值类型
rfm_score_df['M_S'] = grade_M.values.astype(int) 
rfm_score_df
image.png

用户的R、F和M分值与平均分比较

def rfm_func(x):
    level = x.apply(lambda x: "1" if x >= 0 else '0')
    level
    label = level.R_S + level.F_S + level.M_S
    d = {
        '111':'重要价值客户',
        '011':'重要唤回客户',
        '101':'重要深耕客户',
        '001':'重要挽留客户',
        '110':'潜力客户',
        '010':'一般维持客户',
        '100':'新客户',
        '000':'流失客户'
    }
    result = d[label]
    return result

rfm_score_df["label"] = rfm_score_df[["R_S","F_S","M_S"]].apply(lambda x:x-x.mean()).apply(rfm_func,axis=1)
rfm_score_df
image.png
result = rfm_score_df.groupby('label')["R"].count()
result = result.reset_index()
result.columns = ["label","count"]
result
# 绘制柱形图
fig = plt.figure(figsize=(10,6))
order = ['重要价值客户', '重要唤回客户', '重要深耕客户', '重要挽留客户', '潜力客户', '一般维持客户', '新客户', '流失客户']
sns.barplot(x="count",y="label",data=result,orient='h',order=order)
plt.title('RFM用户数')
image.png

从均值算法和评分制算法的结果可以看出,两种方法存在一定差异,具体使用哪种算法要根据实际业务情况决定。比如评分制算法中的R打分可以根据7日留存,30日留存,90日留存等来制定。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,133评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,682评论 3 390
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,784评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,508评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,603评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,607评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,604评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,359评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,805评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,121评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,280评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,959评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,588评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,206评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,442评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,193评论 2 367
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,144评论 2 352