电商用户消费数据RFM分析

1. 导入数据, 查看数据信息

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
#import datetime as dt
import time

import warnings
warnings.filterwarnings("ignore")

plt.rcParams['font.family'] = 'Microsoft YaHei' # 设置中文编码的正常显示
plt.rcParams['axes.unicode_minus'] = False #设置负号的正常显示
plt.style.use('ggplot')
filepath = r'D:\临时\RFM 电商消费数据分析\order2021.csv'
df = pd.read_csv(filepath)
df.head()
订单数据
df.shape

(104557, 11)

df.columns

Index(['订单顺序编号', '订单号', '用户名', '商品编号', '订单金额', '付款金额', '渠道编号', '平台类型', '下单时间', '付款时间', '是否退款'], dtype='object')

df.info()  # 渠道编号有缺失数据

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 104557 entries, 0 to 104556
Data columns (total 11 columns):
Column Non-Null Count Dtype
0 订单顺序编号 104557 non-null int64
1 订单号 104557 non-null object
2 用户名 104557 non-null object
3 商品编号 104557 non-null object
4 订单金额 104557 non-null float64
5 付款金额 104557 non-null float64
6 渠道编号 104549 non-null object
7 平台类型 104557 non-null object
8 下单时间 104557 non-null object
9 付款时间 104557 non-null object
10 是否退款 104557 non-null object
dtypes: float64(2), int64(1), object(8)
memory usage: 8.8+ MB

df.describe()
数据列描述性统计

2. 数据清洗

# 分组查看日期分布
df_group = df.groupby('下单时间').agg({'订单号':'count'})
df_group
按日期分组计数
  • 可以看到, 数据包含 2020年 和 2021年 数据, 这里只取 2021年 数据
df = df[df['下单时间']>'2021-01-01 00:00:00']
df.shape

(104296, 11)

  • 重复数据处理
df.duplicated().sum() 

没有重复要数据
0

  • 付款金额有负值, 查看一下情况
df[df['订单金额']<0]
df[df['付款金额']<0].付款金额.count()

6
有 6 笔订单付款金额为负值

  • 修正为负的付款金额, 实际付款金额=订单金额+付款金额
df['付款金额'] = np.where(df['付款金额']<0, df['付款金额']+df['订单金额'], df['付款金额'])
  • 空值处理
df.isnull().sum() 

渠道编号有 8 个为空

  • 用众数填充 缺失值
df['渠道编号'][df['渠道编号'].isnull()==True] = df['渠道编号'].dropna().mode().values
  • 把'是否退款'字段转换成 0, 1
df['是否退款'] = df['是否退款'].map(lambda x:1 if x=='是' else 0)
df.head()
  • 删除付款金额大于下单金额数据
df.drop(index=df[df['付款金额']>df['订单金额']].index, inplace=True)
  • 验证删除结果
df[df['付款金额']>df['订单金额']].count()

3. 数据分析

3.1 销售走势(按月份)

  • 添加月份列
df['month'] = pd.to_datetime(df['下单时间']).dt.month
df.head()
  • 绘图数据准备

  • x 轴显示值

x = ['{}月'.format(i) for i in df['month'].unique()]
  • 按月份统计订单数
order_count=df.groupby('month')['订单号'].count()
  • 按月份统计订单金额
order_sum = df.groupby('month')['订单金额'].sum()
  • 按月份统计付款金额
pay_sum = df.groupby('month')['付款金额'].sum()
  • 按月份统计不含退款金额的实际销售金额
real_pay_sum = df[df['是否退款']==0].groupby('month')['付款金额'].sum()
  • 合并成目标表
df_target =pd.DataFrame([order_count,order_sum, pay_sum, real_pay_sum]).T
df_target
  • 绘图
plt.figure(figsize=(10,4), dpi=100)

plt.subplot(111, facecolor='#F0F0F0')

plt.xlabel('月份', fontsize=10)
plt.ylabel('单位/万', fontsize=10)

plt.xticks(fontsize=10)
plt.yticks(fontsize=10)

plt.title('2021年各月份销售额走势', fontsize=14)
plt.grid(axis='x')

plt.plot(x, df_target['订单金额']/10000, linewidth='1', marker='o', color='#008668', label='订单金额(万)')
plt.plot(x, df_target['付款金额']/10000, linewidth='1', marker='o', color='#ff5338', label='付款金额(万)')
plt.plot(x, real_pay_sum/10000, linewidth='1', marker='o', color='#fe8c00', label='实际付款金额(万)')


plt.legend(loc='best', fontsize=6)
2021年各月份销售额走势

3.2 各渠道来源用户占比

  • 按渠道统计用户数
channel = df.groupby('渠道编号', as_index=False)['用户名'].count()
  • ** 按用户数排名**
channel.sort_values(by='用户名', inplace=True)
channel
各渠道用户数
  • 绘图
plt.figure(figsize=(13,5),dpi=100)
plt.pie(
    channel['用户名'],
    labels=channel['渠道编号'],
    autopct='%1.1f%%',
    pctdistance=0.9,
    radius=1.3,
    startangle=70,
    labeldistance=1.03
)

plt.legend(loc='upper right', fontsize=8, bbox_to_anchor=(1.4, 0.9), borderaxespad=0.3)
plt.title('各渠道来源用户占比',loc='right',pad=20, fontsize=12)
各渠道来源用户比

3.3 各平台订单支付用户占比

  • 数据准备
platform = df.groupby('平台类型',as_index=False)['用户名'].count()
platform.sort_values(by='用户名', inplace=True)
platform
各平台支付用户数
  • 绘图
plt.figure(figsize=(13,5),dpi=100)
plt.pie(
    platform['用户名'],
    labels=platform['平台类型'],
    autopct='%1.1f%%',
    pctdistance=0.9,
    radius=1.3,
    startangle=70,
    labeldistance=1.03
)

plt.legend(loc='upper right', fontsize=8, bbox_to_anchor=(1.4,0.9), borderaxespad=0.3)
plt.title('各平台支付用户占比',loc='right', pad=20, fontsize=12)
和平台支付用户比

3.4 用户取消订单情况

  • 数据准备
cancel = df['是否退款'].value_counts()
cancel

0 88779
1 13493

  • 绘图
plt.figure(figsize=(10,5))
cancel.plot(kind='bar')
plt.title('用户取消订单情况(1为取消订单)',size=20)
plt.ylabel('订单数(万)',size=15)
plt.yticks(np.arange(0,10,1))
plt.grid(axis='y',alpha=0.5)
plt.show()
用户取消订单情况

3.5 客户复购率

  • 数据准备
    • 复购率:在某时间窗口内重复消费用户(消费两次及以上的用户)在总消费用户中占比
    • 根据复购率的定义,我们把时间窗口选择为月,用数据透视表的方式统计每个用户在每月的订单数
  • 全时期复购率
df_buy_all = df.groupby('用户名').订单号.count()
df_rebuy_all = df_buy_all[df_buy_all.values>=2].count()/df_buy_all.count()
df_rebuy_all

各月份复购率

df_buy_mon = df.pivot_table(index='用户名', columns='month', values='下单时间', aggfunc='count')
df_buy_mon

计算各月份总消费用户数

df_buy_mon_count = df_buy_mon.count()
df_buy_mon_count

计算各月消费两次以上用户数

df_rebuy_mon = df_buy_mon[df_buy_mon>=2].count()
df_rebuy_mon

复购率

rebuy_rate_mon = df_rebuy_mon/df_buy_mon_count
rebuy_rate_mon
  • 绘图
plt.figure(figsize=(10,4), dpi=100)

plt.subplot(111, facecolor='#F0F0F0')

plt.xlabel('月份', fontsize=10)
plt.ylabel('复购率', fontsize=10)

plt.xticks(fontsize=10)
plt.yticks(fontsize=10)

plt.title('2021年各月复购率', fontsize=14)
plt.grid(axis='x')

# x 轴显示值
x = ['{}月'.format(i) for i in range(1,13,1)]

plt.plot(x, rebuy_rate_mon,linewidth='1', marker='o')
2021年各月复购率

3.6 回购率

  • 回购率:是某一个时间窗口内消费的用户,在下一个时间窗口仍旧消费的占比。
  • 选择月做为时间窗口
  • 数据准备
  • 创建一个值全为0,索引为月份的序列
repur_count = pd.Series(0, index=rebuy_rate_mon.index)
  • 统计在某一个月下单并且在下一个月继续下单的用户数量
for i in range(1,12):
    repur_count[i+1]=df_buy_mon.iloc[:,i][(df_buy_mon.iloc[:,i]>0)&(df_buy_mon.iloc[:,i-1]>0)].count()

repur_rate = repur_count/df_buy_mon_count
repur_rate
各月回购率
  • 绘图
plt.figure(figsize=(10, 4), dpi=100)

plt.subplot(111, facecolor='#F0F0F0')

plt.xlabel('月份', fontsize=10)
plt.ylabel('回购率', fontsize=10)

plt.xticks(fontsize=10)
plt.yticks(fontsize=10)

plt.title('2021年各月份回购率', fontsize=14)
plt.grid(axis='x')

# x轴显示值
x = ['{}月'.format(i) for i in range(1,13,1)]

plt.plot(x, repur_rate, linewidth='1', marker='o')
2021年各月份回购率

3.7 RFM 模型

  • 复制表
df_1 = df.copy()
  • 删除被取消了的订单
df_1.drop(index=df[df['是否退款']==1].index, inplace=True)
  • 将用户名设为索引
df_1.set_index('用户名', inplace=True)
  • 为每笔订单后记为 1, 作为消费频率标记
df_1['F'] = 1
  • 建立数据透视表, 求和得到每个用户的购买频率 'F'
df_rfm = df_1.pivot_table(
    index=['用户名'],
    values=['订单金额','下单时间', 'F'],
    aggfunc={'订单金额':'sum', '下单时间':'max', 'F':'sum'}        
    )
    ```

* **把消费总金额作为'M'**
```py
df_rfm.rename(columns={'订单金额':'M'}, inplace=True)
  • 近度'R'
df_rfm['R'] = (pd.to_datetime(df_rfm['下单时间'].max()) - pd.to_datetime(df_rfm['下单时间'])).dt.days
  • 调整一下列的顺序, 上步删除'下单时间'可省略
df_rfm = df_rfm[['R', 'F', 'M']]
rfm = pd.DataFrame(df_rfm, dtype=int)
  • 小于平均值赋值 0, 大于平均值赋值 1
for i in range(0, len(rfm.columns)):
    rfm.iloc[:,i][rfm.iloc[:,i]<rfm.iloc[:,i].mean()]=0
    rfm.iloc[:,i][rfm.iloc[:,i]>rfm.iloc[:,i].mean()]=1
  • 连接 R-F-M
rfm['RFM']='0'
for i in range(0,len(rfm.index)):
    rfm['RFM'][i]=str(rfm.iloc[i,0])+str(rfm.iloc[i,1])+str(rfm.iloc[i,2])
  • 建立 RFM 值和客户分类的对应关系
labels = pd.DataFrame({'RFM':['111','101','011','001','110','100','010','000'],'用户标签':['重要价值客户','重要发展客户','重要保持客户','重要挽留客户','一般价值客户','一般发展客户','一般保持客户','一般挽留客户']})
  • merge 查询和客户的分类
rfm =rfm.merge(labels,on='RFM',how='left')
target = rfm.groupby('用户标签', as_index=False).RFM.count()
  • 按客户分类分组, 记数
target.rename(columns={'RFM':'客户数量'}, inplace=True)
target

![各类型用户数量](https://upload-images.jianshu.io/upload_images/4753063-8d87d5a125ab718c.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)


* 绘图
```py
plt.figure(figsize=(10,6), dpi=100)

plt.subplot(111, facecolor='#F0F0F0')

plt.xlabel('客户类型', fontsize=10)
plt.ylabel('人数', fontsize=10)

plt.xticks(rotation=0, fontsize=10)
plt.yticks(fontsize=10)

plt.title('不同类型用户人数', fontsize=14)
plt.grid(axis='x')

# x 轴显示值
#x = ['{}月'.format(i)for i in range(1,13,1)]
rects = plt.bar(target['用户标签'],target['客户数量'],width=0.6,color='#fe8c00')

# 数据标签
count=0

Sum = target['客户数量'].sum()

for rect in rects:
    height = rect.get_height()
    rect_x = rect.get_x()

    plt.text(rect.get_x() + rect.get_width()/2, height+500, str(height), ha='center', fontsize=8)
    #plt.text(rect.get_x() + rect.get_width()/2, height+100, str('{:2f}'.format(target['客户数量'].values[count]/Sum*100))+'%', ha='center', fontsize=8)
不同类型用户数量
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,014评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,796评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,484评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,830评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,946评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,114评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,182评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,927评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,369评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,678评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,832评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,533评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,166评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,885评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,128评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,659评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,738评论 2 351

推荐阅读更多精彩内容