商业数据分析入门笔记——以双十一优惠券案例为例

商业数据分析应用场景

商业数据分析在各行各业都有非常广的应用范围,包括互联网、泛金融、快消、广告咨询等。

大数据的职业蓝图

话说大数据这几年非常火爆、既有营销体系的商业数据分析职位,也有研发体系的大数据开发工程师,像产品经理一样,只要你有心,都可以有自己的发展道路。

然后我默默地看了下自己的水平,目前阶段比较匹配的也只有“业务分析方向”啦,能让自己的日常工作变得哪怕高大上一丢丢,就足够我偷笑了嘿嘿

根据自己的底子,选择更适合自己的方向,当然薪资方面商业数据分析,以及技术数据科学的天花板会更高些

数据分析流程


步骤一:界定问题

业务关键指标:用户和收入,其中有一个出现了下滑,数据分析师就要出山了

三个常见的业务问题类型:

What:界定问题工作的重点

Why+How:将原本简单What背后的Why和How挖出来

步骤二:收集数据

确定所需的内外部数据源——将数据汇总成分析数据集——进行初步数据质量评估

步骤三:清洗数据

检查数据中可能存在的问题,对有错误或者问题的数据进行清洗

将数据整理成命名规范,取值格式统一的形式【工具SQL Python】

步骤四:数据可视化

可视化软件Tableau

步骤五:数据建模

变量信息输入到分析模型中,通过Python进行模型的训练与优化,最终给出能部署到业务中的数据分析结果

【 下面附上知识树一份供大家参考 】


数据分析五步骤



【理论讲完了,下面进入实操阶段】

拼多多双11优惠券例子:

拼多多搞活动,需要弄清楚哪些人会使用优惠券,他们具有怎样的特点,背后的影响因素有哪些,总结一句话就是:用户使用优惠券最核心的影响因素是什么?

首先,我们来认识下所获得的数据维度,可以将原有的数据分为用户信息、消费行为与预测结果3个类别。

用户信息:包含了用户年龄、职业与婚姻状态 3个关键信息。

消费行为:包含了信用卡是否违约、是否有过退货行为、是否使用信用卡、过去6个月使用优惠券数量以及过去1个月使用优惠券数量

预测结果:用户在双11是否使用了优惠券

这里我们要用机器能懂的语言,对数据做说明,所以我们引入“字典”的概念


数据维度与字典

实操:

#一键基础操作——数据导入和清洗比较复杂,所以这里暂不展开讲述,直接使用现成的

#基础操作 导包 导数据

import pandas as pd

import seaborn as sns

import matplotlib.pyplot as plt

%matplotlib inline

coupon = pd.read_csv('week3.tmall.csv')

#数据清洗

coupon = pd.get_dummies(coupon)#将类别型变量转换为数字型变量

coupon.drop(['job_unknown','default_no','returned_no','loan_no','ID'],axis=1,inplace=True) #去除无意义与重复变量

coupon=coupon.rename(columns={'coupon_ind':'flag'})#变量重命名

coupon.head()

【运行后出现下方表格】

其中绿色边框的数据是类别型变量,也就是说:当数据是0时,代表否当数据是1时,代表是举例:flag列的前5行数据都是0,说明这5个用户都没有在活动中使用优惠券

这里显示的是前5行数据,包括了:

用户信息:用户年龄、职业与婚姻状态 3个关键信息。

消费行为:信用卡是否违约、是否有过退货行为、是否使用信用卡、过去6个月使用优惠券数量以及过去1个月使用优惠券数量

预测结果:用户在双11是否使用了优惠券


#通过均值,观察哪些变量对用户使用优惠券影响较大

summary = coupon.groupby('flag')

summary.mean()

数据解释:以coupon_used_in_last6_month为例,在0的分组中,均值是0.26,在1的分组中,均值是0.54。说明:如果在上个月客户使用优惠券越多,那么在该次活动中使用优惠券的概率就越高

接下来,我们对表中数据进一步解释(左图数据仅用于演示,数字与运行结果不一致)。仍以coupon_used_in_last6_month为例,在0分组中,均值是2.60,在1分组中,均值是2.5。这代表:活动没有使用优惠券的人中,过去6个月平均使用2.60个优惠券活动使用优惠券的人中,过去6个月平均使用2.57个优惠券

#使用折线图,呈现coupon_used_in_last6_month与flag的关系

plt.figure(figsize=(200,200))

sns.relplot(x="coupon_used_in_last6_month", y="flag",kind='line',data=coupon)


使用折线图,呈现coupon_used_in_last6_month与flag的关系:前6个月使用优惠券越多,这次活动使用概率越低

#使用折线图,呈现coupon_used_in_last_month与flag的关系

plt.figure(figsize=(200,200))

sns.relplot(x="coupon_used_in_last_month", y="flag",kind='line',data=coupon)


使用折线图,呈现coupon_used_in_last_month与flag的关系:最近1个月使用优惠券初期会有上升趋势,优惠券使用越多,本次活动使用概率会越高;最近一个月使用优惠券超过2个时,双十一活动使用优惠券概率会下降

#使用柱状图,呈现loan_yes与flag的关系

sns.countplot(y='loan_yes',hue='flag',data=coupon)


使用柱状图,呈现loan_yes与flag的关系:没有使用花呗结账,在本次活动中使用优惠券概率会更高

#数据可视化——相关性分析

我们会发现,有非常多的因素会影响消费者是否使用优惠券,但是用户使用优惠券最核心的影响因素是什么?我们需要探寻各个影响因素之间的相关关系

#计算相关系数

coupon.corr()[['flag']].sort_values('flag',ascending=False)

可以看到, 与flag相关度最高的5个变量为:上个月的优惠券使用数量 coupon_used_in_last_month,职业是退休 job_retired,职业是学生 job_student,婚姻状况单身 marital_single,职业是管理层 job_management

#散点图

sns.scatterplot(x='coupon_used_in_last_month',y='flag',data=coupon)


使用散点图,呈现 coupon_used_in_last_month与flag相关性,由于flag只有0/1两个数值,可视化效果不明显

#热力图

q1=['flag','coupon_used_in_last_month','job_retired','marital_single']

sns.heatmap(coupon[q1].corr())


使用热力图,呈现多个变量与flag相关性:选择查看 coupon_used_in_last_month,job_retired,marital_single与flag的关系。我们发现和flag相关度最高的是coupon_used_in_last_month,其次是job_retired,最后是marital_single

【说在结尾】

这里只举了非常小的一个例子,非常感谢你看到了这里,选择和我一起从小白进入数据分析的新世界,文中如果有需要调整的地方,欢迎大佬们随时指出,也欢迎大家一起学习,共勉!

学习数据分析需要具备的一些能力总结:

1、数据思维

能够以数据分析的角度拆解业务问题,提取关键数据维度的能力。

掌握该能力,你能够洞察数据背后的关键信息,做出正确的商业决策。

2、数据处理能力

快速进行数据查询、收集和整理的能力。这里需要使用的工具是MySQL

掌握该能力,你可以使用一行代码从上千条数据中找到想要的数据。

3、数据可视化能力

将数据的结果呈现为直观、高效、可视化报表的能力,这里需要使用的工具是Tableau

掌握该能力,你可以把庞杂的大数据直观的展现到决策的面前。

4、数据挖掘能力

建立数据分析模型,以此来评估与预测未来的业务趋势的能力,这里核心使用的工具是Python

掌握该能力,你可以通过数据预测未来的业务趋势,做出商业决策。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,544评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,430评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,764评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,193评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,216评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,182评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,063评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,917评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,329评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,543评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,722评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,425评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,019评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,671评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,825评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,729评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,614评论 2 353