浅谈数据分析

马老师在多年前就提到,我们会从 IT 时代走向 DT 时代。当我第一次听到这句话时,说实话我没有啥感觉。那个时候,我也不知道数据是个啥玩意儿,给我的直观感受就是一堆数字而已。

当我进入数据行业之后,我其实对于数据本身的理解也没有多大进步,稍微进步的方面可能就在于我知道了数据原来是可以被处理的,而我就只是一直在处理这些数据罢了。当然我也了解到处理数据是为了获得一些结论,这些结论可能对应着各种各样的目的。

可能是随着自己这两年来对我所在业务的理解逐渐加深,直到最近,我才开始对数据慢慢有感觉起来。那些曾经的金句,“数据是生产资料”、“数据是石油”、“数据是企业最有价值的资产”...都是些大实话,只是这些东西,我个人花了好几年时间去理解。

从传统产业的角度去理解数据,很难想象数据的价值到底在哪。因为只有当企业开始慢慢数字化之后,数据的价值才会慢慢浮现出来。更为重要的是,企业老板们的数字化意识要首先建立起来,否则企业数字化就无从发生。

一堆数据如果就躺在那儿,本身并不会自然就产生价值,数据作为一种生产资料,只有当它投入到生成环节中,它的价值才会体现出来。而对数据的生产加工过程,数据分析是非常重要的一环。

为什么要做数据分析?

关于数据分析的价值,管理学大师彼得·德鲁克曾经有一句名言:你如果无法度量它,就无法管理它。

接下来,我们来看几个关于对数据进行分析而产生价值的案例。

数据新闻推动英国撤军

2010年10月23日《卫报》利用维基解密的数据做了一篇“数据新闻”。将伊拉克战争中所有的人员伤亡情况均标注于地图之上。地图上一个红点便代表一次死伤事件,鼠标点击红点后弹出的窗口则有详细的说明:伤亡人数、时间,造成伤亡的具体原因。密布的红点多达39万,显得格外触目惊心。一经刊出立即引起朝野震动,推动英国最终做出撤出驻伊拉克军队的决定。

大数据与乔布斯癌症治疗

乔布斯是世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。为此,他支付了高达几十万美元的费用。他得到的不是样本,而是包括整个基因的数据文档。医生按照所有基因按需下药,最终这种方式帮助乔布斯延长了好几年的生命。

微软大数据成功预测奥斯卡21项大奖

2013年,微软纽约研究院的经济学家大卫•罗斯柴尔德(David Rothschild)利用大数据成功预测24个奥斯卡奖项中的19个,成为人们津津乐道的话题。罗斯柴尔德再接再厉,成功预测第86届奥斯卡金像奖颁奖典礼24个奖项中的21个,继续向人们展示现代科技的神奇魔力。

啤酒与尿布

全球零售业巨头沃尔玛在对消费者购物行为分析时发现,男性顾客在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起的促销手段。没想到这个举措居然使尿布和啤酒的销量都大幅增加了。如今,“啤酒+尿布”的数据分析成果早已成了大数据技术应用的经典案例,被人津津乐道。

一女生因为 42 条 iPhone 数据线走上人生巅峰

一哥们儿有次聚会时说自己买了很多条 iPhone 数据线,家里每个房间插一条,走到哪都能随时充电。在场的姑娘们都当成段子笑笑就过去了,只有个细心的姑娘悄悄问他买了多少条,那哥们儿说 42 条。现在她和他在北京三环内总共 42 个房间的数套豪宅内愉快地生活着,下个月结婚。

可以看到,数据分析产生的价值可以影响战争局势,也可以影响到我们的生命和生活。显而易见的是,训练自己的数据敏感度以及不断修炼自己的数据分析能力就是非常必要的事情了。

什么是数据分析?

在数据行业,有一个对数据分析的常见定义:

基于对业务问题的深入理解,利用数据分析工具对业务数据进行处理与分析,定位出业务问题的原因,从而指导业务决策与行动。

从这个定义中,我们可以看到要对数据进行分析,需要我们对业务本身有一定的理解,这一点在我以前的文章中就多次提到过。

我在和我的另一位搭档合作的过程中,也不断向他灌输 “理解业务” 的意识。因为作为数据工作者,不理解业务,就只能作为一个取数机器,对自身的职业发展非常不利。

数据分析怎么做?

要做好数据分析,我们需要知道现在常见的分析工具都有哪些。其实技术更新换代到现在,针对数据分析的工具已经非常非常多了,常见的比如说有:excel、sql 语言、python、统计学、数据挖掘算法与模型...

面对这些纷繁复杂的数据分析工具和语言,我们不需要全都去学,我们每个人的时间精力都是有限的,而技术发展是不会停止的。

我个人的学习习惯是,只有当我很明确知道我的业务需要我具备某种能力时,我就会拿出那种 “我不会,但我可以学” 的精神去学某种技术。顺便提一下,美团创始人王兴对 “我不会,但我可以学” 的行事态度非常推崇。

技术工具始终都是工具层面的事情,这些东西在真正实践的过程中去学是可以接受的;同时,在我看来学习效果也是最好的。

比较重要的是分析思维的建立,一些基本的分析方法论我们是需要重点去关注的。我就不止一次和我的工作搭档说 “具体的技术点我不会经常和你聊,这些东西你都可以 google,遇到问题我会兜底。反倒是我和你聊方法论的时候,你要重点去关注。”

数据分析方法,我们常见的分类有两种:描述性统计分析和数据挖掘算法。

描述性统计分析就包括,求和、记录数、平均、中位数、方差、最值、T 检验、卡方检验...

举个例子,比如我们开发两套课程,A 课程和 B 课程,现在我们针对这两款课程的付费情况做一下简单的分析。

假如运营一段时间之后,A 课程和 B 课程的付费总额(求和)都是 200W,这能看出什么?好像看不出什么,对吧,我们就此就得出 A 课程比 B 课程好之类的结论...从这个付费总额我们只能看出这两套课程的营收是一样的。

然后我们对数据处理一下,做一个去重统计,得到 A 课程的付费客户数是 100 个,B 课程的付费客户数是 20000 个。从这两个数据看上去,好像 B 课程的用户基数更大...A 课程的用户基础貌似没有 B 课程大,但是付费金额要高一些。从数据上又应该如何体现呢?

接下来,我们再对数据进行一下处理,我们可以看看 A 课程和 B 课程的人均付费金额(平均),得到 A 课程的人均付费金额是 20000 元,B 课程的人均付费金额是 100 元。从这里就可以看到,A 课程的客户里面,土豪更多一些哈。

然后我们还可以对数据做处理,我们可以分别看一下 A 课程和 B 课程的付费金额的中位数,发现 A 课程的付费金额中位数是 1W ,B 课程的付费金额中位数是 10 元。 从这里就可以看出来,不管是 A 课程还是 B 课程,有很多人是被平均的,那么真正的土豪到底会花多少钱呢?

最后,我们就可以简单排个序,看下 A 课程和 B 课程付费最多的土豪分别花了多少钱,也就是看一下付费金额最大值(最值)。得到 A 课程最土豪的哥们儿花了 5W ,B 课程最土豪的哥们儿花了 6W。所以,我们可以看到 B 课程虽然平均每个人花钱比较少,但是最有钱的人却是在 B 课程这里玩儿~

数据挖掘算法就包括,回归、时间序列、聚类、决策树、关联、购物篮分析、协同过滤...

举个例子,这里我们拿聚类这个算法简单看一下刚刚那个 A/B 课程的案例。

在各种分析理论中,有一个很经典的分析模型就是:RFM 模型。

Rencency 最近一次消费

Frequency 消费频率

Monetary 消费金额

我们知道,当我们分析维度超过 3 种以上时,这时候通过人工方式去分析已经做不到了,怎么办?这时候,我们就需要借助于分析算法模型去处理多维(3 种以上维度)分析的场景。

K-Means 聚类就是一种常见的算法分析模型。这是一种分类分析算法,K 就是分类的数量,Means 就是求平均。可以这样简单理解 K-Means 聚类算法,我们把分析对象根据分类数量映射到一个多维空间中,那么每个对象就是这个多维空间中的一个点,具有类似特征的点会汇聚到一起,从而形成一个个的聚类簇。

因为每个对象都是这个多维空间中的一个点,那么点距离某一个聚类簇的距离越小,我们就倾向于认为这个点代表的对象就越可能属于这个聚类簇。

比如,我们通过模型得到了两个分群结果:

1、近期低频低额付费

2、近期高频低额付费

那么,针对 1 和 2 这两个分群,我们可能就有不同的运营策略。针对 1 分群,我们认为他们消费能力较弱,可能对折扣类信息比较敏感,那么,我们就可以针对性对这类人群推送更多折扣信息,尽量提高他们的消费金额,相当于提前消费他们的频次消费(说人话,就是尽量把能挣的钱想办法先挣了再说)。

针对 2 分群,我们看到他们的消费意愿是比较强,只是消费能力上稍差一些。那么,我们就可以给他们推送礼包资源,以达到提高他们消费金额的目的。

数据分析方法论还有很多...考虑到篇幅原因,这里我们就先聊到这儿,后面我学到其他的再给大家汇报一下吧。


总结一下,数据分析这事儿绝不仅仅是数据从业者的活儿,这事儿应该是每个人都需要学习的东西。学商业,习业务,会分析,才能懂数据。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,539评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,594评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,871评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,963评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,984评论 6 393
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,763评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,468评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,357评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,850评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,002评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,144评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,823评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,483评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,026评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,150评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,415评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,092评论 2 355

推荐阅读更多精彩内容