20180107-决战大数据笔记

image.png

大数据的应用阶段已经从发现问题、分析问题过渡到帮助企业挖掘更大的商业机会、辅助高层决策了。于此同时,很多企业的数据应用依然停留在表面,不仅错过了大数据蕴藏的巨大商业机会,也没有用数据给企业带来实打实的利润。因此,本书的核心内容主要分享作者在数据领域深耕十几年的经验,阿里巴巴数据实战应用的方法论,以及提出了大数据在未来实战层面上的应用趋势。

image.jpeg

一、大数据怎么样从说到用

1、大数据,为什么很多人只会说,不会用。

断层才是大数据所面临的最严重的问题。现在,收集数据的人并不清楚未来使用数据的人要做什么,这是目前大数据的一大关键命门。
不只是收集数据的人不知道将来的人怎么使用数据,就连创建模型的人也不知道自己所采用的数据在未来是否稳定,而使用模型的人也不知道整个数据的来路或加工过程,这些都是普遍存在且很现实的问题。

2、大数据的本质就是还原用户场景

数据收集的价值包含两个维度。一方面,你是否能衡量这个数据对企业产生的价值——你不会将用户的所有行为都记录下来,而是记录那些对企业自身有帮助的数据,即企业价值;另一方面,你是否能衡量这个数据对顾客的价值——这个数据如何帮助企业为客户提供更好的服务,即客户价值。从企业价值来看,数据收集实现的是企业资源的合理分配。从客户价值来看,数据收集实现的是顾客体验的提升。
我的观点是,数据价值的确要分是从谁的角度出发的。所以,当我们谈大数据价值的时候,第一点要注意的就是角色不一样,对于数据价值的看法也就不同,所以在衡量价值时要考虑到受众和给予者这两个对立面的不同看法。在招场景与还原并行——前端还原消费者场景,后端还原业务需求。
数据的本质就是还原,这是收集元数据的关键方法。
我认为,数据的本质就是还原,这是收集元数据的关键方法。如果没有这个概念,你就不知道未来你需要什么数据,就更不懂得什么是重要的数据,到最后只会产生越来越多的无从辨别的数据。一旦数据多到了连你的公司都没有办法处理的时候,那么其他会处理的人、公司和国家就会把你毫不留情地挤出市场。

3、“活”得数据才是大数据

死”数据就是单纯存储在数据库中,无法进行分析和使用,并且不能够产生价值的数据。大数据的真正价值是将数据用于形成主动收集数据的良性循环中,以带动更多的数据进入这个自循环中,并应用于各个行业。
在数据的自循环中,有两个核心的关键点:一个是“活”做数据收集,另一个是“活”看数据指标。所谓“活”做数据收集,就是指企业不要局限于只收集自己用户产生的数据,还要把“别人”的数据收集过来进行综合分析;“活”看数据指标,就是指企业不要局限于已有的数据框架,而应该结合用户需求的不同场景来灵活应用收集到的“活”数据。“活”看数据指标,动态地使用数据 把数据激活,从静态数据变成动态数据,必须要用场景来验证。
“活”用数据,就是你是否能看出这个数据本身的局限是什么。一方面,是我们的数据为用户体验改善了什么;另一方面,企业在使用数据时,对活数据的运用解决了什么问题或者开创了什么机会。要牢牢记住,活用数据很重要。

4、无线数据,大数据的颠覆者

为了方便理解,我想出了两个名词:前端行为数据和后端商业数据。前者指的是访问量、浏览量、点击率及站内搜索等,是反映用户行为的数据;而后者更侧重于商业数据,比如交易量、投资回报率、客户终生价值[LTV(Life Time Value)]。
APP数据收集的方式包括两种:一是收集用户联网时请求服务器的记录;二是在将用户的行为数据记录下来之后,适时地传给网站。但不论是什么样的收集方式,无线数据最终的表现是在没有账户体系的情况下,和PC的用户行为完全没有办法进行关联,这也就意味着用户的数据出现了断层。
我的看法是,保证PC和无线两份数据的完整,通过用户体系将两份数据关联起来,就可以在分析的时候用彼此的融合来还原用户的行为。
面对无线数据,要解决的主要问题有两个:一是做到高效准确的收集;二是培养数据分析师的多屏思维。 所谓做到高效准确的收集,就是需要建立一套面向多操作系统、多版本、自动、可灵活配置的用户行为获取系统。通过这个系统,开发工程师不再需要采用人工写代码的方式来收集数据,从不同。大数据相信全量数据,而非样本;是分析得出,而不是抽样获得。

5、数据的分类与价值

数据作为一种资产,不同的数据含金量必然不同,自然就会产生不同的价值。而且,就同一组数据而言,在不同的环境下甚至会呈现出不同的价值。从数据分类的角度来看,可以将之分为以下4种。 1.按照是否可以再生的标准来看,可以分为不可再生数据和可再生数据。不过千万不能因为“可再生”这个词语的存在,就对可再对不可再生的数据而言,已有的数据要严格保护,想要但是还没有的数据就要及早收集。2.按照数据所处的存储层次来看,可以分为基础层、中间层和应用层。任何管理方法,无论是集中式管理,还是分散式管理,都各有利弊,而且人和业务多了之后,企业也很难进行集中式管理。我给出的建议是,基础层必须统一,因为这是最基本的数据,而且基本数据是原始数据。除了备份的需求外没有必要在各个场合保留多份数据。只要保证这个数据有良好的元数据管理方式,就能极大地降低成本。3.各个数据主体。内容,在平台型电商可以分为交易类数据、会员类数据、日志类数据等。4.按照是否为隐私来区分,可以分为隐私数据和非隐私数据。
数据的5大价值
数据价值1:识别和串联的价值
数据价值2:描述价值。但是,对于企业来说,数据的描述价值与业务目标的实现并不呈正比关系,也就是说,描述数据不是越多越好,而是应该收集和业务紧密相关的数据。用来描述数据最好的一种方式就是分析数据的框架。
数据价值3:时间价值
数据价值4:预测价值
数据价值5:产出数据的价值

6、从用数据到养数据

重复购买率有不同的定义,而做不同的决策需要考虑经过不同定义的重复购买率。如果一家投资公司想收购A公司,那么会从重复购买率来看整个A公司的运营良好程度或用户质量等;如果从A公司本身运营的角度来看重复购买率,那么它更应该关注的是日、周级别的重复购买率的变化趋势,或者当月新增客户有多少人在三个月后进行了重复购买,从而可以衡量出每个月新增及存量客户的忠诚度和质量,进而找出改善的空间。在知道了以上的背景之后,再去选择使用什么数据不是更有的放矢吗?
数据应用因小而美 “小”不是指数据量,而是指应用的目标很具体
把数据放进“框”之中 在大数据的背景下,必须考虑数据之间的关联性。一个单独的数据是没有意义的,要把数据放在一个“数据框架”(场景)之中,才能看出存在的问题。
如何用框架来做决策 想要解决的问题越复杂,框架也就越复杂。但是,决策最重要的前提是要从小角度切入,从“小”做起。 对此,我总结了4步走的方法: 1.首先确定有什么问题,从解决问题的角度出发去收集数据。 2.把收集到的数据整理好,放入一个“数据框架”内(这个框架是用来帮助决策者做决定的)3.看框架与做决策的关系。4.根据决策行动,然后检查行动是否达到目的。
“用数据”更多的是一种方法论,而“养数据”则是一种数据战略,是基于深入业务理解的更高层次的商业决策。
养数据通常有两类,一类是网站自身没有的数据,需要用户主动提供的;另一类是公司拥有的,但没有进行收集的数据。
有一个问题必须得到解决,那就是假定数据都是可以获得的情况下,什么样的数据才是关键?

7、数据的盲点,负面数据的力量

数据盲点 在数据中,盲点可以分为两类:一类是物理盲点,另一类是逻辑盲点。正能量思考告诉你怎么做可以到达成功的终点,负能量思考则告诉你怎么做才不会失败。
数据盲点的价值 是否看到数据盲点价值的核心就是,有没有看到应该看到的数据,有没有错失不应该错失的数据
而且还能引发我们思考另外一个问题:数据的盲点在哪里?
以我的日常工作为例,在团队给高管们做报告的时候,我通常不看报告,而是主要记录高管们“什么时间点头”、“什么时间针对性地做了笔记”和“什么时间没怎么听在看手机”。你不要小看这三个数据,当与当时报告的内容对应(关联)起来时,我就能容易地知道在刚才做的报告中哪一部分是不吸引人的和哪一部分是需要改进的。尤其是高管看手机的时间,完全可以算是理论上的“负能量”数据,但对报告的改进其实非常有价值。

二、阿里巴巴数据应用的“内外三板斧”

作者在阿里巴巴任职期间,总结了一套“内三板斧”和“外三板斧”的办法,对内,用来培养数据人才,对外,实现数据应用的不断升级迭代。

1、 “混、通、晒”——阿里巴巴培养数据人才的“内三板斧”

“混”,指的是,数据分析师一定要跟各业务部门混在一起,了解业务人员的核心需求,掌握他们真正关心的数据,从而帮助他们改善绩效。

“通”,指的是,数据分析师对业务理解通畅了,也是“混”的结果。阿里巴巴通过车品觉主张的“混”在一起,把部门之间的隔阂给打“通”了。团队合作也变得更加和谐高效。把数据打通,一是商业理解和数据之间的“通”,另一种就是部门数据和部门数据的交叉。

“晒”,指的是,最终的数据表现和结果,是人、商业和数据结合之后的一种“看数据”和“用数据”的方法论。在阿里巴巴,“晒”通常是通过数据来回答几个关键问题,比如:业务现在发展的好还是不好,如何利用数据帮助业务部门发现机会等等。“晒”是产生组织力量的过程,同样也适用于企业内部。

2、“存、管、用”——阿里巴巴的数据应用“外三板斧”

“存”,指的是收集数据,收集起来的数据产生价值。盲目的收集不旦不会给企业创造价值,还会增加昂贵的存储和管理成本,即使像阿里巴巴这样的公司,也承担不起无限收集数据和管理数据的成本。所以,车品觉建议,企业在收集数据之前一定要有一个特定的目的。

“管”,指的是对存储数据进行保管,以确保数据的安全、准确等等。数据管理的内容包括很多方面,比如:数据的来源,如何让数据不丢失,如何保护数据的安全,如何让数据准确稳定,以及如何更好的运用数据,这些都是数据运营当中的“管”。

“用”,指的是思考“如何应用数据解决运营中存在的问题”。就拿电商的用户标签来说,阿里总共有18个用户性别标签,这些标签并不是真正意义上的生理性别,而是从用户的购物属性上定义出来的性别。比如说:夫妻俩共用一个账号,早上妻子用,晚上丈夫用,那这个账号在阿里巴巴的性别标签就是“早女晚男”。在数据应用的过程中,把本来不可以分裂的东西分裂之后再重组,就能产生新的数据价值。

三、大数据在未来的应用趋势

作者以十几年的数据实战,对未来的数据应用有六个方向的趋势预测,分别是:应用无线化、信息数据化、交易无纸化、人类智能化、决策实时化、线下线上化。在这一部分,我们来分享 “信息数据化、决策实时化和人类智能化”三个方面。

1、信息数据化
未来会有更多的信息被数据化。由于技术限制,很多有价值的信息还不能被收集成数据,随着科技的发展,这些信息都将被数据化。比如,人脸识别技术就能让零售门店的客户信息被数据化。店员不需要再问“您需要些什么”这样的问题,就能给出相应的商品推荐。当更多有价值的信息被收集成数据,各个行业都将面临巨大的冲击。每个行业都要思考,在这一波数据红利上,如何抢占先机,管理好自己的用户数据,提升用户体验。

2、决策实时化
生活中我们遇到的很多问题,都是因为没有得到及时的反馈,导致我们无法作出正确决策。如果银行提前告诉你,再不还款就会收取额外利息,相信很多人都不会忘记还款了。再比如,如果糖尿病患者可以实时的了解自己的血糖水平,知道当下的这一餐会让血糖升高到多少,就能决定眼前这一餐要不要全吃光。
在未来激烈的商业竞争当中,企业影响消费者进行实时决策的能力会越来越重要。越是能够在短时间内抓住消费者,就越容易卖出产品,实现更高的顾客转化率。

3、人类智能化
随着可穿戴设备的出现,人和数据开始真正融为一体,像谷歌眼镜这样的设备,将让我们看到的东西即时数据化;类似健康手环类设备,和可以深度收集脑电波的数据设备,将随时会使我们人体的活动转化成数据。
在不远的将来,用数3记录实时记录生活将成为可能。彼时,数据将会帮助人们做出更好的判断,人类也会变得更加智能。未来,一个人的能力和聪明程度的不是由 IQ 决定的,而是这个人是否拥有足够的数据。

本书中提出的好问题:

1、先问一个数据管理上最现实的问题:“大数据如何备份?“

2、如果你在数据使用方面一直得心应手,整个商业链条和数据紧密相关、相辅相成。但是,现在数据链忽然断了,或者不再有效了,你该怎么办?
你需要注意的是,这一问题说的不是你有没有使用好数据,而是说曾经你可以得到的数据现在无从获得了;或者说这些数据不能再在线上收集,只能从线下获取,成本也就相应升高了;抑或说,这些数据存储在其他地方,你不能使用了。在诸如此类的情况下,你该怎么办?

3、很多人都会问,大数据能带来什么价值?怎么衡量大数据创造的价值?
事实上,最直接的衡量标准就是,在经营上它为你赚了多少钱,带来了多少实际的利润提升。

4、从公司管理层的角度来看,投资人了解数据的意义是什么吗?
高层管理者对数据的期望和中层管理者之间又有什么不同?他们知道数据能帮助企业做什么吗?这些问题的答案完全会因立场而异。

5、首先,你能否清楚地识别(Identify)用户的身份?其次,你能否搞清楚收集的数据对你的价值(Value)是什么?最后,收集数据时的场景(Situation)是什么?
是否知道用户是谁,决定了企业数据收集行为的意义大小。

6、为什么场景会变得如此重要?场景是不是被准确地表达了?场景是否会成为一件事情的背景,用来还原整件事情?

7、如何更好地识别各个设备的使用者是否为同一个人,如何更好地理解用户在各个不同场景下表现出来的不同需求,如何更好地理解数据融合后产生的价值,将是未来商业中每一个企业都必须考虑的问题。

8、我在面试数据分析师的时候,必然会问他们一个问题:“假如我是一家知名电商的CEO,而今天是星期一早上9点钟,请你给我提供三个数据指标向我证明在过去的一周里,企业运营得一切正常,可以让我踏实下来。你认为,会是哪三个指标呢?”

9、现在的企业获取数据如此容易,数据的增长速度如此之快,那么对于企业来说,到底要收集什么样的数据?收集多少数据?收集数据的边界在哪里?

10、先提一个假设性问题:200米以外忽然发生了爆炸,你如何通过大数据鉴别出是不是有人蓄意而为?如果是,如何快速地锁定嫌疑人?

11、假定数据是脏的 在处理数据的时候,会像污水处理厂一样,每一步都问自己要如何处理这些污水。这种情况的出现,到底是因为数据源脏了,还是因为数据提炼过程做得不好?

金句

1 大数据的应用已经不局限在分析问题反映问题的层面了,它已经成为商业决策的重要工具,所以说,未来企业的核心竞争力很大程度上取决于“用数据”的能力。

2、数据如何用,用的好不好,最关键的是“用户意识”,也就是从数据使用者的角度去做分析。一个产品的成功,取决于它在多大程度上满足了用户的需求,解决了用户的问题。

3、收集数据不是目的,让收集起来的数据产生价值才是最终的目的。没有一家公司可以承担得起无止境收集数据的成本,如果只收集数据,而不当机立断做出分析和应用决策的话,代价只能是惨重的存储和管理成本。

4、阿里巴巴培养数据人才的内三板斧“混通晒”,以及阿里巴巴数据应用反复升级迭代的外三板斧“存管用”,是阿里巴巴在数据应用上最值得分享给你的宝贵经验。

5、在循环往复的大数据实战当中,最关键的是要一直保持新手的心态。要想用好大数据,不能只关心科技的发展,还要注重思维的开拓。只有先进的科技加上开阔的数据思维,大数据的价值才能发挥的淋漓尽致。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,386评论 6 479
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,939评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,851评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,953评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,971评论 5 369
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,784评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,126评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,765评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,148评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,744评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,858评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,479评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,080评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,053评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,278评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,245评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,590评论 2 343

推荐阅读更多精彩内容