一、数据主义,未来一切都将数据化
1、大数据不是独奏,而是不断连接、无处不在的数据
作者在阿里就经历了4个不同阶段:数据驱动决策、数据驱动流程、数据驱动产品、数据驱动业务。在此过程中,你会发现,数据驱动的目标越模糊、数据越零散、人的互动环节越多,智能项目开展起来就越吃力。
商业基础正因众多终端带来的全域大数据而发生着改变。它带来的变革不限于数据本身,还有思考社会和商业模式将如何被改变的全新角度。这么多零散的数据和维度叠加在一起,下一难题就变成了如何保证有效地存储、更新、辨识和连接这些数据,并灵活地使用它们。当数据从传统PC端转移到移动终端时,我们往往会遇到两大误区。 第一个误区是把智能手机当作一个新增的媒体渠道,相当于另一个屏幕,这是完全不够的。手机作为功能设备产生的行为数据,不仅有时间维度,还有空间维度和社交维度,这么多维度叠加在一起,分析的层面和方式也远远多于传统网页。 第二个误区是用同样的方式考评PC端和移动终端。在PC端,我们更关注流量转换的指标,而移动终端更在乎的是参与度。
与大数据的4V(量大、多样、速度、价值)相比,移动大数据的核心重在实时(real time)、适时或最佳时机(right time)以及全时(all the time)。任何一个完整的高效服务都离不开这3T。
2、数据相关性比数据本身更重要
在信息爆炸时代,拥有大量信息可能是灾难而不一定是好事,也不等于你有能力用好它。从业务过程中收集信息、分类信息、整合信息,必须要成为日常思维的一部分,这是成为数据驱动型公司的必要条件。
用上了“无中生有”的伎俩,并量化了早上的会议,目标是了解集团CEO关注什么。我快速将其他人演讲的内容记录下来,同时记录了在其他人演讲期间CEO的几个动作信号:点头、写笔记和发问。大家可能已经明白,我是在量化领导对每一个主题演讲的专注度。当然,如果领导从头到尾都在玩手机的话,说明他对内容根本不感兴趣。领导的一举一动,无疑都间接地反映了他对什么内容比较关注或者有想法,什么内容是被他当垃圾扔掉的。
一切皆可量化,表面上看似不存在的数据,其实也是有迹可循的。量化是对被量化的事物的一种映射,就像照X光片。关键是,我们要明白量化后的数据是为了解决什么问题,以及在量化的过程中如何降低噪声,增加稳定性。当我们学会量化以后,就是一个个从无到有的过程,很多重要的东西就这么“无中生有”了。这也是在新时代的特质下,企业想要实现“弯道超车”的一个难得的快捷方式。记住,要学会无中生有的量化,要有足够的观察、足够的理解及数据收集。
我们就应该做到以下几点: 澄清什么是X。例如,你想量化“开心”,但究竟什么是“开心”?“开心”跟“快乐”是否一样?你需要不断用问题去澄清X! 如何量化X?如果我们认为开心的表现是笑,那我们可以量化“微笑”吗?面部情感识别的技术,微软已经有较成熟的软件了。 量化之后能够增加我们对X的了解或者减少不确定性吗?我们能否找到量化后的“开心”指数,并在应用中确认其价值?否则只能回到第一步,重新澄清什么是X。
3、数据流动在于利益关系
阿里时,作者是怎么处理部门间数据互通这件事情的呢?很简单,首先是找出大家有意愿共用的部分,我称其为企业内的公共数据,然后安排资源把这一部分先建设起来。选择公共数据也有一定的技巧,简单归类就是:各部门已经在高频率但低效率的单线流通的数据,被野蛮重复复制到各部门的相同数据,大家都有意愿首先标准化的数据。当这些带有公共性质的核心数据建立起来之后,大家就能更容易地感受到数据高质量流通的意义及好处。要保证这些数据的质量和新鲜度也相对变得容易了。
数据应用的理解历程:第一个阶段用数据,第二个阶段养数据,第三个阶段从看数据到用数据。
如果让我总结这其中的精髓,我的秘诀是:数据分析也要讲究用户体验。 数据产品设计的切入点必须要问“目标问题是什么”“什么样的数据才能解决这个问题”。只有得到用户的信任,我们才能够做出更多的好产品。产品需要不断迭代,而非一劳永逸。这就是我们做产品的理念。
二、 数字经济引擎,智能商业的核心
1、不懂商业就别谈数据
数据产业的另一关键是开源的小区、公司之间的合作与竞争关系并存。从数据的收集到使用,我们要学会与生态中的各种角色竞合,因为没有人能单枪匹马地完成整张数据大图。懂得这个道理的公司才会是未来的数据之王。数据使用权必然会是未来企业之间最大的竞争空间,当然也可能是最大的合作空间。
任何安全原则要想得到业务方面的支持,就必须契合企业的商业目标、风险承受能力和部署能力。而今天,大部分企业的管理层对数据安全还没有达成共识,要做到这些相当困难。
阿里在数据化实践过程中有三大原则: 相信数据是未来所有业务的核心竞争力。 不在线的数据,不是大数据。 数据的有效使用与高度流通要有互惠互利机制。 如果我对你说,2010年时,阿里的数据化运营也是摸着石头过河,最初的数据分析产品还不到50个用户,业务方对数据化管理一点也不感冒,大家可不要感到奇怪。
数字经济引擎包括4种形态,分别是数据驱动决策、数据驱动流程、数据驱动产品以及数据驱动数据。
所以,我对有意布局数字经济的企业有8个建议: 关注业务决策的过程,从问题中寻找数据化的机会。 企业数据能力的泛化,要建立在数据产品的灵活性上。 建立规范,确保数据供应的质量及稳定性。 促进企业内部数据共创与共享机制的建立。 建设外部数据积累及有使用权的数据战略储备。 培养海量数据的深度分析能力。 阻碍大数据发展的是伦理和法规。 把“门窗”关好,数据越多,责任越大。
从被动走向主动、从静态检讨转向动态学习,数据闭环系统的理论和架构没有太多改变;改变的只是科技在闭环系统中对断点的修补、第三方数据对视野的开拓、人对自己在闭环系统中所扮演角色的定位及价值的认知,以及反应速度不断提高的闭环系统本身。
2、智能时代,数据才是根本
我们并不缺少数据,我们缺少的是对数据战略的想象,以及看见调制解调器之后动手撷取的能力。
首先,我们必须有足够高远的眼界,“知道有”这些数据的存在; 其次,我们要有足够的知识与经验,“知道用”这些数据去解决当下面临的问题; 最后,关键是有足够的技术与知识,“懂得用”这些数据,利用它们解决相关问题。
要从战备上对大数据进行应用,企业现阶段务必要培养几个基础能力。
第一,更广泛地连接万物。
第二,从被动接收到主动收集。
第三,更深入地分析,更准确地行动。
第四,更高速、更全面地学习。
互联网领域,数据的规模、活跃度,以及收集、运用数据的能力,已经成为企业的核心竞争力之一。在深入洞悉市场、快速精准地找出应对策略时,数据已经成为企业实现更大商业价值的最强驱动力。当然,数据作为一种企业资产,需要与其他资产,如人力资源、硬件等相互组合才能发挥出最大的价值。
人工智能因大数据而重生,但制约人工智能在各领域实现更广泛利用的,并不是算法不够先进,而是缺乏高质量的数据。若想开发最先进的机器学习技术,能否获得高质量的训练数据极为关键,而如何启动是大部分企业的一个难题。
每家公司的数据获取策略不尽相同,但回想这么多年我在阿里也算面对了不少类似的困难,希望抛砖引玉与大家分享几点。 从零开始创建好的专有数据集,几乎永远意味着,预先投入大量人力收集数据。但更痛苦的是,业务变化的同时,数据结构也需要时时更新,正如前辈所说:“数据集成的同时已经在断裂。” 即使是表面上拥有很多数据,但在运用机器学习时,仍会发现数据量的不足。你需要的数据量与你试图解决的问题紧密相关。 数据的收集、处理、运用,短期来说肯定是越贴近业务越有效率,然而从长远看并不利于数据的标准化及重复使用,导致开发周期变得漫长。我的经验是,起点可以从最小化应用做闭环,基于众多应用做长线规划。 确保早期创造的应用有足够的吸引力,让业务方及使用者甘愿交出他们的数据。大数据落地除了关乎技术问题,亦系于业务方及个人的意愿是否足够。只有互利互惠,才有长久合作。 在大范围使用大数据之前,必须严肃地面对数据的标准和质量问题,否则后果堪忧。数据驱动型企业须明白,数据质量是全部员工的责任,并不仅仅是技术问题。 大数据安全是一个命门,数据越多,责任越大,而且有时候会超出你的想象。原以为很安全的数据拼合其他数据之后,可能成为机密级别。
3、数据,未来企业的核心资产
数据的存在是为了能够有效地解决问题,而解决问题的核心与关键还是在于预测。客户的行为数据不一定能产生交易,但可以让我们更了解他,让我们知道他为什么会买或者为什么不会买。通过行为数据去发现客户如何做决策是个重要课题,即使是负面数据也可能有正面作用。
中小企业要有清晰的具体目标:希望数据帮自己做什么、数据能解决什么问题。必须谨记,我们面对的是消费者,数据的收集、整合、决策、反馈都必须从消费者出发,以人为中心。这样才不至于太分散,盲目地“为了数据而数据”。另外,企业不应把客户看成一个整体,因为解决了客户的一般性需求,不等于了解了客户的特殊需求。在大数据的驱动下,批量生产的个性化或许并非遥不可及。
在清洗数据时,定义一个数据口径的地方,往往便是成败的分水岭。若对数据口径和商业之间的理解不够,便会影响到我们最初的认知,事倍功半。
本书好问题
1、大数据的本质是什么?数据体量的背后隐藏着什么样的诱惑?--我认为,最好的比喻莫过于拼图:如果你玩过一个1 000块以上的拼图,应该不难体会,开始的5%拼起来最为吃力,拼了25%后,你就渐入佳境了。
2、有些CEO问我,如何打通企业各部门之间的数据,进而防止阳奉阴违的事情继续发生?
3、问题来了:商业运营的过程能像无人驾驶汽车一样实现全面的自动化吗?
4、在反思大数据时代数据中心的运作方式时,企业必须考虑以下几个问题: 监控日志应该在哪里,以及要收集什么?
5、数据收集和流通时的加密机制是否完善?
6、安全原则有多大程度会影响业务效率?
7、数据敏感度的静态分层与基于业务的动态分类有多大区别?
8、企业是否有能力捕捉到危险情报,并及时处理可疑行为?
9、如何确保有足够多的数据来发展人工智能?需要储备什么样的人才?我认为,大家都忽略了大数据能力的根源来自连接,而连接的基础是数据的流通和标准化。
10、我在阿里工作时共做过三次,并归纳了一些经验: 什么样的数据用量大、覆盖率高?具有公共属性的数据。 什么样的数据稀缺但重要?具有战略性的数据。 什么样的重要数据不可再生?因此必须备份。 数据资源用完可以再用!因为复制成本极低。 大数据的关联特性,让数据权属的边界变得越来越模糊。
金句
1、思维所造成的障碍永远多于技术本身。
2、是否知道用户是谁,决定了企业数据收集行为的意义大小。
3、互惠互利才是大数据流通的永恒关键。