《大数据时代》
一、思维变革
大数据和三个思维的转变有关
1.要分析与某事物相关的“所有数据”,而不是依靠“少量样本”
数据处理技术的进步,让样本等于总体成为现实。大数据即指不用随机分析法这样的捷径,而采用所有数据的方法,而这较为有效。比如,专门从事跨境汇款业务的XOOM公司,它对一笔交易的所有相关数据进行分析,系统曾因注意到用“发现卡”从新泽西州汇款的交易量比正常情况多而自动启动报警,事实证明,确是犯罪集团试图诈骗。
2.人们乐于接受数据的纷繁复杂,而不是精确性
大数据不仅让人们不再期待精确性,也让人们无法实现精确性——数据库一般分散在多个硬盘和多台电脑上,一个记录可能分开储存在多个地方,同步更新不太现实。而当数量规模够大时,确切的数量就没那么重要了——想想社交帖阅读量的标示以及人们的心理:阅读量1万以上,就很少有人在乎最末的个位数了。如谷歌翻译系统,为了训练计算机,会吸收它能找到的所有翻译——各类语言的公司网站、联合国和欧盟发布的官方文件的译本、迅读项目中的书籍翻译等,尽管其输入源很混乱,但翻译质量更高,可翻译的内容更多了。
3.人们的思想发生了转变,不再探究难以捉摸的因果关系,转而关注事物的相关关系
过去人们通过因果关系了解世界:比如感冒和不带帽子;肚子不舒服和刚在某家饭店吃过饭……并不一定准确。大数据时代,理解世界不再需要建立在假设的基础上,建立相关关系分析法基础上的预测是大数据的核心。
亚马逊团队最初想通过分析“客户之间的相似性”建立推荐系统,后来发现这非常琐碎而无效,最后转向“找到产品之间的关联性”,这为亚马逊带来三分之一的销售额。沃尔玛对包含每一个顾客的购物清单、消费额、具体购买时间、购买天气的庞大数据库进行分析发现,每当在季节性飓风来临之前,不仅手电筒销量增加,某品牌蛋挞的销量也增加了,沃尔玛接下来会在同样的天气来临前把库存的蛋挞放在飓风用品旁边以增加销量。
二、商业变革
1.理解数字化和数据化
数字化:谷歌把所有版权书籍通过扫描存入谷歌服务器的高分辨率数字图像文件中,书本上的内容变成了网络上的数字文本,任何地方任何人都可以方便查阅,然而这还需要用户在浩瀚的内容中寻觅自己需要的片段。
2.量化一切,数据化的核心
1)文字变成数据:人们可以用来阅读,机器可以用之分析。
2)方位变成数据:典型代表GPS,手机用户地理位置的价值——根据他所居住的地点和要去的地方的预测数据,为他定制广告。
3)沟通变成数据:FACEBOOK的“社交图谱”;推特让人们记录和分享零散的想法让情绪数据化得以实现……潜在用途如消费信贷公司考虑开发以脸书社交图谱为依据的信用评分——物以类聚,人以群分,一项研究表明,个人偿还债务的可能性和朋友会偿还的可能性呈正相关。
4)万物数据化:如触感技术先导可以通过一个人的体重、站姿和走路方式确认身份;将感应器绑定到哮喘病人佩戴的呼吸器上,通过GPS定位,可以判断环境对哮喘的影响等。
3.数据再利用
在数字化时代,数据是被交易的对象;大数据时代,数据将发挥潜在价值。对于组织来说,应收集尽可能多的使用数据并保存尽可能长的时间,同时在保留“延展性”权利的前提下与第三方分享,分得潜在价值一杯羹。
1)数据再利用:如移动电话运营商收集用户位置信息传输电话信号,调整网络性能,而手机制造商可以用它来了解影响信号强度的因素,改善手机接收质量,电话公司甚至创立独立公司向零售商和买家出售其收集到的匿名用户位置信息。
2)重组数据:如房地产网站将房地产信息和价格添加在美国的社区地图上,同时聚合大量信息,如社区近期的交易和物业规格,以此来预测区域内具体每套住宅的价值。
3)可扩展数据:摄像头一直用于安全保卫,是一项成本支出,但还可以跟踪购物客户流和他们停留的位置,用来参考店面最佳布局并判断营销活动的有效性。
4)数据的折旧值:如亚马逊某客户十年前购买了一本书,现在对这类书可能不感兴趣,如果这个时候亚马逊继续用这个数据推荐其他相关书籍,则可能被质疑。因此,亚马逊利用时间及各种因素的复杂模型分离有用和无用的数据,使得模型的“折旧率”更明显。
5)数据废气:指用户在线交互的副产品,包括浏览了哪些页面、停留了多久、鼠标光标停留位置、输入什么信息等。如电子阅读器捕捉读者阅读一页或一节的时长,是否画线强调或者在空白处作笔记,通过记录、聚集,可以展示一些出版商和作者永远不可能知道的信息。
6)开放数据:如奥巴马开放政府数据的data.gov网站的建立。
4.给数据估值
数据被计入和品牌、人才、战略并列的无形资产范畴,其潜在价值被投资者注意,拥有数据或能轻松收集数据的公司股价上涨。价值利用最常见的可能性是将数据授权给第三方,给数据定价的市场已经出现,如冰岛一家公司向人们提供联合国、世界银行和欧盟统计局等的免费数据集,靠倒卖商业供应商(市场研究公司)的数据来获利。
5.大数据价值链的3大构成
1)基于数据本身的公司:拥有或能够收集大量数据,不一定能从中催生创新思想的节能那个,如推特,拥有海量数据,但只能通过两个独立的公司授权给别人使用。
2)基于技能的公司:咨询公司、技术供应商、分析公司,掌握专业技能但不一定拥有数据或提出数据创新性用途,如沃尔玛的数据分析商天睿公司。
3)基于思维的公司:拥有挖掘数据价值的独特想法,如JETPAC公司通过用户分享到网上的旅行照片来为人们推荐下次旅行的目的地。
3.管理的变革
1)个人隐私保护,从个人许可到让数据使用者承担责任。
2)个人可以并应该为他们的行为而非倾向负责。
3)大数据需要被监督并保持透明度以防变成一个“黑盒子”。
4)大数据算法师的崛起:来自计算机科学、数学和统计学领域,是担任大数据分析和预测的评估专家,必须保证公正和保密。他们可以评估数据源的挑选,分析和预测工具的选取,甚至包括运算法则和模型,以及计算结果的解读是否正确合理。一旦出现争议,他们有权考察与分析结果相关的运算法则、统计方法以及数据集。
5)反数据垄断大亨:参考19世纪美国反垄断的历程,保护极具竞争力的大数据市场。
4.大数据和不确定性
大数据改变了人们的生活,能优化、提高、高效化并最终捕捉住利益,但发明的火花往往存在于数据未显示的信息之中。科技再先进也无法将世界上数据的总量尽数收集,人们收集的数据不过是现实的投影,大数据不能提供最终答案,它只提供参考答案。人类最伟大的地方正是运算法和硅片没有也无法揭示的东西,如信仰、不确定性和创意。