大数据时代
维克托·迈尔-舍恩伯格
42个想法
推荐序一 拥抱“大数据时代”
>> 大数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,绝大部分都隐藏在表面之下。而发掘数据价值、征服数据海洋的“动力”就是云计算。
推荐序二 实实在在大数据
>> 但正如维克托所强调的,最重要的是人们可以在很大程度上从对于因果关系的追求中解脱出来,转而将注意力放在相关关系的发现和使用上。
>> ,大数据时代的经济学、政治学、社会学和许多科学门类都会发生巨大甚至是本质上的变化和发展,进而影响人类的价值体系、知识体系和生活方式。
译者序 在路上·晃晃悠悠
>> 大数据时代处理数据理念上的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果;
引言 一场生活、工作与思维的大变革
>> 大数据的科学价值和社会价值正是体现在这里。一方面,对大数据的掌握程度可以转化为经济价值的来源。另一方面,大数据已经撼动了世界的方方面面,从商业科技到医疗、政府、教育、经济、人文以及社会的其他各个领域。
>> 大数据的精髓在于我们分析信息时的三个转变,这些转变将改变我们理解和组建社会的方法。第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。
>> 第二个改变就是,研究数据如此之多,以至于我们不再热衷于追求精确度。
>> 第三个转变因前两个转变而促成,即我们不再热衷于寻找因果关系。这
>> 如果数百万条电子医疗记录显示橙汁和阿司匹林的特定组合可以治疗癌症,那么找出具体的药理机制就没有这种治疗方法本身来得重要。同样,只要我们知道什么时候是买机票的最佳时机,就算不知道机票价格疯狂变动的原因也无所谓了。大数据告诉我们“是什么”而不是“为什么”。在大数据时代,我们不必知道现象背后的原因,我们只要让数据自己发声。
>> 大数据时代开启了一场寻宝游戏,而人们对于数据的看法以及对于由因果关系向相关关系转化时释放出的潜在价值的态度,正是主宰这场游戏的关键。新兴技术工具的使用使这一切成为可能。宝贝不止一件,每个数据集内部都隐藏着某些未被发掘的价值。这场发掘和利用数据价值的竞赛正开始在全球上演。
>> 大数据给社会带来的益处将是多方面的。因为大数据已经成为解决紧迫世界性问题,如抑制全球变暖、消除疾病、提高执政能力和发展经济的一个有力武器。但是大数据时代也向我们提出了挑战,我们需要做好充足的准备迎接大数据技术给我们的机构和自身带来的改变。
01 更多 不是随机样本,而是全体数据
>> 社会科学是被“样本=总体”撼动得最厉害的学科。
02 更杂 不是精确性,而是混杂性
>> 执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱,剩下95%的非结构化数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。
>> “大数据”通常用概率说话,而不是板着“确凿无疑”的面孔。整个社会要习惯这种思维需要很长的时间,其中也会出现一些问题。但现在,有必要指出的是,当我们试图扩大数据规模的时候,要学会拥抱混乱。
>> 大数据要求我们有所改变,我们必须能够接受混乱和不确定性。精确性似乎一直是我们生活的支撑,就像我们常说的“钉是钉,铆是铆”。但认为每个问题只有一个答案的想法是站不住脚的,不管我们承不承认。一旦我们承认了这个事实甚至拥护这个事实的话,我们离真相就又近了一步。
03 更好 不是因果关系,而是相关关系
>> 知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”
>> 但真的是因为他吗?事实证明,一般来说,人被狂犬病狗咬后患上狂犬病的概率只有七分之一。即使巴斯德的疫苗有效,这也只适用于七分之一的案例中。无论如何,就算没有狂犬疫苗,这个小男孩活下来的概率还是有85%。
>> 我们需要改变我们的操作方式,使用我们能收集到的所有数据,而不仅仅是使用样本。我们不能再把精确性当成重心,我们需要接受混乱和错误的存在。另外,我们应该侧重于分析相关关系,而不再寻求每个预测背后的原因。
04 数据化 一切皆可“量化”
>> 大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。信息技术变革随处可见,但是如今的信息技术变革的重点在“T”(技术)上,而不是在“I”(信息)上。现在,我们是时候把聚关灯打向“I”,开始关注信息本身了。
>> 数据化”吧——这是指一种把现象转变为可制表分析的量化形式的过程。数据化和数字化大相径庭。数字化指的是把模拟数据转换成用0和1表示的二进制码,
>> 计量和记录一起促成了数据的诞生,它们是数据化最早的根基。
05 价值 取之不尽,用之不竭”的数据创新
>> 不同于物质性的东西,数据的价值不会随着它的使用而减少,而是可以不断地被处理。这就是经济学家所谓的“非竞争性”的好处:个人的使用不会妨碍其他人的使用,而且信息不会像其他物质产品一样随着使用而有所耗损。
>> 这意味着数据的全部价值远远大于其最初的使用价值,也意味着即使首次或之后的每次使用都只带来了少量的价值,但只要数据被多次使用过,企业仍然可以对数据加以有效利用。
>> 很多互联网和科技公司甚至直到最近才知道数据再利用具有多大的价值。要解锁这些数据价值,就必须通过新一代统计人员的不懈努力并借助新一代的方法和工具。
>> 最终,数据的价值是其所有可能用途的总和。这些似乎无限的潜在用途就像是选择,这里不是指金融工具意义上的选择,而是实际意义上的选择。这些选择的总和就是数据的价值,即数据的“潜在价值”。
>> 一个用来描述人们在网上留下的数字轨迹的艺术词汇出现了,这就是“数据废气”。它是用户在线交互的副产品,包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了什么信息等。
>> 数据废气是许多电脑化服务背后的机制,如语音识别、垃圾邮件过滤、翻译等。当用户指出语音识别程序误解了他们的意思时,他们实际上有效地“训练”了这个系统,让它变得更好
>> 数据价值的关键是看似无限的再利用,即它的潜在价值。收集信息固然至关重要,但还远远不够,因为大部分的数据价值在于它的使用,而不是占有本身。
06 角色定位 数据、技术与思维的三足鼎立
>> 根据所提供价值的不同来源,分别出现了三种大数据公司。这三种来源是指:数据本身、技能与思维。
>> 第三种类型是有着大数据思维的公司和个人。他们的优势在于,他们能先人一步发现机遇,尽管本身并不拥有数据也不具备专业技能。事实上,很可能正因为他们是外行人,不具备这些特点,他们的思维才能不受限制。他们思考的只有可能,而不考虑所谓的可行。
>> 行业专家和技术专家的光芒都会因为统计学家和数据分析家的出现而变暗,因为后者不受旧观念的影响,能够聆听数据发出的声音。
>> 竞争正如火如荼地进行。就像谷歌的检索系统需要用户数据才能完好运行,德国的汽车零件供应商需要反馈的数据来提高它的零件质量,所有的公司都能通过巧妙地挖掘数据价值而获得利益。数据能够优化生产和服务,甚至能催生新的行业。不过,就算有这么多好处,我们依然有担忧的理由。因为随着大数据能够越来越精确地预测世界的事情以及我们所处的位置,我们可能还没有准备好接受它对我们的隐私和决策过程带来的影响。我们的认知和制度都还不习惯这样一个数据充裕的时代,因为它们都建立在数据稀缺的基础之上
07 风险 让数据主宰一切的隐忧
>> 我们时刻都暴露在“第三只眼”之下:亚马逊监视着我们的购物习惯,谷歌监视着我们的网页浏览习惯,而微博似乎什么都知道,不仅窃听到了我们心中的“TA”,还有我们的社交关系网
>> 进行大数据分析的人可以轻松地看到大数据的价值潜力,这极大地刺激着他们进一步采集、存储、循环利用我们个人数据的野心。随着存储成本继续暴跌而分析工具越来越先进,采集和存储数据的数量和规模将爆发式地增长。如果说在互联网时代我们的隐私受到了威胁,那么大数据时代是否会加深这种威胁呢?这就是大数据的不利影响吗?答案是肯定的。大数据还会带来更多的威胁,毕竟,大数据的核心思想就是用规模剧增来改变现状
>> 更重要的是,大数据时代,很多数据在收集的时候并无意用作其他用途,而最终却产生了很多创新性的用途。
>> 想在大数据时代中用技术方法来保护隐私也是天方夜谭。如果所有人的信息本来都已经在数据库里,那么有意识地避免某些信息就是此地无银三百两。
>> 公司没有意识到匿名化对大数据的无效性。而出现这种无效性则是由两个因素引起的,一是我们收集到的数据越来越多,二是我们会结合越来越多不同来源的数据。
>> “我们相信上帝,除了上帝,其他任何人都必须用数据说话。”这是现代经理人的信仰,也回响在硅谷的办公室、工厂和市政厅的门廊里。
结语 正在发生的未来
>> 大数据并不是一个充斥着算法和机器的冰冷世界,人类的作用依然无法被完全替代。大数据为我们提供的不是最终答案,只是参考答案,帮助是暂时的,而更好的方法和答案还在不久的未来。
>> 大数据并不是一个充斥着运算法则和机器的冰冷世界,其中仍需要人类扮演重要角色。人类独有的弱点、错觉、错误都是十分必要的,因为这些特性的另一头牵着的是人类的创造力、直觉和天赋。偶尔也会带来屈辱或固执的同样混乱的大脑运作,也能带来成功,或在偶然间促成我们的伟大。这提示我们应该乐于接受类似的不准确,因为不准确正是我们之所以为人的特征之一。就好像我们学习处理混乱数据一样,因为这些数据服务的是更加广大的目标。毕竟混乱构成了世界的本质,也构成了人脑的本质,而无论是世界的混乱还是人脑的混乱,学会接受和应用它们才能得益。
>> 大数据是一种资源,也是一种工具。它告知信息但不解释信息。它指导人们去理解,但有时也会引起误解,这取决于是否被正确使用。大数据的力量是那么耀眼,我们必须避免被它的光芒诱惑,并善于发现它固有的瑕疵。
>> 我们能收集和处理的数据只是世界上极其微小的一部分。这些信息不过是现实的投影——柏拉图洞穴上的阴影罢了