《人人说谎》1:暴露于数据之下的真实你我。2:为什么非得是“大”数据

《人人说谎》1:暴露于数据之下的真实你我

《人人说谎：大数据、新数据以及关于真实的你我，互联网能告诉我们什么》（ Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are ），作者是赛斯·史蒂芬斯-大卫德威茨（Seth Stephens-Davidowitz）。

之前解读过麦兹伯格的《意会》，等于是刚说完大数据不行，还是得靠人，今天又反过来，说要想了解真实的人，还是得靠数据。

但是，看似矛盾并不一定矛盾，正如菲茨杰拉德说的：“检验一流智力的标准，就是看你能不能在头脑中同时存在两种相反的想法，还维持正常行事的能力。”大数据和“意会”这两种方法有不同的适用范围，就如同阴和阳，是互相补充的关系，并不像武侠小说里说的“气宗”和“剑宗”那样对立。这次谈谈“阳”。

《意会》讲，有很多东西是大数据看不到的，需要身临其境地去理解和体验。而赛斯这本书，说的是有很多东西是平时看不到，也打听不到的，只有通过大数据才能了解到 —— 关键就在于你得知道去哪里看。

1.别人不知道，Google 知道

什么东西非得靠大数据才能知道呢？比如说人的真实想法。一个人可能情绪低落甚至抑郁，但是在人前的表现还是阳光外向。一个人可能有强烈的种族歧视心理，但是他不会告诉做民意测验的人。一个人可能对感情生活很不满，但是连他的配偶都不知道。

但是 Google 可能知道。人们可能会偷偷地搜索一些东西，他的搜索关键词暴露了他的内心。所有这些搜索动作，包括关键词、时间、地点、乃至于是哪个人搜索的、前后有什么关联，Google 全都记录在案，而且数据会被保留多年。当然，Google 不会公布具体哪个人搜索了什么，但研究者不需要知道具体的个人，只要知道有这么一些人在做这样的搜索，就足以对“人”多出很多了解了。

一个被无性婚姻困扰的人，平时没有向任何人抱怨过，甚至面对问卷调查他还吹嘘了一番。可是夜深人静之时，他忍不住想要了解自己的无性婚姻到底正不正常，于是把问题输入了 Google 的搜索框。

如此说来，搜索引擎提供了一个可以窥探人们心里到底在想什么的窗口。

2.奥巴马能当上总统，就说明美国没有种族歧视了吗？或者说，美国的种族歧视已经不足以影响大选结果了吗？

学者不知道，Google 知道。

关注的搜索关键词，是“nigger” —— 这个词的意思是“黑鬼”，是对黑人非常严重的辱骂，有时候黑人之间互相开玩笑可以用，但你不是黑人千万不能用。当人们搜索“nigger”的时候，有20%的情况是想找个黑人笑话读，剩下的情况则几乎就是直接的恨意：“stupid niggers”、“I hate niggers”。

奥巴马第一次当选总统前夕，跟“Obama”这个词连在一起的搜索中，有1%，包含“nigger”这个词。在某些州，搜索“nigger president（黑鬼总统）”的人，比搜索“first black president（第一位黑人总统）”的人还要多。

这个比例似乎不大，但是落实到选票上，以全国总数而论，奥巴马至少因为种族歧视少拿了4个百分点的选票。

奥巴马当选总统，不是因为美国没有种族歧视，也不是因为种族歧视对选举的影响很小，而是因为奥巴马和民主党在其他方面的优势实在太大！

而且 Google 数据还能告诉我们一些更深入的事实。

3.哪里的人最有心机

关于种族歧视，传统上有两个刻板印象。一个是总觉得民主党的人思想进步，比较少有种族歧视；共和党的人思想保守，更有种族歧视。另一个是北方经济发达，人比较开明，不搞种族歧视；而南方经济落后，人比较闭塞，种族歧视比较严重 —— 这当然是南北战争给人留下的印象。

可是从 Google 数据判断，这两个印象都是错的。真正能划分种族歧视的，不是政党也不是南北，而是东西 —— 美国东部的几个州，有更多人有种族歧视思想，而西部尤其是加州一带，人们的确没有什么歧视思想。

所以有这么一帮人，他们是民主党人，住在发达的东部，经济条件和受教育程度都不错，代表先进文化和先进生产力，平时隐藏的很深 —— 但是他们内心深处是个种族主义者，一到选举的关键时刻就会偷偷投出带有歧视的一票。

这一票有时候就能左右大局。比如这次特朗普当选总统，简直是美国数据预测界的一大耻辱，正是因为种族歧视者在关键时刻表里不一，表面上说要投给希拉里，但实际上却投票给了特朗普。

这些人都住在哪呢？也就是美国东部那几个搜索“nigger”这个词频率很高的州。

现在没有任何迹象表明 Google 有这样的能力 —— 不但不能左右选情，而且也没有能力精确预测大选结果。

一些能一定程度上帮助预测的办法。

比如说今天晚上有一场总统竞选辩论，特朗普对希拉里。你想知道辩论是在几点进行、哪个台直播，于是你上网搜索。你可能会搜索“特朗普希拉里辩论”，也可能会搜索“希拉里特朗普辩论”，对吧？把这一次搜索关键词，和同一个人其他时候搜索的关键词联系起来，就发现一个大体有效的规律：你支持谁，就会把谁的名字放前面。

把像这样的蛛丝马迹都利用起来，发现了一些非常有意思的事实。

美国学术圈流传一个说法。如果去加州的那些大学作报告，比如说去伯克利，听报告的人问你什么问题，肯定都是真诚的提问，他们是不懂才问。但如果去东部的那些传统名校作报告，比如说去普林斯顿，那有时候听众问你的问题是他本来就知道答案的 —— 他不但不想暴露无知，还想要证明自己厉害。

所以美国东部人民的心机重，学术界还是有共识的啊 —— 只不过一直没有他们种族歧视的证据。

好在人们问 Google 的问题，都是真诚的提问。

《人人说谎》2:为什么非得是“大”数据

“大数据”这个词现在用得有点泛滥了，简直是浮夸。媒体是不管什么东西都要跟大数据扯在一起，研究者也特别爱吹嘘自己的数据量有多“大” 。

有很多基于统计的判断决策，使用简单的几个指标就能做得很好，再上更多的数据也不能让判断更准确。

举个例子。一个烧红的炉子，只要触碰一下就知道这东西危险不能碰；可是要想知道喝咖啡能不能导致头痛，大概要喝上几千杯才能看出效果来。

明显的效应只要小数据就够了，不明显的效应才需要大数据。

那难道说，必须用大数据才能得出的结论，都是不重要的结论吗？也不是。

大数据的三个关键用处。

1.从罕见的案例中发现规律

胰腺癌并不是一个特别常见的癌症，但是非常危险，确诊之后五年的存活率只有3%。如果能提前发现胰腺癌的迹象，尽早干预，就非常关键。那么当一个人身上出现了哪些症状，他就应该赶紧去医院检查一下，看看自己是不是得了胰腺癌呢？

研究方法是先锁定那些在网上搜索诸如“我被诊断出胰腺癌，我该怎么办”之类的人 —— 这些人十有八九就是真的得了胰腺癌。然后再看这些人几周、或者几个月之前，是否搜索过其他跟健康有关的症状。再把这些症状跟没有得胰腺癌的人平时搜索的健康问题对比，发现那些属于胰腺癌患者的独特症状，那就可能是胰腺癌的前兆。

研究者发现两组独特症状。第一组是背痛加皮肤变黄，第二组是消化不良伴随腹痛。单纯的背痛或者单纯的消化不良，并不表示得了胰腺癌，但是如果有皮肤变黄和腹痛的伴随症状，那就很可能是胰腺癌。

没有这些症状也可能得胰腺癌。但使用这些症状，可以提前锁定5%到15%的胰腺癌患者，这个比例不高，但也等于是多救了很多人。

而最关键的在于，这些前兆症状完全是由大数据发现的！一般人身边并没有很多得了胰腺癌的人。就算是胰腺癌患者，也不太可能记得自己几个月之前有过什么特别的症状。只靠人观察，很难注意到这些症状和胰腺癌的联系。但是大数据做到了。研究者可以像大海捞针一般，从大数据中发现这些关键信息。

2.量化一个效应的大小

好天气能让人心情愉快，而阴雨绵绵或者是寒冷的天气，则让人心情也糟糕。美国有些地方，像芝加哥的天气就常常是阴冷的；而有些地方，像加州和夏威夷，就常常是阳光灿烂。

现在有个问题：一个住在芝加哥的抑郁症患者，为了治疗抑郁症，获得好心情，他是不是应该搬家到夏威夷去呢？

问题的关键就在于*知道*搬到夏威夷会缓解抑郁症，但是*不知道*这个缓解的程度是大是小。需要一个量化的评估。

Google 的搜索数据可以帮助你。研究显示，住在夏威夷的人，搜索“抑郁症”的比率，比像芝加哥这样的寒冷地区低了40%。这个效果有多好呢？要知道，哪怕最好的抗抑郁药物，也只能让抑郁症的发病率减少20%。

如果你一到冬天就抑郁，最好的办法不是吃药，而是搬到夏威夷去。大数据告诉我们，搬家的效果，大约是吃药的两倍。

3.发现反直觉的结论

假设现在有两个潜在的结婚对象。第一个人跟你有很多共同的朋友，第二个人则是一个圈外人，你不熟悉他/她的朋友，他/她也不熟悉你的朋友。那么请问，如果想要的是长期的关系，应该跟谁结婚呢？

直觉来说，也许应该选第一个人。这个人跟你的朋友们相处融洽，那就说明你们有很多共同点，想必结婚之后你们两个也会相处得很好。对吧？

不对。我们在 Facebook 上的交友状况，和单身/已婚/有男女朋友的状况都是公开的，研究者就用 Facebook 的数据做了一个分析。他们锁定那些是夫妻或者男女朋友关系的人，看看他们的朋友圈有多少重合之处。结果发现，朋友圈重合度越高的夫妻或者男女朋友，越有可能在一定时间之后宣布再次单身。最持久的关系，往往是双方各自有不同的朋友圈。

那这到底是为什么呢？大数据不能告诉原因 —— 这是一个“反直觉”的结论。也许你身边有一对夫妇，感情良好，他们有很多共同的朋友，那你就应该知道，这只是特例。人很容易被身边的特例影响判断，而大数据不会犯这样的错误。

一个比较反直觉的发现。很多 NBA 球星是出生于贫困家庭，有很多还是来自单亲家庭，到底是单亲贫困家庭容易出球星呢，还是双亲中产家庭容易出球星？

这个问题非常不好回答。也许单亲家庭的孩子从小自立，拼搏能力更强；也许单亲家庭的孩子从小缺乏管教。真正的麻烦在于，根本就不存在每个 NBA 球员小时候的家庭状况数据。塞斯考察了每个球员都是在哪里出生的，然后看看这些出生地的贫富程度如何。尽可能地追溯每个球员的家族历史，甚至还通过球员的名字判断他是不是来自单亲家庭。原来还有一个规律，单亲妈妈总爱给孩子起一个比较怪的名字，而双亲家庭给孩子起的名就比较正常。

赛斯。作为一个数据科学家，不仅仅是用什么数学工具从现有的数据里发掘事实，还能主动寻找各种相关的数据，知道去哪找，而且还真找到了。把几个数据库连在一起，才算是发现了答案。

答案是来自父母双全的中产家庭的球员更容易取得好成绩。两个主要原因。第一是这样家庭的孩子从小营养好，所以长得更高。第二是这样的孩子社交能力更强。这两个素质对打篮球来说太重要了。身高的优势就不用说了。关于第二点，有些 NBA 球星从小养成的思维模式就不行，有点钱就忘乎所以，实在不利于事业成功。

所以，大数据确实能告诉一些本来不知道的东西。

我读这本书之前，最担心的问题是使用网上搜索数据获得的结论可能是有偏见的。

首先现在互联网已经非常普及，可能大部分人都已经学会了上网。其次，大部分人在网上搜索的东西是和他自身状况相关的，像纯粹出于好奇心去搜索的人应该很少。

更重要的是，研究者并没有把“搜索”的人和“不搜索”的人比较。他们是拿搜索结果和搜索结果比较。比如说，研究者并没有把在网上搜索“无性婚姻”的人所占的比例，就当成美国无性婚姻的比例 —— 他们是把搜索“无性婚姻”跟搜索“不幸婚姻”、“无爱婚姻”的人作比较，说明“无性婚姻”比“不幸婚姻”和“无爱婚姻”的问题都严重，这就的确比较有说服力。

该考虑到的问题，大数据的研究者们可能也都已经考虑到了，在一定程度上可以相信他们的结论。当然一切研究方法都是有漏洞的，任何结论都只能作为参考。

丨由此得到

你察觉不到的规律

，大数据能察觉到；你察觉到了的效应，大数据能评估这个效应的大小。更重要的是，大数据能得出一些跟我们的直觉相反，但却是更可信的结论。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 212,294评论 6赞 493
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,493评论 3赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 157,790评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,595评论 1赞 284
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,718评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,906评论 1赞 290
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,053评论 3赞 410
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,797评论 0赞 268
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,250评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,570评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,711评论 1赞 341
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,388评论 4赞 332
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,018评论 3赞 316
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,796评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,023评论 1赞 266
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,461评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,595评论 2赞 350

《人人说谎》1:暴露于数据之下的真实你我。2:为什么非得是“大”数据

推荐阅读更多精彩内容