暴露于数据之下的真实你我

从今天开始,咱们分几次说一本5月9号刚刚出版的新书,《人人说谎:大数据、新数据以及关于真实的你我,互联网能告诉我们什么》(Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are),作者是赛斯·史蒂芬斯-大卫德威茨(Seth Stephens-Davidowitz)。

这位作者的姓实在太长,咱们以后就直接叫他的名字。赛斯的简历很有意思,本科是在斯坦福大学学的哲学,博士是哈佛学的经济学,他之前在Google做数据科学家,现在在沃顿商学院当老师。这样的经历你很难在中国复制,我们的文科教育不太可能培养出来数据科学家 —— 而赛斯这个跨学科的经历,对他在这本书里说的事情却是十分重要的。

我估计你以听到书名就笑了,因为前一阵我们刚刚解读过麦兹伯格的《意会》,等于是我们刚说完大数据不行,还是得靠人,今天又反过来,说要想了解真实的人,还是得靠数据。

但是你当然明白,看似矛盾并不一定矛盾,正如菲茨杰拉德说的:“检验一流智力的标准,就是看你能不能在头脑中同时存在两种相反的想法,还维持正常行事的能力。”大数据和“意会”这两种方法有不同的适用范围,就如同阴和阳,是互相补充的关系,并不像武侠小说里说的“气宗”和“剑宗”那样对立。上次我们说了“阴”,这次我们谈谈“阳”。

《意会》那本书告诉我们,有很多东西是大数据看不到的,需要我们身临其境地去理解和体验。而赛斯这本书,说的是有很多东西是我们平时看不到,也打听不到的,只有通过大数据才能了解到 —— 关键就在于你得知道去哪里看。

1.别人不知道,Google 知道

什么东西非得靠大数据才能知道呢?比如说人的真实想法。一个人可能情绪低落甚至抑郁,但是在人前的表现还是阳光外向。一个人可能有强烈的种族歧视心理,但是他不会告诉做民意测验的人。一个人可能对感情生活很不满,但是连他的配偶都不知道。

但是 Google 可能知道。人们可能会偷偷地搜索一些东西,他的搜索关键词暴露了他的内心。所有这些搜索动作,包括关键词、时间、地点、乃至于是哪个人搜索的、前后有什么关联,Google 全都记录在案,而且数据会被保留多年。当然,Google 不会公布具体哪个人搜索了什么,但研究者不需要知道具体的个人,他只要知道有这么一些人在做这样的搜索,就足以对“人”多出很多了解了。

咱们干脆说一个少儿不宜的例子。比如你要做一个调查,你想知道美国人民的性生活频率是怎么样的。那么哪怕你这个调查是完全匿名的,我们也可以想象,人们面对这个问题一定会吹嘘一下。根据一项非常权威的调查显示,仅限于异性恋,美国女性平均每年性生活次数是55次,其中16%的情况下使用了避孕套 —— 那么按照这个数据计算,美国每年应该用掉11亿个避孕套。而如果调查对象是男性,那么数据就更大一点,是美国每年会用掉16亿个避孕套。

这就显然有问题了 —— 避孕套一对男女共用一个,那两个数据应该是相同的才对,为什么会有这么大的差别呢?看来是有人在吹牛。

事实上,你再去看真实的避孕套销量,实际美国每年卖出去的避孕套还不到6亿个。所以吹牛的成分还很严重。把六十五岁以下的已婚男性告诉调查者的数据平均起来,是每人每周都有一次性生活,而实际肯定没有这么多。

赛斯使用 Google 搜索的数据,发现了更深入的真相。根据 Google 的记录,“无性婚姻”这个关键词组合的搜索次数比“不幸婚姻”高3.5倍,比“无爱婚姻”要高8倍。人们对婚姻最大的抱怨就是无性婚姻!所以无性婚姻是比人们想象中大得多的问题,只不过在公开场合调查中,人们不愿意说实话而已。

一个被无性婚姻困扰的人,平时没有向任何人抱怨过,甚至面对问卷调查他还吹嘘了一番。可是夜深人静之时,他忍不住想要了解自己的无性婚姻到底正不正常,于是把问题输入了 Google 的搜索框。

如此说来,搜索引擎提供了一个可以窥探人们心里到底在想什么的窗口。

这本书的序言是大名鼎鼎的实验心理学家和认知科学家史迪芬·平克写的。平克非常羡慕赛斯有这样的研究工具。传统上心理学家想要想知道人们想什么只能依赖问卷调查,现在更高级的方法是用功能性核磁共振扫描大脑,但是人们在问卷调查里可以撒谎,扫描大脑扫不出什么细节。而在这个几乎人人上网的时代,人们向 Google 吐露了心声。

赛斯有了这个工具,就发现了一系列有意思的事实。今天咱们先说一个:种族歧视。

2.奥巴马能当上总统,就说明美国没有种族歧视了吗?

2008年奥巴马当选总统的投票前夜,民调显示他有很大的领先优势。当时美国学者担心,也许选民会说一套做一套,跟民调的人说支持奥巴马,但是内心还是种族歧视,投票的时候不会投给他。结果是奥巴马高票当选,学者都松了一口气。2012年奥巴马又轻松连任,这时候绝大多数学者就认为,今天的美国已经没有什么种族歧视了。

美国真的没有种族歧视了吗?或者说,美国的种族歧视已经不足以影响大选结果了吗?学者不知道,Google 知道。

赛斯关注的搜索关键词,是“nigger” —— 这个词的意思是“黑鬼”,是对黑人非常严重的辱骂,有时候黑人之间互相开玩笑可以用,但你不是黑人千万不能用。当人们搜索“nigger”的时候,有20%的情况是想找个黑人笑话读,剩下的情况则几乎就是直接的恨意:“stupid niggers”、“I hate niggers”。

赛斯发现,奥巴马第一次当选总统前夕,跟“Obama”这个词连在一起的搜索中,有1%,包含“nigger”这个词。在某些州,搜索“nigger president(黑鬼总统)”的人,比搜索“first black president(第一位黑人总统)”的人还要多。

这个比例似乎不大,但是落实到选票上,赛斯估计,以全国总数而论,奥巴马至少因为种族歧视少拿了4个百分点的选票。

奥巴马当选总统,不是因为美国没有种族歧视,也不是因为种族歧视对选举的影响很小,而是因为奥巴马和民主党在其他方面的优势实在太大!

而且 Google 数据还能告诉我们一些更深入的事实。

3.哪里的人最有心机

关于种族歧视,传统上我们有两个刻板印象。一个是我们总觉得民主党的人思想进步,比较少有种族歧视;共和党的人思想保守,更有种族歧视。另一个是北方经济发达,人比较开明,不搞种族歧视;而南方经济落后,人比较闭塞,种族歧视比较严重 —— 这当然是南北战争给人留下的印象。

可是赛斯从 Google 数据判断,这两个印象都是错的。真正能划分种族歧视的,不是政党也不是南北,而是东西 —— 美国东部的几个州,有更多人有种族歧视思想,而西部尤其是加州一带,人们的确没有什么歧视思想。

所以有这么一帮人,他们是民主党人,住在发达的东部,经济条件和受教育程度都不错,代表先进文化和先进生产力,平时隐藏的很深 —— 但是他们内心深处是个种族主义者,一到选举的关键时刻就会偷偷投出带有歧视的一票。

这一票有时候就能左右大局。比如这次特朗普当选总统,简直是美国数据预测界的一大耻辱,所有民调、包括大神级的人物 Nate Silver (《信号与噪声》一书的作者)事先都没预测到。那事先的预测和最后的结果到底差在哪呢?Nate Silver 后来做了大量的分析,发现正是因为种族歧视者在关键时刻表里不一,表面上说要投给希拉里,但实际上却投票给了特朗普。

这些人都住在哪呢?正好和赛斯发现的结果一致,也就是美国东部那几个搜索“nigger”这个词频率很高的州。

我们看电视剧《纸牌屋》里有个情节,说互联网公司可以左右选情。现在没有任何迹象表明 Google 有这样的能力 —— 不但不能左右选情,而且也没有能力精确预测大选结果。不过赛斯的确发现一些能一定程度上帮助预测的办法。

比如说今天晚上有一场总统竞选辩论,特朗普对希拉里。你想知道辩论是在几点进行、哪个台直播,于是你上网搜索。你可能会搜索“特朗普希拉里辩论”,也可能会搜索“希拉里特朗普辩论”,对吧?赛斯把这一次搜索关键词,和同一个人其他时候搜索的关键词联系起来,就发现一个大体有效的规律:你支持谁,就会把谁的名字放前面。

把像这样的蛛丝马迹都利用起来,赛斯就发现了一些非常有意思的事实。

***

美国学术圈流传一个说法。说你如果去加州的那些大学作报告,比如说去伯克利,听报告的人问你什么问题,肯定都是真诚的提问,他们是不懂才问。但如果你去东部的那些传统名校作报告,比如说去普林斯顿,那有时候听众问你的问题是他本来就知道答案的 —— 他不但不想暴露无知,还想要证明自己厉害。

所以美国东部人民的心机重,学术界还是有共识的啊 —— 只不过一直没有他们种族歧视的证据。

好在人们问 Google 的问题,都是真诚的提问。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容

  • 第一次看到简书是读别人的文章,还有这么好用的App,自己真是后知后觉,说起来也不嫌大家笑话,最早时喜欢写作,...
    也孤独也灿烂阅读 180评论 0 0
  • haiyan 硬角色和软角色 引导孩子爱的孩子的五种能力,第一,是情绪管理能力,尤其要是在孩子三岁之后这个能力,必...
    七妈_haiyan阅读 719评论 0 49
  • 多想一步不单单是想好下一步会发生的事,做出的应对方式。还有是多想一步什么事情可以串联什么可以并联起来。 做一份工作...
    fung_阅读 203评论 0 0
  • 'is'是判定是否是同一个对象'=='判定值是否相等
    gogoforit阅读 133评论 0 0