本书作者赛思-斯蒂芬斯-达维多维茨是《纽约时报》的专栏作者,沃顿商学院的客座讲师,前谷歌数据科学家。他在斯坦福大学获得哲学学士学位以及哈佛大学经济学博士学位。他用新的大数据源揭示了不为人知的行为和态度,这一研究发现登上了《公共经济学》杂志和其他著名刊物。
在开始这篇书评之前,想先请大家思考如下几个问题:
NBA(美国男子篮球职业联赛)中大多数球员来自贫困家庭,出身寒门吗?
在谷歌中搜索我的老公是不是出轨了和是不是同性恋哪个搜索量更大?
在美国,每年死于龙卷风人数多还是哮喘致死人数多?
抑郁(情绪)与什么因素关联性最大?
大家关于这几个问题的答案是什么呢?我可以先公布我在看这本书之前的所想到的答案。首先,本人是个篮球迷,所以我会认为大多数NBA球员都来在贫困家庭,毕竟读到过很多人靠着篮球逆天改命的故事。至于第二个问题,只是基于少数群体和众多群体猜的出轨的搜索量更大一些。第三个问题,毕竟龙卷风这种自然灾害毕竟不会每时每刻都在发生,而且一旦发生会在短时间造成大量损失,所以媒体会着重报道,去引导人们做出正确的行动,而哮喘放在整个大群体中则是经常发生的事情,且没有办法发生一个报道一个,除非大规模群体性事件发生,所以我会觉得哮喘致死人数多一些。最后一个问题,我会觉得抑郁可能会和过去或者现在正在经历的一些自己无能为力的事情或者情绪有关。
其实,我只有第三个问题的答案是对的。
在这本书中,作者通过做调查和分析数据发现来自中产阶级家庭的篮球运动员更容易进入NBA,在我老公是不是...这个词条后面“同性恋”这个词的搜索量最大,美国每年死于哮喘病的人数是死于台风灾害的人数的七十倍左右。冬季气候产生对抑郁的影响最为明显。其实,有很多知识面足够广的人可以正确回答这些问题。但是生活中,不可能有人拥有所有知识去解决生活中所有可能遇到的问题,也就是说我们或多或少都会用认知或者直觉去看待和解决问题。而开篇这些问题的结果再次证明了好的数据科学可以改变我们的世界观,也证明了数据和人类直觉有多么不一致。
当然,直觉不一定是错的,甚至共通性的直觉甚至可能会决定和解释基本道德的通性。但是人类对戏剧性事件的痴迷,会导致依靠直觉时,可能会被这种本性或者天性所误导。因为我们总会高估所有令人印象深刻的事物的作用。比如说,头悬梁锥刺股以及人定胜天等耳熟能详的正能量小故事。不可否认努力和意志力的重要性,而优秀的选择和科学的方法才应该是普遍的成事底层逻辑。
那么,好的数据科学可以成为所谓的“吐真剂”吗?首先,科学上确实没有完全绝对的事情。但是相对而言,好的数据科学的确可以算的上“吐真剂”。人们往往习惯于在镜头或者问卷前展示自己认为的自己的样子。食色性也,人最原始的本能,在这些事情上人们也都有各自的喜好和不为人说的小秘密。比如有些人会因为特殊原因不喜欢吃茄子,胡萝卜等食物,以及情色内容上希望对方扮演的角色等(具体例子请在原书中寻找)。虽然人们依然在人前掩藏自己的想法,而却隐瞒不过大数据。靠谱的科学数据则可以还原一部分人们真正想要的东西和真正在做的事情,从而提高研究的可靠性。
不仅仅和个人有关,失业率或者流感的发生等一些数据是很多行业中做决策的很重要的依据,但是出于职能,政府拿到数据后总是要有核实和平衡各种决策等行为,而这些会导致数据的延迟,尽管医生和医院尽早拿到流感数据将会有利于病情的控制。这似乎是个死结,但是通常人们会对症状或者相关事项进行搜索,而这些关键词则会成为新型数据,只要正确分析这些新数据,依然可以对某些事情进行提前预判。当然,数据安全以及隐私是个老生常谈的问题,在这里就不多讲。
当然,没有事情是万能的,数据科学也一样。大数据同样受到维度的诅咒的困扰。因为新的数据集经常会给研究者带来比传统数据源更多的变量,变量越多越大,样本外测试的难度就会越大。也就是说,只要你测试的足够多,总会有一个可以有重大统计学意义的关联,但是很难在样本外验证其真正关联性。同理,并不是所有事情用大数据测量都是有意义的,就像大脑奖励机制导致上瘾一样,数据科学的特点和功能也容易导致过度强调什么是可以测量的,最后偏离问题的本质。
最后引用作者的一句话“大数据的革新将会带来一场革命,但这并不意味着我们可以用数据解决一切问题。大数据无法消除千年来人类探索出来的认识这 个世界的所有方法,它们互为补足”。