有时候对照着看一些故事,会挺有趣。
这本书中讲了一个Google预测流感的故事。传统的疫情预报,是由各地医院、诊所等机构和医务人员向美国疾病控制和预防中心上报,再由中心分析统计后发布。这种做法的最大问题在于,滞后性太大。
Google在2009年2月,在《自然》上发表了研究成果,他们研究了2007年到2008年,各地区搜索量和流行病传播之间的关系。依据用户搜索与流感相关的关键词的趋势变化,预测流感流行到什么地方了。工程师们挑选了几十种重要和次要的关键词作为特征,训练出了一个线性回归模型。这个模型在预测2007年和2008年流感趋势和地点的时候,准确率高达97%。
故事背后所用的技术,与作者吴军老师还有点关系。因为这项技术的发明人帕特尔,是吴军老师进入Google的面试官,并且当年面试时的一个问题就与此有关。
这个故事听起来非常振奋人心,然而这个预测是否真的很准呢?
另外一本书告诉我们别的故事。虽然2008年一次预测准了,甚至比美国疾病控制与防治中心提早了两周,但2009年全球爆发的H1N1,Google事先完全没有预测到,此外从2012年到2013年预测的很多流感也没有爆发。
有人分析其中的原因得出,搜索流感和真得流感,其实是两码事情,而不了解用户搜索的动机,就很难预测准确。