今天,各个搜索引擎都有一个度量用户点击数据和搜索结果相关性的模型,通常被称为「点击模型」。随着数据量的积累,点击模型对搜索结果排名的预测越来越准确,它的重要性也越来越大。今天,它在搜索排序中至少占70%~80%的权重,也就是说搜索算法中其他所有的因素加起来都不如它重要。换句话说,在今天的搜索引擎中,因果关系已经没有数据的相关性重要了。
当然,点击模型的准确性取决于数据量的大小。对于常见的搜索,比如「虚拟现实」,积累足够多的用户点击数据并不需要太长的时间。但是,对于那些不太常见的搜索(通常也被称为长尾搜索),比如「毕加索早期作品介绍」,需要很长的时间才能收集到「足够多的数据」来训练模型。一个搜索引擎使用的时间越长,数据的积累就越充分,对于这些长尾搜索就做得越准确。微软的搜索引擎在很长的时间里做不过Google的主要原因并不在于算法本身,而是因为缺乏数据。同样的道理,在中国,搜狗等小规模的搜索引擎相对百度最大的劣势也在于数据量上。
当整个搜索行业都意识到点击数据的重要性后,这个市场上的竞争就从技术竞争变成了数据竞争。这时,各公司的商业策略和产品策略就都围绕着获取数据、建立相关性而开展了。后进入搜索市场的公司要想不坐以待毙,唯一的办法就是快速获得数据。
比如微软通过接手雅虎的搜索业务,将必应的搜索量从原来Google的10%左右陡然提升到Google的20%〜30%,点击模型估计得准确了许多,搜索质量迅速提高。但是即使做到这一点还是不够的,因此一些公司想出了更激进的办法,通过搜索条(Toolbar)、浏览器甚至输入法来收集用户的点击行为。这种办法的好处在于它不仅可以收集到用户使用该公司搜索引擎本身的点击数据,而且还能收集用户使用其他搜索引擎的数据,比如微软通过旧浏览器收集用户使用Google搜索时的点击情况。
这样一来,如果一家公司能够在浏览器市场占很大的份额,即使它的搜索量很小,也能收集大量的数据。有了这些数据,尤其是用户在更好的搜索引擎上的点击数据,一家搜索引擎公司可以快速改进长尾搜索的质量。当然,有人诟病必应的这种做法是「抄」Google的搜索结果,其实它并没有直接抄,而是用Google的数据改进自己的点击模型。这种事情在中国市场上也是一样,因此,搜索质量的竞争就成了浏览器或者其他客户端软件市场占有率的竞争。虽然在外人看来这些互联网公司竞争的是技术,但更准确地讲,它们是在数据层面竞争。
很多时候,落后与先进的差距,不是购买一些机器或者引进一些技术就能够弥补的,落后最可怕的地方是思维方式的落后。西方在近代走在了世界前列,很大程度上靠的是思维方式全面领先。
机械思维曾经是改变了人类工作方式的革命性的方法论,并且在工业革命和后来全球工业化的过程中起到了决定性的作用,今天它在很多地方依然能指导我们的行动。如果我们能够找到确定性(或者可预测性)和因果关系,这依然是最好的结果。但是,今天我们面临的复杂情况,已经不是机械时代用几个定律就能讲清楚的了,不确定性,或者说难以找到确定性,是今天社会的常态。在无法确定因果关系时,数据为我们提供了解决问题的新方法,数据中所包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到我们想知道的答案,这便是大数据思维的核心。
大数据思维和原有机械思维并非完全对立,它更多的是对后者的补充。在新的时代,一定需要新的方法论,也一定会产生新的方法论。
在有大数据之前,我们寻找一个规律常常是很困难的,经常要经历「假设——求证——再假设——再求证」这样一个漫长的过程,而在找到规律后,应用到个案上的成本可能也是很高的。但是,有了大数据之后,这一类问题就变得简单了。
比如通过对大量数据的统计直接找到正常用电模式和纳税模式,然后圈定那些用电模式异常的大麻种植者,或者有嫌疑的偷漏税者。由于这种方法采用的是机器学习,依靠的是机器智能,大大降低了人工成本,因此执行的成本非常低。在美国有大量类似的报道,在各种媒体上都可以看到。
在大数据出现之前,并非我们得不到信息直接的关联性,而是需要花费很长的时间才能收集到足够多的数据,然后再花费更长的时间来验证它,这也是过去大部分传统的企业对于细节数据的收集和处理不是很重视的原因,相比之下他们更看重经验和宏观数据。但是到了大数据时代,这些企业的观念也在慢慢转变。
亚马逊的优势在于它拥有顾客全面的信息。比如张三上周买了一台数码相机,之前他还购买了几个玩具,同一个地址的李四前两天买了婴儿用的浴液。那么可以联想到张三和李四是一家人,他们有个出生不久的婴儿,张三买数码相机或许是为了给孩子照相。他们或许会对在线冲印照片(并做成贺年卡),或者电子相框有兴趣。如果将他们的地址和美国个人住宅信息网站zillow.com联系起来,很容易了解到他们的住房价值,进而估计出他们的收入。这些条件是沃尔玛不具备的。亚马逊的第三个优势在于它的任何市场策略都能马上实现,比如它能够随时捆绑商品,并且随时调整价格进行促销;而美国所有的实体店,调整价格都需要在晚上关门之后进行,因此即使它们数据挖掘的速度和亚马逊一样快(当然这是不可能的),在市场上的反应也跟不上亚马逊这样的电商公司。
前面的几个例子无一不是先从大数据找到普遍规律,然后再应用于每一个具体的用户,并且影响到每一个具体的操作。以抓毒品种植和偷漏税为例,警察局或者税务局首先需要根据大数据了解用电或者纳税普遍的模式,然后要准确地估算出每一个地址正常的模式,这样就能够发现每一个异常的情况。
对于互联网公司的那些应用也如此,那些公司可以对每一个用户提供不同的服务,甚至做到每一次的服务都不相同。比如电商公司在用户浏览打印机或者电动牙刷时,如果发现他们在阅读产品介绍和评价,那么可能用户尚未完成购买,推荐相应的产品给用户是合理的;而当用户完成购买后,再搜索或浏览这些产品,推荐给用户打印机墨盒或电动牙刷头等耗材,就比推荐那些耐用产品本身更合理了。经常在亚马逊上购物的人对这一点会有体会,不仅不同的人看到的网页内容是不一样的,而且同一个人今天和昨天看到的内容也是不一样的,尤其是在完成一些购买行为之后。这种精细到每一次交易,甚至每一次内容展示的服务,在过去是想都不敢想的,但是靠大数据今天这已经变成了可能,而且它还代表着未来商业的趋势。
通过这件事我们也能进一步体会大数据完备性的特点。在过去,统计学家们一直试图寻找好的采样方法,以便在有限的样本中找到覆盖尽可能全的规律,但是在大数据时代,这些努力都不需要了,因此样本集可以等于全集。另外,我们还可以从这个案例中看到大数据时效性的特点。对于新的、过去没有见过的情况,Google的服务器反应是非常及时的,即在第二次就能把新鲜的数据提供给用户使用,这在大数据时代之前也是做不到的。
Google在数据上的优势,是大学和各个研究所并不具备的。即使是全球著名的汽车公司,包括丰田、大众和美国通用,也不具备如此多的数据。因此,它们虽然在自动驾驶汽车研制方面早起步几十年,但是很快就被Google超越。另外,计算机学习「经验」的速度远远比人快得多,这也是大数据多维度的优势,因此Google自动驾驶汽车的进步才能如此快。这并非说明Google的科研能力超过了过去那么多大学、研究所和公司的总和,反而是体现出大数据的威力,以及采用大数据思维的重要性。
让我们谈谈金风公司的故事。在和我进行了多次关于大数据时代商业模式的探讨后,该公司决定向IBM学习,在商业模式上做根本性的转变,主营业务从风力发电机的制造,转变成发电设备的运营和服务。当然,并非什么公司想做服务就能做得好并赚到钱,金风公司有底气转型,源于其在宏观上对全球风能市场的了解,在微观上对每一台风能发电机运营细节的了解,加上通过大数据对发电机可能出现的问题的分析,能够比一般工程公司更有效地维护发电机。至于发电机的生产,该公司只负责研制,然后将设备制造交给其他公司去做。这样一来,金风公司就在风力发电领域成功地复制了IBM服务的模式。大多数亚洲制造企业虽然在全球市场上占的份额不小,但是通常竞争的手段就是压低利润降价,最后把整个行业变得都没有利润。金风公司转型的做法,或许能给这些企业一些启发,当然如果没有大数据这样的机遇,这种转型是非常困难的。
与金风公司面临类似情况的还有诸多的电器生产厂商。这些电器无论是高端的还是低端的,厂家只能赚到一次钱,而且由于亚洲制造业同行相互压价,利润也不可能很高。为了解决利润的问题,一些对新技术敏感的公司想到了利用大数据和移动互联网来改变商业模式。