今天在阅读赫拉利的新书《今日简史》。赫拉利想象力丰富,逻辑论证也还算严密,但其关于技术的高速发展这一论断,始终是作为前提给出的。换句话说他的大部分讨论都建立在“技术会保持爆炸式发展”这一前提上,而对于这一前提是否成立或者为何成立,并没有给出任何的论证。假设这一前提不成立,其大部分的论证和结论也就失去了基础。
那这一前提是正确的吗?
这确实是一个很难回答的问题。但可以确认的是,并不是所有的学科目前都像芯片/半导体,或者互联网这样呈现出指数型的增长。更确切地说,绝大多数的科学和技术领域都没有呈现指数型的增长。
这让我回忆起之前看过的一篇“雄文”:网友资水东流的《技术大停滞》。该文对于人类技术爆炸式发展的“错觉”和实际上停滞不前的现状做了独到的论证。
但这里先不讨论技术发展的实际情况如何。只讨论一下,赫拉利的假定(未来的技术发展会呈现整体高速、指数性增长)为什么有可能是成立的。
这个假定成立的关键要素之一,是大数据和算法对于科学和技术演进所带来的潜在的范式革命(我倾向于用“算法”而不是更时髦的“AI” - 后者在我看来其实是个意义模糊的大众概念,并没有明确的定义)。
我们先来看传统的科学和技术演进的过程:
(1) 实验和现象推动的阶段 -> (2) 基础理论的完善 -> (3) 理论的迅速推广和因此带来的高速的技术发
任何科学领域的初期都是对现象的研究。由于没有任何的理论存在,这种研究都是“盲人摸象”式的 - 即不断地在实验中发现研究对象的特点,找寻可能的描述和规律。这在电磁学领域就是赫兹、法拉第等人不断摸索的电磁现象,在原子物理领域则是汤姆森、卢瑟福等科学家不断进行的对于原子结构的探索性实验。这便是上述的 (1) 阶段。这一阶段一般比较漫长,即使产生理论也只是碎片化、经验性的规律总结。而当实验和现象,以及这些规律总结积累到了一定阶段之后,会产生量变到质变的转换 —— 这一质变体现在该科学领域基础理论的建立与完善,也就是上述的 (2) 阶段。在电磁学领域,这一标志无疑是麦克斯韦方程组;而在原子物理领域则是波尔、薛定谔、狄拉克、海森堡等人搭建的量子力学理论大厦。在基础理论较为完整地建立之后,才会带来真正的技术红利也就是 (3) 阶段。这里要说的是,在 (1)、(2) 阶段也会有技术产生,但无论是在技术的深度和广度上都无法和 (3) 阶段相提并论。这就好比说,原始的人类偶尔也会发现把两种物质混合在一起有可能产生完全不同的第三种物质,而懂得了现代化学的科学家则可以在实验室设计和合成各种各样的新分子。最后要说明的一点是,从 (1) 到 (3) 的演进过程并不是完全线性,而是会不断循环递进发展的。好比说传统的经典力学、热力学理论带来了工业时代的动力革命,而新发现的大尺度、高速环境下的力学现象带来了新的基础理论(相对论),转而带来了新的技术发展,如空间技术。
那么大数据和算法会对这一演进过程带来什么变化呢?简单来说就是:
(1) 积累数据 -> (2) 用算法做出预测并推动技术高速发展
这一过程如下:先针对研究的对象领域积累大量的数据,然后将这些数据交给“算法”进行处理,并根据技术应用的需求输出一定条件下的“预测”,从而完成对技术的实现。同时,数据积累的越多,算法输出的预测就越准确。从实际角度来说,算法完成的是和理论同样的功能:都是对尚未进行工作的准确预测。比方说你要生产一个产品,生产工艺中有10个参数,每个参数有3个可能的取值。通过对理论的应用,你可以知道每个参数会怎么影响最终产品,从而很快选择最优的参数;同样的,假设你有足够的数据和可靠的算法,你同样可以从中快速得到最有参数。若你两者都没有,那么你就要做大量的尝试 —— 3的10次方也就是59,049次尝试!因此理论和数据+算法本质上都是降低了尝试的周期和成本。
功能既然是一样的,数据+算法带来的演进过程相比传统的演进过程有什么优势吗?
要理解这一点,我们还需要说明这两种演进过程在根本逻辑上的区别。传统的科学技术发展遵从的是因果关系 (Causation),而在大数据和算法的世界里,因果关系不再是关键,重要的变成了相关关系 (Correlation)。我是A型血,我的老婆也是A型血,那么根据基因遗传理论我们生出的后代只可能是A型血或者O型血 - 这就是因果关系。而如果我们通过数据分析发现A型血的人比其它血型的人更加感性,这种关系则是相关关系而不是因果关系。因果关系显然确定性会更高,但也有致命的弱点,那就是过度依赖逻辑理性而无法处理高度复杂的问题。好比“拉普拉斯妖”:如果我知道了宇宙所有基本粒子的所有状态,那么我能够清晰地预测宇宙的过去,现在和未来。尽管从因果律的角度这个论断理论上没有问题,但若要实现也仅仅只存在理论上的可能。在实际的技术领域由于复杂度所带来的技术瓶颈的案例比比皆是。拿化学来说,从量子理论能够准确计算和描述的仅仅只限于数个原子组成的简单分子如水分子、二氧化碳等;稍微复杂一点的分子结构实际上都是无解的,更别说是高分子物质了。
而相关关系对于复杂问题则有独特的优势:我不需要费力地寻找因果关系并对其做分析;我唯一需要的就是搜集足够多的数据,然后将其交给算法就可以了。至于准确性,可以通过足够大的数据量和不断迭代(甚至是自我迭代)的算法来补足。唯一的问题是我无法从逻辑上确保以过往数据为基础的预测100%准确:即使我在一个池塘里发现了100只白天鹅,也无法100%保证第101只天鹅一定是白色。但对于绝大多数的技术发展来说,这都无伤大雅。
这一演进范式变化的真正意义在于:数据+算法第一次有可能让技术的提高不再受限于科学的发展。以往人类每次的进步都是科学突破在前,技术革命在后。而在未来这很有可能不再是必须的。AlphaGo战胜李世石并不是因为它掌握了什么突破性的围棋理论(事实上没有人能够科学地解释为什么AlphaGo能够取胜)。或者像赫拉利在书中反复描述的场景:AI给了我一个结论,而没有人知道这个结论是如何做出的。我自己最近也看到有不少大数据应用在材料科学领域的探索:材料学科本身是一门复杂度极高,理论指导能力相对有限的学科(这也是为什么材料学中指数型发展的例子并不多)。大数据和算法是否能够颠覆材料学这一类的学科值得关注。
(其实继续深入,还可以探讨一个哲学问题:因果关系和相关关系,究竟哪一个更接近于世界的本源?人性中我们似乎都有追求因果关系的根本需求 - 我们甚至会编造出六道轮回、上帝、宗教等等的概念来给我们无法理解的问题一个看似因果自洽的解释。包括一切科学的出发点都是:我们的世界存在线性的因果关系,然而,这一点并无法从理性上予以证明或证伪。也许我们的世界从根本上是“混沌”的,而所谓的因果关系,就像“休谟问题”所说的那样,仅仅是我们概念上的产物?如果这样,数据+算法会不会是更加接近真实的研究和思考范式?)
“传统”范式和“数据+算法”范式对于技术的发展孰优孰劣,本质上是两者的效率之争。后者更有效的一个重要前提是,数据的获取是快速且低成本的。而这一点往往是被忽视的一个前提。固然Google、Facebook、阿里巴巴让我们更容易地知道了几十亿人每天在关注什么,讨论什么,消费什么,但对于很多技术领域而言,数据的获取仍然存在巨大的代价。之前说了,“数据+算法”范式的预测准确性依靠的是极大的数据量,没有这一点做支撑,很难体现出这一范式的优势。还是以材料学为例,假设我们还是需要用传统的实验方法获得数据,我看不到太多大数据的优势,更不要说颠覆性的意义了。更不用说是在航天、核能这样的“重”领域了 - 我们不可能想象反复地发射火箭去积累火箭发射的“大数据”这种做法吧?
回到文章开头的问题。技术的持续高速发展,现在似乎越来越成了一项无需讨论的“共识”,而且国内外都是如此。但至今为止我还没有看到太多真正论证这一假设,从科学技术发展一般规律出发的有价值的讨论。请注意我并不是否认技术的持续高速发展,甚至我对数据+算法所带来的范式转换甚至范式革命充满了期待和希望。我失望的只是大家(包括了赫拉利这样有影响力的学者)对于这样重要且深刻的问题仅仅只是草率地将其认为是“不证自明”的假定。反过来说,这一假设不成立的代价也许是巨大的:我们大量的政治、政策资源可能用在了解决错误的问题上;而巨大的经济投入可能变成无法带来回报的泡沫。
《今日简史》在描述信息技术和生物技术的融合时提到,“这条路肯定是漫长而曲折的,但花个几十年总能走完”。其隐含的意思是,在现在这样的技术爆炸下,无论多么困难的技术领域,至多几十年也足够能搞定。但为什么是几十年,不是一百年,两百年?这不禁让我想到了另外一个关于可控核聚变的故事:这个概念上世纪70年代提出的时候,对实现它的时间预测是“50年”;可50年过去的今天,如果你问主流的科学家,得到的回答仍然是“50年”。“几十年”是个神奇的数字:它既不近得让我们感到急迫,更不必改变当下的生活;也不会遥远地让我们感到完全无关,而是保留了朦胧的期望和憧憬。也许正是那些隐匿在人格深处,当事人自己都意识不到的“看似自明实则可疑”的集体无意识,让我们做出了判断和选择。