作者在本节继续讲解复杂系统产生的第四大原因~稀有事物,就像一个稀有到只出现过一次的单词,一句不符合语法的俚语,都会给机器翻译系统带来麻烦一样,稀有事物在其他各个系统也会造成不得不弥补的复杂情况。
请问你以前用过snowcrie这个单词吗?我想你应该没有用过。事实上,snowcrie这个词是无意义的。据我所知,它可能是一个错词。根据《牛津英语词典》的解释,snowcrie这个词曾经出现在1402年的一首诗中“Not in Goddis gospel, but in Sathanas pistile, wher of sorowe and of snowcrie noon is to seken.”。有学者认为它应该是一个错词,正确的那个词可能是sorcerie,意为巫师。(这种极少数情况,不查字典,谁能知道呢?)
不管有没有意义,snowcrie这个词就是所谓的罕用语,或者说“只用过一次的词”。这个词在《牛津英语词典》的语料库中只出现过一次。语料库是大量的、通常是完整文本的合集,例如某种语言的全部文本,或某个时期的所有文本。《牛津英语词典》的语料库即是编写者可以使用的所有英语文本。不过,语料库的文本体量并不一定非常大。在莎士比亚文集这个语料库,也就是莎士比亚的全部著作中,经常会碰到一些罕用语,比如honorificabilitudinitatibus,含义可能就是“荣誉”(of honor)。(古英语,太少人知道,也就文学家会理解)
当一个语料库拥有某种语言的全部,或近乎全部的文本时,罕用语就会变得让人头疼,比如《希伯来圣经》中的希伯来语,人们对它们的意义知之甚少。但是,罕用语并不是离奇的统计错误。它们不仅比想象中更加普遍,而且与语言学中特定的数学规则有关。语言中不同词汇的使用频率可以用幂律(power law)中的长尾分布来进行描述。[52]长尾分布与用来描述人类身高的钟形曲线(bell curve),即正态分布,有所不同。在长尾分布中,有一些值会延伸到更加深远的区域,以便容纳普通词汇,比如the,或一些极其罕见的词汇,比如flother。
一般来说,语料库中有近一半的单词都只出现过一次,也就是说,有一半的单词都属于罕用语。这些词就是长尾中“长”的部分。因此,虽然你遇到某个特定罕用语的概率很低,但是你遇到这类词的概率却相当高。在这里,我们不妨用看电影来做下类比。相信并没有太多人看过那部大名鼎鼎的经典电影《天生爱神》,但是看过至少一部经典科幻电影的人却大有人在。(确实如此)
因此,作为一个整体类别,罕用语是非常重要的。它们深深地渗透在我们的语言之中。当我们试图编写一个计算机程序来模拟语言时,可能会将罕用语,或罕见的语法结构抽象为异常值。但是,作为一个类别,而非一个单词,罕用语在语言中所占的比例其实是相当大的。将它们抽象化会导致模型的严重缺失,从而使程序变得不完整。为了避免“遗漏”,我们需要建构出可以处理例外情况和边界情况的复杂模型。在这个问题上,谷歌公司研发主管彼得·诺维格(Peter Norvig)的话可谓一语中的:“形成一种语言的,并不是那种可以用几个参数来代表的永恒的理想模型,而是复杂过程中的偶然结果。”(语言确实是无数偶然的结果,刚开始没有固定模型)
因此,计算机语言学家应该考虑边界情况,并尝试着针对这个复杂系统构建一个稳健的、丰富的技术模型。在这里,复杂系统指的就是语言。那么,他们最终会得到什么呢?毫无疑问,他们将会得到一个复杂的技术系统。
和语言有关的计算机模型必定具有复杂性。要说明这一点,只需举一个例子就够了:计算机是如何将一种语言翻译成另一种语言的。关于计算机的翻译功能,有一个流传已久但未经证实的故事。在冷战期间,科学家们就已开始研究英俄语互译的运算方法了。在测试计算机的翻译程序时,他们选择了一个含义相当微妙的句子“The spirit is willing, but the flesh is weak.”(灵固有所愿,肉却软弱不堪)。他们通过计算机将这句话翻译成俄语,然后再次翻译成英语,最终得到的是“The whiskey is strong, but the meat is terrible.”(威士忌很有劲,但是肉却很难吃)。(哈哈哈哈,这种机械翻译肯定不行的呀)
显然,通过运算来实现机器翻译功能并非易事。谷歌翻译虽然有趣,但结果却可能不够准确。不过,专家在这方面已经取得了很大的进步。
那么,机器翻译专家使用的是哪些技术呢?早期的一种方法是利用语言的结构化语法,进行模型搭建。计算机语言学家将每种语言的属性硬编码为软件,然后让计算机根据语法规则进行翻译。这种方法可以处理相对简单的句子,但无法应对日常语言的多样性。例如,一个用来处理“直接不定式”的规则,不一定能够处理“分离不定式”,即无法处理“To boldly go where no one has gone before.”(勇敢地进入前人未曾涉足之地)这样的句子。另外,不定式的用法还具有一定的地域性,比如,匹兹堡人很喜欢省略掉to be,直接说“The car needs washed.”(这车该洗了)。很显然,面对这种形式灵活的“方言”,语法规则将束手无策。(就是因为有稀有情况的存在,固定式编码也行不通)
事实上,依赖上述语法模型的机器翻译程序是不可能给出准确结果的。语法规则看上去既优雅又简洁,但无法应对文本翻译过程中所需处理的,复杂且古怪的语言现象。简而言之,边界情况实在太多了。为了填补这道鸿沟,机器翻译专家引入了机器学习领域的多种统计方法,他们让计算机先摄取大量已经翻译好的文本,然后基于一组算法翻译新文本。这样一来,计算机就不用理解句子的含义,也不必解析句子的语法结构了。举例来说,对于复数问题,我们不再需要创建复数的语法规则,规定将后缀“-s”加在单词末尾,就能够使之变成复数形式;我们只需让机器知道,“-s”这个后缀在99.9%的情况下意味着创建了一个复数形式的单词,而在剩余0.1%的情况下并非如此。例如sheep和deer,它们的单复数形式相同;此外,还有一些单词的复数形式是不规则的,如men、feet和kine。对于语言系统中的其他例外情况,也都可以采用这种运算方法。(人工智能训练确实可以,这个翻译准确度高很多)
尽管摆脱混沌就能迎来秩序,但这不可能没有代价。最终得到的最有效的翻译程序肯定不是一个简单的模型,而会是一个拥有大量参数的庞大的计算机系统,若非如此,便无从处理数之不尽的边界情况和语言“异象”。正如谷歌翻译开发团队的成员所说,这类“基于数百万具体特征的模型,要比那些关注一般规则的精巧模型表现得更好”。(谷歌的数据足够多,训练多, 翻译也准一些)我们必须要对例外情况加以珍惜,绝不能随手丢弃。要知道,无论是例外情况,还是罕见情况,都包含了大量的信息。
这种机器学习技术利用的是概率和大量参数,而非原则性的规则。这种尖端技术正越来越多地被应用于科学领域和其他诸多领域,从犯罪侦测到医学诊断,再到保险推销,等等。事实上,我们的审美品位也相当复杂。奈飞公司在向一个团队颁发“推荐引擎改进奖”时发现,该团队的解决方案是由各种统计技术拼凑而成的。这场比赛似乎表明,没有哪个简单的算法能够显著提高推荐的准确性;无论谁是获奖者,都需要使用更复杂的方法来捕捉和预测人们对电影的个性化需求和“怪异”品位。(大数据算法,惊人的准确,机器比你自己还了解你,哈哈哈)
这种现象其实在所有类型的技术当中皆有呈现。计算机科学家小弗雷德里克·布鲁克斯明确指出:“软件的复杂性是软件的根本属性,而不是偶然属性。”
法学教授戴维·波斯特(David Post)和生物学家迈克尔·艾森(Michael Eisen)也携手研究了这个问题。虽然他们无法证明,任何一个法律陈述都能被进一步细分,毕竟这是一个“乌龟背上的世界”式的命题,但是他们指出:“我们确实从来没有遇到过无法分解为子问题的法律问题。”波斯特和艾森还通过模型证明,某些类型的法律分支结构实际上具有分形结构的特性。在现实中,他们对诉讼案件中的法官意见进行了分析,并在引用的法律条文中也发现了指向分形结构的特征,从而验证了模型的结论。由此看来,法律体系的分形复杂性很可能不只是一个令人回味的隐喻。
正如法律学者马克·弗勒德(Mark Flood)和奥利弗·古迪纳夫(Oliver Goodenough)所指出的那样:“好合同和好律师的价值,在很大程度上基于这样一种看似烦琐的规划:对于随时可能因出轨而覆灭的婚姻关系,要如何对一切可能的出轨方式未雨绸缪。”换言之,法律体系的复杂性通常源于例外情况及其引发的“并发症”。(欧美判例原则,辩方律师有时候就是靠这种例外情况帮委托人做无罪辩护)
我们所观察的技术系统,无论是法律、软件、设备,还是科学模型,都会在例外情况和边界情况的驱动下,在吸积和交互的双重助力下,变得越来越复杂,越来越混乱。(反正这个世界不是线性的,也不是正态分布,随机复杂才是常态)