我们必须要问:提出巧妙数学思想的人是谁?为什么是他提出了这个思想?其思维方法有什么特点?
成为一个领域的大师有其偶然性,但更有其必然性。其必然性就是大师们的思维方法。
从事科学研究,最重要的是掌握思维方法。
数学一词来源于希腊语,意思是通过学习获得知识的意思。和任何事物一样,数学不断演化,演化的过程就是我们将生活中遇到的具体物质以及他们运动的规则不断抽象化的过程。
经过几千年的抽象化,人们头脑中能想象的数学只剩下数字、符号、公式和定理了。这些东西和我们的生活似乎渐渐疏远,甚至在表面上毫不相干了。事实上,数学在我们生活中无处不在。
数学和文字、自然语言一样,都是信息的载体,它们之间原本有着天然的联系。语言和数学的产生都是为了同一个目的——记录和传播信息。但是把数学和信息系统联系在一起是半个多世纪前香农博士发明信息论以后的事。
文字是信息的载体,而非信息本身。不用文字,其他载体,比如数字,也可以存储同样意义的信息。这也是现代通信的基础。
文字的出现是为了人与人之间的通信,字母、笔画、文字和数字都是信息编码的不同单位。任何一种语言都是一种编码方式,而语言的语法规则编解码的算法。我们把一个要表达的意思,通过某种语言的一句话表达出来,就是用这种语言的编码方式对头脑中的信息做了一次编码,编码的结果就是一串文字。对方如果懂的这门语言,他就可以用这门语言的解码方式获得说话人要表达的意思。这就是语言的数学本质。
1946年,计算机出现后,人类就开始琢磨两件事:第一,计算机能不能处理自然语言;第二,如果能,它的处理方式和人类一样吗。时至今日,这两个问题的答案都是肯定的!
最早提出机器智能的是阿兰•图灵,1950年,他在发表的论文中提出一种验证机器是否有智能的方法:让人和机器交流,如果人无法判断和自己交流的对象是人还是机器,就说明这个机器有智能。这种方法后被称为图灵测试。
自然语言处理的发展过程基本分为两个阶段。
早期的20多年,都局限在用电脑模拟人脑。科学家们认为,要让机器完成翻译或者语音识别这样只有人类才能做的事情,就必须让计算机理解自然语言,而做到这一点就必须让计算机有类似人类的智能。所以科学家从传统的自然语言处理方法开始分析语句和获取语义。这样的方法论被称为鸟飞派,就是看鸟怎么飞,就能模仿鸟造出飞机。事实上,我们知道发明飞机靠的是空气动力学而不是仿生学。实际上,这20多年的成果近乎为零。
第二个阶段从70年代开始,转到依靠统计学,但因为没有足够的统计数据和足够强大的模型,在接下来的15年里,基于规则的自然语言处理和基于统计的自然语言处理争执不断。前者的缺点是词性分析和句法分析太过复杂难以操作,后者因为数据不够只能处理浅层的自然语言处理问题。
到2015年,Google基于统计方法的翻译系统全面超过基于规则的SysTran翻译系统。
到今天,自然语言处理的研究已经从单纯的句法分析和语义理解,变成了非常贴近应用的机器翻译、语音识别、文本到数据库自动生成、数据挖掘和知识的获取等。
基于统计的自然语言处理方法,在数学模型上和通信是相通的,甚至是相同的。因此,在数学意义上的自然语言处理又和语音的初衷——通信联系在一起了。
到目前为止,虽然我们一直在谈论信息,但信息这个概念依然有些抽象,信息是怎么度量的呢?《史记》有50多万字,它的信息量有多少呢。1948年,香农博士提出信息熵的概念,用Bit来度量信息量,不仅解决了信息度量问题,还量化出了信息的作用。
信息熵的物理含义是对一个信息系统不确定性的度量,这这一点上,它和热力学中的熵概念相同,因为后者是对于一个系统无序的度量。这也说明科学上很多看似不同的学科之间也会有很强的相似性。
利用熵的概念,可以计算出《史记》的信息量大约是250万比特,用一个比较好的算法压缩一下,整本书可以压缩为一个320KB的文件。如果直接用两字节的国标编码存储,大约需要1MB大小,是压缩文件的三倍。这两个数量的差距,在信息论中成为冗余度。不过同样长度的书,所含的信息量可以相差很多,如果一本书重复的内容很多,冗余度就大,信息量就会小。
一条信息的信息量和它的不确定性有直接的关系,信息是消除不确定性的唯一方法。在没有获得任何信息前,一个事物就像一个黑盒子,慢慢引入信息,就可以了解黑盒子的内部结构。几乎所有的自然语言处理、信息与信号处理的应用都是一个消除不确定性的过程。