笃行百天日志 - 023
春分,玄鸟至,雷电生。春雨已经颇有夏雨的气势了!
昨天我们讲到,语言出现的目的是为了人类之间的通信。字母(或者中文的笔画)、文字和数字实际上是信息编码的不同单位。任何一种语言都是一种编码的方式,而语言的语法规则是编解码的算法。
我们把一个要表达的意思,通过某种语言的一句话表达出来,就是用这种语言的编码方式对头脑中的信息做了一次编码,编码的结果就是一串文字。而如果对方懂得这门语言,他或者她就可以用这门语言的解码方法获得说话人要表达的信息。这就是语言的数学本质。虽然传递信息是动物也能做到的,但是利用语言来传递信息是人类的特质。
现代电子计算机出现以后,计算机在很多事情上做得比人还好。既然如此,机器是否能够懂得自然语言呢?事实上当计算机一出现,人类就开始琢磨这件事。这里面涉及到两个认知方面的问题:第一,计算机是否能处理自然语言;第二,如果能,那么它处理自然语言的方法是否和人类一样。对这两个问题的回答都是肯定的!
1. 机器智能。
那时候人们对人工智能和自然语言理解的普遍认识是这样的:要让机器完成翻译或者语音识别这样只有人类才能做的事情,就必须先让计算机理解自然语言,而做到这一点就必须让计算机有类似我们人类这样的智能。
为什么会有这样的认识?因为人类就是这么做的,道理就这么简单。对于人类来讲,一个能把英语翻译成汉语的人,一定是能非常好地理解这两种语言的。这就是直觉的作用。在人工智能领域,包括自然语言处理领域,后来把这样的方法论称为 “鸟飞派” —— 也就是看看鸟怎样飞,就能模仿鸟造出飞机,而不需要了解空气动力学。
句法分析,看这个例子,一个简单的句子
徐志摩喜欢林徽因。
这时,问题出现了,我们利用人工处理的文法规则至少有几万条。即使我们写出了所有语法规则集合,用计算机来解析依旧相当困难。
2. 从规则到统计。
直到1970年以后,统计语言学的出现,让自然语言处理重获新生,并且取得如今这等非凡成就。
而随着计算能力的提高和数据量的不断增加,过去看起来不可能通过统计模型完成的任务,慢慢变成可能。复杂的句法分析就是其中之一。
而今天,自然语言处理的研究也从单纯的句法分析和语义理解,变成非常贴近应用的机器翻译、语音识别、文本到数据库自动生成、数据挖掘和知识获取等等。
3. 小结
基于统计的自然语言处理方法,在数学模型上和通信是相通的,甚至就是相同的。因此,在数学意义上自然语言处理又和语言的初衷通信联系在一起了。但是,科学家们认识到这个联系却花了几十年的时间。
100个基本之贰拾贰
成为问候高手。
在他人向自己问候之前,主动打招呼。我将“成为问候高手”当作每天的口号。住在家附近的人、职场上的同事、称不上朋友的熟人,和这些人没法很深入地交流。了解对方和让对方了解我们,这两件事也很困难。但是,简单的问候,对谁都能做到。虽然只有几秒钟,却也是了不起的交流。
祝春安,李木子,
第023日,以上。