笃行百天日志 - 024
自然语言从它产生开始,逐渐演变成一种上下文相关的信息表达和传递的方式。而让计算机处理自然语言,一个基本的问题就是为自然语言这种上下文相关的特性建立数学模型。
这个数学模型就是统计语言模型(Statistical Language Model),它是今天所有自然语言处理的基础,并且广泛应用于机器翻译、语音识别、印刷体或手写体识别、拼写纠错、汉字输入和文献查询。
用数学的方法描述语言规律
统计语言模型产生的初衷是为了解决语音识别问题。在语音识别中,计算机需要知道一个文字序列是否能构成一个大家理解而且有意义的句子,然后显示或者打印给使用者。
比如之前的例子中:
- 美联储主席本·伯南克昨天告诉媒体7000亿美元的救助资金将借给上百家银行、保险公司和汽车公司。
这句话就很通顺,意思也很明白。
如果改变一些词的顺序,或者替换掉一些词,将这句话变成:
- 本·伯南克美联储主席昨天7000亿美元的救助资金告诉媒体将借给银行、保险公司和汽车公司上百家。
意思就含混了,虽然多少还能猜到一点。
但是如果再换成:
- 联主美储席本·伯诉体南将借天的救克告媒昨助资金70元亿00美给上百百百家银保行、汽车险公司公司和。
基本上读者就不知所云了。
而这样的问题,贾里尼克用一个简单的数学统计模型非常漂亮的解决了。
具体的解析过程需要概率论和数理统计的计算,数学学问颇深,即使专家也要在此深耕多年。
而数学的美和魅力在于 —— 简单的模型可以干大事。
复杂的事情简单化,具体的事情抽象化,继而处理事情的本质,这是数学在自然语言处理领域给我们的启示!
100个基本之贰拾肆
基本原则是:
诚实、亲切、笑容。
诚实、亲切、笑容——对我来说,这就是全部的基本。在苦恼困惑的时候,我会倚仗这些信条重新振作。不管发生什么事,我都不会放弃这三点。当然人各有异,但我认为拥有自己的基本原则,才是真正内心强大的表现。这样的人即便遇到重大的失败,也能为自己创造一片安身之所——“只要回到这个原点就还能重新开始”。
祝春安,李木子,
第024日,以上。