吴军《数学之美》第2章 自然语言处理 - 从规则到统计

自然语言处理从规则到统计的过渡花了15年时间。为什么这场争议持续了15年?

1. 一种新的研究方法的成熟需要很多年。

- 20世纪70年代,基于统计的方法的核心模型是通信系统加隐含马尔可夫模型。这个系统的输入和输出都是一维得得符号序列,而且保持原有的次序。

- 1988年,IBM的Peter Brown等人提出了基于统计的机器翻译方法,框架是对的,但是效果很差,因为当时既没有足够的统计数据,也没有足够强大的模型来解决不同语言语序颠倒的问题。

2. 用基于统计的方法代替传统的方法,需要等原有的一批语言学家退休。

 - 钱钟书在《围城》中讲,老科学家可以理解成“老的科学家”或者“老科学的家”两种。后者的年纪不算老,但是已经落伍,大家必须耐心等他们退休让出位子。

基于统计的自然语言处理方法,在数学模型上和通信是相通的。

通信模型

信息(信息源) -> 编码 -> 信息(信道) -> 解码 -> 信息(接收方)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容