吴军《数学之美》第2章自然语言处理 - 从规则到统计

自然语言处理从规则到统计的过渡花了15年时间。为什么这场争议持续了15年？

1. 一种新的研究方法的成熟需要很多年。

- 20世纪70年代，基于统计的方法的核心模型是通信系统加隐含马尔可夫模型。这个系统的输入和输出都是一维得得符号序列，而且保持原有的次序。

- 1988年，IBM的Peter Brown等人提出了基于统计的机器翻译方法，框架是对的，但是效果很差，因为当时既没有足够的统计数据，也没有足够强大的模型来解决不同语言语序颠倒的问题。

2. 用基于统计的方法代替传统的方法，需要等原有的一批语言学家退休。

- 钱钟书在《围城》中讲，老科学家可以理解成“老的科学家”或者“老科学的家”两种。后者的年纪不算老，但是已经落伍，大家必须耐心等他们退休让出位子。

基于统计的自然语言处理方法，在数学模型上和通信是相通的。

通信模型

信息(信息源) -> 编码 -> 信息(信道) -> 解码 -> 信息(接收方)

最后编辑于：2017.12.05 16:37:55

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

吴军《数学之美》第2章 自然语言处理 - 从规则到统计