语言模型

语言模型

什么是语言模型

语言模型建模方法分为 统计语言模型 和 规则语言模型 两大类，前者完全依靠大文本的数据，用统计的方法建模; 后者是以 Chomsky 的形式语言为基础的确定性语言模型，其更注重语言中语法信息的分析。其中，统计语言模型具有准确性高，容易训练和维护等优点，在诸如语音识别，手写识别，OCR(Optical Character Recognition)，机器翻译，输入法，文本校正等领域被广泛的应用。

统计语言模型

统计语言模型包含n-gram模型，决策树模型，最大熵模型以及基于词类的n-gram模型等。
统计语言模型在使用过程中面临的几个主要问题：

数据稀疏问题
解决统计语言模型的数据稀疏问题，可以采取加大训练语料的方法或者利用各种平滑算法。
领域依赖问题
统计语言模型对数据的领域依赖性很强，解决依赖性问题一个直接的做法就是收集相关领域的语料，另外一种方法就是利用自适应的方法。
模型规模过大
解码速度慢

各种平滑算法

统计语言模型通过对搜集到的海量语料进行分析统计来获得词与词之间的概率关系，在一般的中文统计语言模型中，词典的规模都比较大，如果采用trigram模型的话，所有符合规则的trigram数量就成指数增长。实际上我们能够获得的训练语料远远小于这个量级，这就导致了一部分trigram单元在训练语料中观察不到，从而导致数据稀疏性问题。解决稀疏性问题通常是给那些在训练语料中没有出现的单元给出合理的概率值，这就是统计语言模型的平滑问题。数据平滑的基本思想是降低已出现 n-gram的条件概率分布，以使未出现的 n-gram 条件概率分布非零，且经数据平滑后一定保证概率和为1。

加性平滑

加一平滑
加一平滑，又称拉普拉斯定律，其保证每个 n-gram 在训练语料中至少出现 1次，以 bigram 为例。
通过最大似然估计（Maximum Likelihood Estimate）构造的语言模型为:
Jelinek-Mercer平滑
Kneser-Ney平滑

https://zhuanlan.zhihu.com/p/23504402

最后编辑于：2018.07.23 18:13:43

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

语言模型

什么是语言模型

统计语言模型

各种平滑算法

相关阅读更多精彩内容

友情链接更多精彩内容