语言模型

什么是语言模型

语言模型建模方法分为 统计语言模型规则语言模型 两大类,前者完全依靠大文本的数据,用统计的方法建模; 后者是以 Chomsky 的形式语言为基础的确定性语言模型,其更注重语言中语法信息的分析。其中,统计语言模型具有准确性高,容易训练和维护等优点,在诸如语音识别,手写识别,OCR(Optical Character Recognition),机器翻译,输入法,文本校正等领域被广泛的应用。

统计语言模型

统计语言模型包含n-gram模型,决策树模型,最大熵模型以及基于词类的n-gram模型等。
统计语言模型在使用过程中面临的几个主要问题:

  • 数据稀疏问题
    解决统计语言模型的数据稀疏问题,可以采取加大训练语料的方法或者利用各种平滑算法。
  • 领域依赖问题
    统计语言模型对数据的领域依赖性很强,解决依赖性问题一个直接的做法就是收集相关领域的语料,另外一种方法就是利用自适应的方法。
  • 模型规模过大
  • 解码速度慢

各种平滑算法

统计语言模型通过对搜集到的海量语料进行分析统计来获得词与词之间的概率关系,在一般的中文统计语言模型中,词典的规模都比较大,如果采用trigram模型的话,所有符合规则的trigram数量就成指数增长。实际上我们能够获得的训练语料远远小于这个量级,这就导致了一部分trigram单元在训练语料中观察不到,从而导致数据稀疏性问题。解决稀疏性问题通常是给那些在训练语料中没有出现的单元给出合理的概率值,这就是统计语言模型的平滑问题。数据平滑的基本思想是降低已出现 n-gram的条件概率分布,以使未出现的 n-gram 条件概率分布非零,且经数据平滑后一定保证概率和为1。

  1. 加性平滑
  • 加一平滑
    加一平滑,又称拉普拉斯定律,其保证每个 n-gram 在训练语料中至少出现 1次,以 bigram 为例。
    通过最大似然估计(Maximum Likelihood Estimate)构造的语言模型为:
  • Jelinek-Mercer平滑
  • Kneser-Ney平滑

https://zhuanlan.zhihu.com/p/23504402

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Deep Learning 算法已经在图像和音频领域取得了惊人的成果,但是在 NLP 领域中尚未见到如此激动人心的...
    MobotStone阅读 3,034评论 1 12
  • 读了Bengio的《A Neural Probabilistic Language Model》,颇有感悟,以此文...
    就是杨宗阅读 4,692评论 1 6
  • 重点来了,语言模型的重要性就不用说了,这篇主要介绍n元语法模型、数据平滑技术、贝叶斯网络、马尔可夫模型、隐马尔可夫...
    吕不韦阅读 2,419评论 1 3
  • ----------------------------大纲-------------------------- ...
    lbda1阅读 980评论 0 1
  • 晚安,M。 那么长的人生你不知道下一秒会发生什么! 因说喜欢吃牛肉特地买了做的一顿饭,从温州送到乐清,车子被追尾了...
    余生不后悔阅读 148评论 0 1