总有一些专有名词听上去“很屌”,了解了其概念后,便觉得:“哦,原来是这么简单的小知识点”。语言模型就是这样一个名词,作为nlp基础组件之一,在诸多的上层应用中都有重要应用。
简言之,语言模型就是给一个句子(词序列)分配一个概率。这个概率表示这句话“合理程度”。举个例子:
你儿子在我手上,快点把钱叫出来。 prob=0.80
# 这样一个句子,非常“通顺”,就得到一个很高的概率值。
特朗普在厕所里摆满了多个艺员。 prob=0.20
# 这样一个句子,非常“怪异”,也可能是有别字、语病的,就得到一个很低的概率值。
把语言模型(词序列-->概率)写成公式,就得到了
.
上述公式使用了链式法则,即当前第n个词用哪一个,完全取决于前n-1个词。有了上面的公式,我们就可以基于训练语料,计算一个句子的概率值了。这里面有一个问题,每一个词都取决于前n-1个词,这使得计算复杂度猛增。为了简化,采用了Markov-Assumption,即当前要选择的词仅仅依赖于前一个词。有的同学可能会说,对于文本序列,每个当前词仅取决于前一个词,这样会不会过于简单?是的,太简单了,所以传统的语言模型往往采用了k阶Markov-Assumption,,写成公式:
.
很自然的,我们就可以通过对语料的统计,得出一个句子的概率。
传统的语言模型也是这么做的,假设表示词序列在语料中出现的次数。那么,对于一个词“word”,运用公式就可以得到:
然后对计算得到的多个连乘,就得到了句子的概率。
这里有个问题,即分母的等于0,怎么办?
有两种处理方法,1. 平滑技术 2. back-off,又出现了两个看起来很“屌”的词汇,其原理其实非常简单。
平滑技术
既然分母有可能等于0,那我们就加一个常数,不让其等于0,比如在分母处+1,这就是所谓的平滑。如下所示:
平滑的技术有很多种,大多论文集中在1990-2000年之间,就不详细介绍了。最常见的叫做平滑,即
其中,是词表大小,是(0,1]之间的常数。back-off
退一步海阔天空,这可能就是back-off的由来吧,既然为0
,那就想办法估计一个值出来。这里我们直接给出最佳的“非神经网络语言模型”中使用到的办法,如下所示,看起来很复杂,其实原理很简单。
若为0,则我们使用后一项估计,最后一项是用k-1元gram去估计k元ngram的值。
平滑和back-off的变种很多,详见这篇论文:An Empirical Study of Smoothing Techniques for Language Modeling
非神经网络的最佳语言模型如下:
语言模型的评价--perplexity 困惑度
语言模型的变种有很多,如何评价语言模型的好坏呢?
公式如下:
其中,
困惑度值, 就是说一个词序列越不合理,其困惑度越大,即让你越困惑。。。这里有个疑问,为什么用上述公式,其本质是什么,留给大家思考。
传统语言模型的缺点是什么?
- 平滑技术 or back-off,这类方法属于人工设计规则,设计规则纷繁复杂,哪一种适合什么样的语料,难有定论。困惑度可以用于评价各种规则,但困惑度本身并不是一个完美的评价方法。
- 词表为V的n-gram数目是,如果n每增加1,要计算的n-gram至少会倍增。
- 基于极大似然估计的语言模型缺少对上下文的泛化,比较“死板”。比如,原语料中出现白汽车、黑汽车,而没有黄汽车,该语言模型就会影响对黄汽车的概率估计。当然,某些具体的nlp应用中,这种“死板”反而是一种优势,这种语言模型的灵活性低,但能够降低了recall,提升precision。举个例子,比如,原语料中出现了黑马、白马,这时出现蓝马的概率就很低。而对于灵活的语言模型,很有可能蓝马的概率也偏高。
neural language model 神经语言模型
基于神经网络的语言模型能解决上述三个问题,其模型的数学表达式,简写如下:
以k元文法为例,前k-1个词作为特征,softmax预测最后一个词。词表可能很大,比如1000000,这时可以使用heiraichle softmax,能够有效提升效果、节省预测时间。当然,还有一种NEC方法,通过一系列的二分类问题替换交叉熵目标函数。
实例总结
在机器翻译任务中,传统的语言模型和神经语言模型同时使用,会提升翻译质量,模型之间似乎在互相补充。综上所述,神经语言模型的泛化能力更好,传统方法泛化能力差。红马、蓝马的例子中,我们看到泛化能力好,也不一定是优点。在合适的场景下,选择适合的语言模型就ok了。在开发文本纠错的应用过程中,我们采用了传统的语言模型,因为神经语言模型的泛化能力过强,会带来错别字大量误判,反而降低了系统的表现。