噪声对比评估(Noise-Contrastive Estimation, NCE)作为通用的统计模型评估方法,可被应用于各类统计模型。而后被作为加速方法引入到神经网络语言建模中,并且极大地提升了神经网络语言模型的训练速度,甚至改善了模型的PPL指标。
1. 前言
正如本系列的上篇文章《神经网络语言建模系列之三:重要性采样》中指出的,减少神经网络语言模型的计算量是该领域的研究热点之一,其中一个重要的思路就是针对输出层,通过采样的方法来避免进行全部输出节点的计算。本文将介绍另一种基于采样的加速方法,即噪声对比评估。噪声对比评估由Gutmann and Hyvärinen (2012)提出,作为统计模型评估的新方法,并在自然图像统计模型 (Natural Image Statistical Model)上取得了成功。Mnih and Teh (2012)将噪声对比评估引入到神经网络语言模型中,提升了神经网络语言模型的训练效率。Ashish and Zhao (2013)则在神经网络机器翻译(Neural Machine Translation, NMT)模型中应用噪声对比评估来提升模型的训练速度。Liza and Grzes (2017)指出虽然噪声对比评估在神经网络语言建模和机器翻译中取得了一定的效果,但在神经网络语言建模中的应用不算成功,主要原因是模型超参的影响并没有得到仔细的研究。针对这个问题,提出了参数调节的方法,比如学习率、参数初始化等。
2. 噪声对比评估
噪声对比评估的基本思想就是将概率评估转化为二分类问题,区分样本是来自于观察到的数据分布的还是噪声分布。该评估方法可以直接应用于非归一化的模型,因此可以避免非归一化的计算,从而减少统计模型输出层的计算量。对于神经网络语言模型这类输出项较多的统计模型,计算量的减少就更为显著。
通常统计模型就是表示一类分布函数族的参数模型,其中为模型的参数。利用数据集对参数模型进行训练时,数据所表示的分布为。假设数据分布包含于分布函数族,即,为通过使得目标函数在数据集上最大化得到的模型参数的解。
统计模型的解要产生合理规范的分布,需要满足自然约束限制,即概率分布的积分为,对于离散概率分布,其概率的和为。由于神经网络语言模型中的概率表示通常以离散化的方式表示,因此本文均采用离散分布的形式。离散概率分布的自然约束可表示为:
其中,为离散概率的数量。通常统计模型的输出为非归一化的概率,不能严格地满足自然约束,需要进行额外的处理。但是自然约束通常可以利用归一化方法很容易的实现,即:
其中,归一化因子的计算涉及模型的所有输出项,常常会引起许多问题。比如积分无法通过解析方法计算,当数据维度较高时,数值方法求解积分则比较困难。
针对归一化因子计算所引起的问题,Gutmann and Hyvärinen (2012)提出了噪声对比评估。噪声对比评估方法将归一化因子作为模型的参数,而非通过显式计算获得。将归一化的概率进行如下转换:
其中,将作为模型的参数,此时只有在取特定的值的情况下,概率才能满足自然约束。
噪声对比评估的主要思想是通过对比进行学习,即对比或者区分样本来自于数据还是噪声,将概率评估问题转化为二分类问题。假设二分类的类别分别为和,噪声分布为。为了使得两个分类的概率相等,设定如下的伪概率:
模型训练的目标函数则设定为:
其中,为来源于数据分布,而为来源于噪声分布。
3. 语言模型加速
在神经网络语言模型中,在时刻, 输出层直接输出的为非归一化的条件概率,即各个词在当前上文下的非归一化条件概率。其中,为词典中的词,为词典的大小,为时刻的上文。通常采用Softmax对条件概率进行归一化,即:
由于归一化的原因,需要计算模型的所有输出。而神经网络语言模型的输出项等于词典的大小,一般在几十万或者上百万,其计算量巨大。Mnih and Teh (2012)提出利用噪声对比评估的方法可以减少输出层的计算量,基本思路是将目标词作为来源数据分布的样本,其他词则看作噪声分布的样本,并对噪声样本进行采样,而不是考虑字典中的所有词,从而减少神经网络语言模型训练阶段的计算量。
利用噪声对比评估,将条件概率的评估转化为二分类问题,其伪概率为:
其中,为噪声分布,表示噪声样本的被采样次数是数据样本的倍数,换句话讲,就是在时刻,目标词只有一个,即数据样本数为,根据噪声分布,选取个其他词作为噪声样本。
虽然概率评估问题就是多分类问题,本质上与二分类问题类似,但由于问题进行了转换,并且引入了采样,就需要对目标函数进行相应的修改。引入噪声对比评估后,神经网络语言模型训练的目标函数由原来的最大似然函数更改为:
噪声对比评估方法能够避免进行归一化计算的根本原因还是将归一化因子作为模型参数,而非显式计算获得。引入的模型参数为,于是,条件概率则转化为:
正如噪声对比评估中所提到的,神经网络语言模型直接输出的非归一化的概率要满足自然约束,就需要选择特定的值。Mnih and Teh (2012)通过实验证明,设定为,模型便能够取得很好的效果,不需要通过模型训练学习获得。而Chen and et. al. (2015)将引入了噪声对比评估的神经网络语言模型应用到语音识别(Speech Recognition)中,实验结果显示将设定为时,模型的结果以及加速效果达到最好的平衡。Ji and et. al. (2016)指出时会得到次优的结果,并且不同的值选取,会导致数值不稳定。由于不同的研究所采用的模型存在差异,实验的设置也不同,很难进行比较分析的得出定论,但在不同的情况下,应该需要根据具体情况进行调整。
为了说明噪声对比评估在神经网络语言模型应用中的效果,此处引用Mnih and Teh (2012)的实验结果,实验中所采用的模型是对数双线性语言模型模型(Log-Bilinear Language Model, LBL),实验结果的具体数据如下:
序号 | 模型 | 采样数 | PPL | 时间 |
---|---|---|---|---|
01 | LBL | - | 163.5 | 21h |
02 | LBL + NCE | 1 | 192.5 | 1.5h |
03 | LBL + NCE | 5 | 172.6 | 1.5h |
04 | LBL + NCE | 25 | 163.1 | 1.5h |
05 | LBL + NCE | 100 | 159.1 | 1.5h |
从实验结果可以看出,采用噪声对比评估后,模型训练的效率提高了14倍。实验中还分析了不同的采样数对模型的影响,不难看出,当采样数增加时,模型PPL指标便改善了,甚至超过了原始模型,很出乎意料。但是增加采样数增加时,模型训练时间却不变,这是因为当采样数较少时,模型需要更多的迭代步才能达到收敛。
虽然噪声对比评估被成功地应用于神经网络语言建模,但是很多学者认为噪声对比评估并不适合于神经网络语言建模。Chen, Grangier and Auli (2015)分析了层级Softmax、 目标采样(Target Sampling)、噪声对比评估、自归一化(Self-normalization)等,研究结果显示噪声对比评估的有限噪声采样数(50)无法使得较大字典中的每个词被充分采样,噪声对比评估在词典较大时,比采用普通Softmax输出的模型有着较好的性能,仅仅是因为Softmax不适合输出较多的场景。Jozefowicz and et. al.则认为重要性采样比噪声对比评估有着更好的性能,主要原因是噪声对比评估将多分类任务转换为了二分类问题。
Ji and et. al. (2016)指出归一化因子的调节问题,当时会得到次优的结果,并且不同的值选取,会导致数值不稳定。由于不同的研究所采用的模型存在差异,实验的设置也不同,很难进行比较分析的得出定论,但在不同的情况下,应该需要根据具体情况进行调整。Ji and et. al. (2016)根据噪声对比评估的思想提出了BlackOut的采样方法,其名称的由来是借鉴了Dropout。BlackOut方法同样是将多分类问题转化为了二分类问题,与噪声对比评估的区别就在于条件概率的评估方法不同,其条件的计算如下:
其中,,而分布Q推荐使用指数级的Unigram分布,即:
从上式可以看出,Blackout方法中,二分类的条件概率的评估直接采用未归一化的多分类的条件概率,这样便避免了归一化因子。
噪声对比评估在神经网络建模中的优越性,是在Liza and Grzes (2017)的研究成果发布之后才体现出来的。Liza and Grzes (2017)研究了采用噪声对比评估的神经网络语言模型的参数设置,主要包括学习率、权重矩阵的初始化以及Dropout的比率。其中学习率采用Search then Converge的方法,即:
其中,为初始学习率,可设为1。超参可固定为常数,如2,1.5等。而参数对噪声对比评估影响较大,建议设置为1至总迭代次数的三分之二。
对于参数的初始化,Liza and Grzes (2017)建议采用均匀分布的初始化方法,并且均匀分布的上下限需要仔细选择,并且较小的上下限会使噪声对比评估的效果更好。实验中,对三种大小的模型进行了测试,其中,小模型未采用Dropout,而中等和最大的模型分别采用的Dropout比率分别为0.5和0.6。而噪声数据的采样率推荐采用600,而不是以前研究中的50。最大模型的实验结果如下所示:
序号 | 模型 | Valid PPL | Test PPL | 时间 |
---|---|---|---|---|
01 | Softmax(55次迭代) | 82.558 | 78.826 | 9h11min |
02 | Softmax(20次迭代) | 79.798 | 76.935 | 3h40min |
03 | NCE(55次迭代) | 72.726 | 69.995 | 7h34min |
04 | NCE(20次迭代) | 76.268 | 74.129 | 2h36min |
从上表的结果可以看出,噪声对比评估的模型PPL相对于普通神经网络语言模型由来较大的改善,但是由于噪声样本的采样比例提高了,加速效果也降低了。
4. 总结
噪声对比评估能够有效地提升神经网络语言模型的训练效率,但与重要性采样等采样方法类似,仅能够加速训练阶段的计算速度,对预测阶段没有提速效果。
作者:施孙甲由 (原创)