机器翻译质量评估笔记
简介
质量评估(QE)旨在没有人工干预的情况下机器翻译质量。QE 结果在昂贵的机器翻译后编辑 (PE) 过程中特别有用,即手动校正 机器翻译输出。QE 指示机器翻译结果(翻译得到的单词、短语、句子、段落或文档)是否值得进行译后编辑。例如,句子级别的 QE 分数有助于对值得进行后期编辑的句子进行排名,而单词级 QE 可以帮助发现译后编辑时需要检查的单词。另一方面,文档级 QE 根据翻译文档的质量对文档进行评分或排名,用于完全自动化的 MT 使用场景,这些场景无法执行译后编辑,例如,用于在线新闻文章机器翻译。
QE 任务通常被转换为有监督的回归或分类任务,其中手动修改或者经过后编辑的数据相当少。此数据可以通过比较后编辑过的参考译文与机器翻译的输出获得。在文档、段落或句子级别,QE 预测自动分数(如,BLEU、TER、BEER,HTER ),而单词和短语级别的预测通常是二进制的:'OK'或 'BAD'。
- 数据示例
这是WMT2018单词级别的QE训练数据中的一个例子
图中所示为英文源句(Source)、德语机器翻译文本(MT)及其手动后版本(PE)。
我们还显示三种类型的单词级质量Tag:MT tags标记翻译文本每个单词是否需要删除或者替换,Gap tags标记两个MT单词之间是否需要插入的单词, Source tags指示哪些源单词没有被翻译或者被翻译错误。在此示例中,句子级别分数HTER (从 MT文本生成 PE文本的编辑操作数(按 PE 长度归化)为 8/12 = 66.7%,对应于 12 个参考词中的 4 个插入、1 个删除和 3 个替换。
- 传统的质量评估
对于文档、段落和句子级别,QE 模型通常使用各种回归算法(例如支持向量机 (SVM)、多层感知器)进行训练。对于单词和短语级别,最常用的算法是如条件随机场 (CRF) 和随机森林。
- 基于神经网络的质量评估
最近,基于神经网络的方法已被成功地利用来改善QE性能。这些方法主要依靠编码器解码器架构解决序列间预测问题。这种方法在许多应用中非常流行,在这些应用中,输入和输出是成序列的(比如自然语言数据)。
在编码器/解码器方法中,将输入序列编码为内部表示形式(大致是自动学习的特征),然后从该表示形式生成输出序列。当前使用最多的是RNN, Transformer
QE相关论文笔记
Unbabel’s Participation in the WMT19 Translation Quality Estimation Shared Task
这个系统采用OpenKiwi框架这个开源QE系统在WMT 2015-18 shared tasks 上都取得了最好的性能.
数据集和资源
用于训练系统的数据资源有三种类型:QE 任务的语料库,WMT的平行语料库,eSCAPE 语料库格式的合成(src、pe、mt)三元组数据集
- 由任务提供的 En-De QE 语料库,由 13442 个三元组组成。
- 由共享任务提供的 En-Ru QE 语料库,由 15089 个三元组组成。
- 由共享任务组织者提供的来自 IT 领域的 3396364 句的 En-De 平行语料库。
- eSCAPE语料库风格的合成三元组数据。对于平行语料,使用 OpenNMT 5个模型的融合来获取好的翻译, 组成三元组
- En-Ru eSCAPE 语料库包含7735361合成三元组
使用的模型
最简单的基线模型线性顺序模型。使用有关单词, 词性信息, 句法依存关系作为特征, 使用unigram 和 bigram特征, 使用maxloss MIRA算法来学习权重
- NuQE
使用OpenKiwi实现的 NeUral Quality Estimation 模型
并改进使它联合学习MT tags, source tags 以及句子得分.
原来的NuQE的结构由一个查找层组成,该层包含目标单词及其源对齐单词的嵌入。这些嵌入拼接起来并输入到两个连续的两个前馈层和一个双向GRU层中。输出包含一个softmax层,该层产生最终的OK / BAD决策。
这篇文章里为了学习句子得分这里将MT tags输出层结果取平均值,然后传入一个映射到一个值的前馈层.
这篇文章为了联合学习source tags,采用源文本嵌入,将它们投影到前馈层,然后对对齐的MT tags输出向量求和。然后将结果通过前馈层,bi-GRU,其他两个前馈层,最后是输出层。图层尺寸与普通模型中的相同。值得注意的是,NUQE是仅使用共享任务数据从头开始进行训练的,没有经过预先训练的部分.
- Predictor-Estimator
Predictor-Estimator结构由Kim, 2017提出
它由两个模块组成:
- 预测器,经过训练可以在给定源和左右目标句子上下文的情况下预测目标句子的每个标记;
- 评估器,它使用预测器产生的特征并将每个单词分类为OK或BAD,或者预测句子得分
结构大致如下图
上图描述了预测器-评估器体系结构中使用的两种处理模型。
第一步,使用基于RNN的单词预测器。
第二步,从单词预测器中提取QEFV,并使用神经质量评估模型在句子/单词/短语级别评估翻译质量。
单词预测器和质量评估器解决两个不同的任务;因此,可以从不同的训练数据中分别对它们进行训练。首先,单词预测任务的目标是正确预测以所有其他源和目标上下文为条件的目标单词。平行语料库用于训练单词预测模型。其次,质量评估器任务旨在评估给定翻译的“质量”。而是使用QE数据来训练质量估计模型。 QEFV近似于从单词预测到质量评估的知识转移。
这篇文章分别使用了: 基于RNN 的 Predictor-Estimator和基于Transformer的Predictor-Estimator
- Transfer Learning And Fine-Tuning
使用了两个经过预训练的语言模型作为特征提取器,即多语言BERT模型
和跨语言语言模型XLM。预测器-评估器模型由产生上下文标记表示的预测器和将这些表示转换为针对单词级别标签和句子级别得分的预测的评估器组成。由于这两个模型都会在一对句子中为每个标记生成上下文表示,因此我们只需将预测器部分替换为BERT或XLM即可创建新的QE模型:PREDEST-BERT和PREDEST-XLM。 为了提高性能,通过在更接近共享任务领域的数据上继续对其语言模型进行预训练来采用Fine-Tuning步骤。
- APE-QE
除传统的QE系统外,这里还用来Martins等人提出的适用于QE的自动后期编辑 也就是APE-QE
自动后编辑系统经过人工后编辑数据训练出来,它的输出可以作为伪后编辑数据,可以与创建原始标签相同的方式生成单词级质量标签和句子级分数,这样就可以得到伪QE训练数据。
使用APE-QE的两个变体:
- PSEUDO-APE,它训练常规机器翻译模型并将其输出用作生成伪参考数据。
- 带有额外解码约束的APE-BERT,以奖励或惩罚源或翻译文本中不存在的单词。
- 系统集成
集成上述的系统,来产生更好的结果.
Alibaba Submission for WMT18 Quality Estimation Task
他们在WMT18用于句子和单词级QE系统称为QE Brain,它分为两个阶段:特征提取和质量评估。在特征提取阶段,它依赖于Fan等人引入的“神经双语专家模型”,在大型平行语料库上进行训练提取源和翻译输出之间的高级潜在联合语义和对齐信息作为先验知识模型。知识模型得到的手动设计的特征和高级潜在联合语义特征在质量评估阶段输入到预测模型中,目标是针对句子级任务的评分预测和针对单词级任务的错误或遗漏单词预测。