机器翻译质量评估笔记

机器翻译质量评估笔记


简介

质量评估(QE)旨在没有人工干预的情况下机器翻译质量。QE 结果在昂贵的机器翻译后编辑 (PE) 过程中特别有用,即手动校正 机器翻译输出。QE 指示机器翻译结果(翻译得到的单词、短语、句子、段落或文档)是否值得进行译后编辑。例如,句子级别的 QE 分数有助于对值得进行后期编辑的句子进行排名,而单词级 QE 可以帮助发现译后编辑时需要检查的单词。另一方面,文档级 QE 根据翻译文档的质量对文档进行评分或排名,用于完全自动化的 MT 使用场景,这些场景无法执行译后编辑,例如,用于在线新闻文章机器翻译。

QE 任务通常被转换为有监督的回归或分类任务,其中手动修改或者经过后编辑的数据相当少。此数据可以通过比较后编辑过的参考译文与机器翻译的输出获得。在文档、段落或句子级别,QE 预测自动分数(如,BLEU、TER、BEER,HTER ),而单词和短语级别的预测通常是二进制的:'OK'或 'BAD'。

  • 数据示例

这是WMT2018单词级别的QE训练数据中的一个例子
图中所示为英文源句(Source)、德语机器翻译文本(MT)及其手动后版本(PE)。
我们还显示三种类型的单词级质量Tag:MT tags标记翻译文本每个单词是否需要删除或者替换,Gap tags标记两个MT单词之间是否需要插入的单词, Source tags指示哪些源单词没有被翻译或者被翻译错误。在此示例中,句子级别分数HTER (从 MT文本生成 PE文本的编辑操作数(按 PE 长度归化)为 8/12 = 66.7%,对应于 12 个参考词中的 4 个插入、1 个删除和 3 个替换。

  • 传统的质量评估

对于文档、段落和句子级别,QE 模型通常使用各种回归算法(例如支持向量机 (SVM)、多层感知器)进行训练。对于单词和短语级别,最常用的算法是如条件随机场 (CRF) 和随机森林。

  • 基于神经网络的质量评估

最近,基于神经网络的方法已被成功地利用来改善QE性能。这些方法主要依靠编码器解码器架构解决序列间预测问题。这种方法在许多应用中非常流行,在这些应用中,输入和输出是成序列的(比如自然语言数据)。

在编码器/解码器方法中,将输入序列编码为内部表示形式(大致是自动学习的特征),然后从该表示形式生成输出序列。当前使用最多的是RNN, Transformer

一个BiRNN翻译质量评估架构

QE相关论文笔记

Unbabel’s Participation in the WMT19 Translation Quality Estimation Shared Task

这个系统采用OpenKiwi框架这个开源QE系统在WMT 2015-18 shared tasks 上都取得了最好的性能.

数据集和资源

用于训练系统的数据资源有三种类型:QE 任务的语料库,WMT的平行语料库,eSCAPE 语料库格式的合成(src、pe、mt)三元组数据集

  1. 由任务提供的 En-De QE 语料库,由 13442 个三元组组成。
  2. 由共享任务提供的 En-Ru QE 语料库,由 15089 个三元组组成。
  3. 由共享任务组织者提供的来自 IT 领域的 3396364 句的 En-De 平行语料库。
  4. eSCAPE语料库风格的合成三元组数据。对于平行语料,使用 OpenNMT 5个模型的融合来获取好的翻译, 组成三元组
  5. En-Ru eSCAPE 语料库包含7735361合成三元组

使用的模型

最简单的基线模型线性顺序模型。使用有关单词, 词性信息, 句法依存关系作为特征, 使用unigram 和 bigram特征, 使用maxloss MIRA算法来学习权重

  • NuQE

使用OpenKiwi实现的 NeUral Quality Estimation 模型
并改进使它联合学习MT tags, source tags 以及句子得分.

原来的NuQE的结构由一个查找层组成,该层包含目标单词及其源对齐单词的嵌入。这些嵌入拼接起来并输入到两个连续的两个前馈层和一个双向GRU层中。输出包含一个softmax层,该层产生最终的OK / BAD决策。

这篇文章里为了学习句子得分这里将MT tags输出层结果取平均值,然后传入一个映射到一个值的前馈层.

这篇文章为了联合学习source tags,采用源文本嵌入,将它们投影到前馈层,然后对对齐的MT tags输出向量求和。然后将结果通过前馈层,bi-GRU,其他两个前馈层,最后是输出层。图层尺寸与普通模型中的相同。值得注意的是,NUQE是仅使用共享任务数据从头开始进行训练的,没有经过预先训练的部分.

  • Predictor-Estimator
    Predictor-Estimator结构由Kim, 2017提出

它由两个模块组成:

  1. 预测器,经过训练可以在给定源和左右目标句子上下文的情况下预测目标句子的每个标记;
  2. 评估器,它使用预测器产生的特征并将每个单词分类为OK或BAD,或者预测句子得分

结构大致如下图

image.png

上图描述了预测器-评估器体系结构中使用的两种处理模型。
第一步,使用基于RNN的单词预测器。
第二步,从单词预测器中提取QEFV,并使用神经质量评估模型在句子/单词/短语级别评估翻译质量。
单词预测器和质量评估器解决两个不同的任务;因此,可以从不同的训练数据中分别对它们进行训练。首先,单词预测任务的目标是正确预测以所有其他源和目标上下文为条件的目标单词。平行语料库用于训练单词预测模型。其次,质量评估器任务旨在评估给定翻译的“质量”。而是使用QE数据来训练质量估计模型。 QEFV近似于从单词预测到质量评估的知识转移。
这篇文章分别使用了: 基于RNN 的 Predictor-Estimator和基于Transformer的Predictor-Estimator

  • Transfer Learning And Fine-Tuning

使用了两个经过预训练的语言模型作为特征提取器,即多语言BERT模型
和跨语言语言模型XLM。预测器-评估器模型由产生上下文标记表示的预测器和将这些表示转换为针对单词级别标签和句子级别得分的预测的评估器组成。由于这两个模型都会在一对句子中为每个标记生成上下文表示,因此我们只需将预测器部分替换为BERT或XLM即可创建新的QE模型:PREDEST-BERT和PREDEST-XLM。 为了提高性能,通过在更接近共享任务领域的数据上继续对其语言模型进行预训练来采用Fine-Tuning步骤。

  • APE-QE

除传统的QE系统外,这里还用来Martins等人提出的适用于QE的自动后期编辑 也就是APE-QE

自动后编辑系统经过人工后编辑数据训练出来,它的输出可以作为伪后编辑数据,可以与创建原始标签相同的方式生成单词级质量标签和句子级分数,这样就可以得到伪QE训练数据。
使用APE-QE的两个变体:

  1. PSEUDO-APE,它训练常规机器翻译模型并将其输出用作生成伪参考数据。
  2. 带有额外解码约束的APE-BERT,以奖励或惩罚源或翻译文本中不存在的单词。
  • 系统集成
    集成上述的系统,来产生更好的结果.

Alibaba Submission for WMT18 Quality Estimation Task

他们在WMT18用于句子和单词级QE系统称为QE Brain,它分为两个阶段:特征提取和质量评估。在特征提取阶段,它依赖于Fan等人引入的“神经双语专家模型”,在大型平行语料库上进行训练提取源和翻译输出之间的高级潜在联合语义和对齐信息作为先验知识模型。知识模型得到的手动设计的特征和高级潜在联合语义特征在质量评估阶段输入到预测模型中,目标是针对句子级任务的评分预测和针对单词级任务的错误或遗漏单词预测。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,558评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,002评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,024评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,144评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,255评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,295评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,068评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,478评论 1 305
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,789评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,965评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,649评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,267评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,982评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,800评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,847评论 2 351

推荐阅读更多精彩内容