ACM MM 2022 | 首个针对跨语言跨模态检索的噪声鲁棒研究工作

论文标题:Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning

文章链接:https://arxiv.org/pdf/2208.12526.pdf

代码链接:https://github.com/LiJiaBei-7/nrccr

虽然目前传统的跨模态检索工作已取得了巨大的进展,但由于缺少低资源语言的标注数据,这些工作通常关注于高资源语言(比如英语),因此极大地限制了低资源语言在该领域的发展。为了解决这一问题,作者针对跨语言跨模态检索任务(CCR)展开了研究,该任务旨在仅使用人工标注的视觉-源语言(如英语)语料库对模型进行训练,使其可以适用于其他目标语言(非英语)进行评估。如下图所示。

▲ 传统跨模态检索&跨语言跨模态检索(CCR)

在这篇论文中,作者旨在借助机器翻译来生成伪视觉-目标语言对进行跨语言迁移,来缓解人工标注多语言视觉-语言语料库困难的问题。虽然机器翻译可以快速的处理大量的文本语言转换,但是其准确性并不能得到保证,因此在翻译过程中将会引入大量的噪声,导致翻译的目标语言句子并不能准确的描述其对应的视觉内容【如下图所示】。

▲ 翻译错误的示例图

然而之前的基于机器翻译的CCR 工作大多忽略了这个问题,它们通常使用大规模的预训练模型在通过机器翻译得到的大规模多语言视觉-语言语料库上进行大规模预训练,并且只关注于视觉-目标语言数据对之间的对齐。然而直接在这种噪声数据对上应用跨模态匹配将会严重影响检索性能,神经网络模型有很强的能力来拟合这种给定的(噪声)数据。为了解决这个问题,作者提出了一个噪声鲁棒学习方法来缓解机器翻译中所引入的噪声问题,该论文是首个关注于 CCR 任务中由机器翻译所引入噪声问题的工作。

1

『方法』

▲ 模型框架图

作者首先引入了其基线模型,继而引入噪声鲁棒学习方法。

1.1 基线模型(Basic Model)

视觉编码器:给定一个视频,使用预训练的2D CNN 来提取视频特征序列,然后输入到 Transformer 块中,来增强帧间交互,最终得到一个视频特征向量。

文本编码器:作者设计了一个双分支编码器,分别又一个源语言分支和一个目标语言分支组成。每个语言分支都包含一个Transformer block 和一个预训练的 mBERT backbone,将源语言和目标语言分别输入到对应的分支中,得到对应的源语言句子特征和目标语言句子特征。

将以上三个特征分别映射到多语言多模态空间中:

作者使用了传统的跨模态检索任务中常用的triplet ranking loss 进行约束:

1.2 噪声鲁棒的特征学习(Noise-Robust Representation Learning)

基线模型只是简单的进行了跨语言跨模态对齐,并没有对噪声进行处理,接下来作者提出了多视图自蒸馏来生成soft pseudo-tagets 以监督目标语言分支的学习。

作者首先借助于cross-attention 来生成一个相对干净的中间目标语言句子特征,通过将源语言 token 序列作为 query,利用 cross-attenion 固有的性质,对目标语言 token 序列进行过滤。

▲ cross-attention 权重示例图

如图3 所示,错误的单词(用红色标记)和源语言单词之间的注意权重被分配了低值。其过程表示如下:

1.3 多视角自蒸馏(Multi-view self-distillation)

作者引入了基于相似度视角和基于特征视角的自蒸馏损失。基于相似度视角的自蒸馏(Similarity-based view):给定(V, S, T),默认其两两之间互为匹配对,忽视翻译得到的目标语言句子 T 中所包含噪声的事实。对此,作者将 cross-attention 所生成的特征h_c 作为 teacher,使用特征h_c 和视觉特征计算v 计算得到 soft pseudo-targets 作为目标语言分支的监督。

▲ soft pseudo-targets示例图

基于特征视角的自蒸馏(Feature-based view):通过 l1 范式实现特征蒸馏:

1.4 循环语义一致性(Cycle Semantic Consistency)

受无监督机器翻译的启发,作者引入了循环语义一致性模块,提高源语言分支从噪声中提高原始语义信息的能力,增加源语言分支的鲁棒性。

1.5 语言无关特征学习(Language-agnostic Representation Learning):

考虑到特定语言特征缺少跨语言迁移能力,作者通过对抗学习的方式来训练模型学习语言无关特征。构建一个分类器F 作为判别器来分辨输入特征是源语言还是目标语言,判别器和特征编码器相互博弈:

1.6 训练和测试

最终的目标函数为:

测试时作者采用了目标语言和翻译的源语言(由于测试时只使用目标语言)加权和的方式:

2

『实验』

作者在三个跨语言跨模态数据集上进行了实验对比,其中为两个多语言视频文本检索数据集(VATEX 和 MSRVTT-CN),一个多语言图像文本检索(Multi30K);其中 MSRVTT-CN 是作者对 MSRVTT 进行中文扩展得到的多语言数据集。

▲ 在VATEX数据集上进行SOTA对比实验

▲ MSRVTT-CN上性能对比

▲ Multi30K上进行性能对比实验

2.1 鲁棒分析实验

为了进一步证明模型对抗翻译噪声的鲁棒能力,作者通过增加翻译次数以进一步增加训练数据的噪声程度,如图所示,在经过多次翻译后,基线模型的性能明显下降,而本文所提出的模型性能更加的稳定,验证了噪声鲁棒特征学习的有效性。

将目标语言句子根据句子长度进行分组,作者假设越长的句子,翻译越困难,因此包含的噪声可能更多。结果表明,本文所提出的模型和基线模型的性能差距随着句子长度的增加而增加。

2.2 t-SNE可视化实验

作者随机从VATEX 的中文测试集中随机选择 20 个样本,其中每个样本包含 10 个对应的英语翻译句子和一个对应的视频。如图所示,NRCCR 的类内特征更加的紧凑,表明了模型更好的学习到了跨语言跨模态对齐。

2.3 消融实验

结果表明,使用两个视角,性能得到了提升,表明基于相似度视角和基于特征视角彼此互补。引入循环语义一致性后,实现了额外的性能收益。此外,还表明了语言无关特征学习的重要性。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,133评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,682评论 3 390
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,784评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,508评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,603评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,607评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,604评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,359评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,805评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,121评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,280评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,959评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,588评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,206评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,442评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,193评论 2 367
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,144评论 2 352

推荐阅读更多精彩内容