MULTI-MODAL ROBUSTNESS ANALYSIS AGAINST LANGUAGE AND VISUAL PERTURBATIONS

ABSTRACT

最近，与单模态学习相比，基于大规模数据集的联合视觉和语言建模在多模态任务中取得了良好的进展。然而，这些方法对现实世界扰动的鲁棒性尚未研究。在这项工作中，我们对这些模型进行了第一次广泛的鲁棒性研究，研究对象是视频和语言。我们专注于文本到视频检索，并提出了两个大型基准数据集，MSRVTT-P和YouCook2-P，它们利用了90种不同的视觉和35种不同的文本扰动。研究揭示了一些有趣的发现：1）所研究的模型在文本受到干扰时比视频受到干扰时更为稳健，2）与word embedding方法相比，transformer text encoder在非语义变化的文本干扰和视觉干扰方面更为稳健，3）分开来使用两个分支encoder通常比architectures 使用 cross-attention时更健壮。我们希望这项研究将作为一个基准，并指导鲁棒多模态学习的未来研究

还有 97% 的精彩内容

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

支付 ¥10.00 继续阅读

友情链接更多精彩内容

赞1赞

赞赏

手机看全文