摘要
我们提出并研究了一种身份敏感的人脸和声音联合嵌入方法。这种嵌入使得从语音到面孔和从面孔到声音的跨模式检索成为可能。
我们做了以下四方面的贡献:第一,我们证明了在不需要任何身份标签的情况下,使用一种跨模态自我监督的形式,可以从说话人脸的视频中学习嵌入;第二,我们针对这一任务制定了硬负挖掘课程学习时间表,这是学习成功进行的必要条件;第三,我们演示和评估了在多个场景下训练中未见和未闻身份的跨模态检索,并为这个新任务建立了一个基准;最后,给出了联合嵌入在电视剧字符自动检索和标注中的应用。
1介绍
人脸和声音识别,既非侵入性又易于获取,是多种任务的首选工具。目前最先进的人脸识别方法是使用深度卷积神经网络生成的人脸嵌入(face embeddings)[39,41,46],该神经网络在大规模的标记人脸数据集上进行训练[10,19,24]。在音频社区中,通过类似的路径生成语音嵌入,以进行说话人识别[14,33,35,54]。然而,虽然一个人可以通过面部或声音来识别,但这两种模式是完全独立的,它们不能被联合考虑吗?
为此,本文的目标是学习人脸和声音的联合嵌入,并使用一个几乎免费和无限的无标记训练数据源——人类语音或说话的脸的视频——在跨模态自我监督的应用中做到这一点。面临的关键思想是一个子网,子网可以训练语音段共同来预测一个人是否对应于一个声音,此任务的训练数据可以免费获得:积极的是从视频中同一张说话的脸中获得的脸和语音片段,消极的是从不同的视频中获得的脸和语音片段。
学习这种联合嵌入的动机是什么?首先,模式的联合嵌入使跨模式检索一个人的脸可以检索无脸的语音片段,他们的声音可以检索静止的照片和无语音的视频片段。第二,这实际上可能就是人类如何内化身份的。具有重要影响的认知模型由于心理学家布鲁斯和年轻(1986)[7]提出,人的身份节点或别针是联想记忆的部分控股identity-specific语义编码可以通过访问的脸,声音,或其他形式,因此从输入模式是完全抽象的。
值得首先考虑的是联合嵌入是否可能。当然,如果我们让一个网络学习一个联合嵌入,那么它很可能在训练数据上成功,因为任意的关联甚至可以从不相关的数据[53]中学习。然而,如果脸和声音之间的关系是完全任意的,并且网络已经记住了训练数据,那么我们就会期望在训练中看不见和听不到的身份的跨模式检索的机会行为。脸和声音之间的关系不太可能是完全任意的,因为我们会认为性别和脸/声音,年龄和脸/声音[34]之间存在一定的依赖性。有些令人惊讶的是,实验表明,对未见过的未听说的身份的联合嵌入使用交叉模态检索,可以获得超越性别和年龄的匹配。
在本文中,我们做了以下四点贡献。首先,在第3节中,我们提出了一个联合嵌入人脸和声音的网络架构,以及一个用于学习YouTube上未标记视频的训练损失。第二,在第4秒,我们开发了一种课程学习方法,使用单一参数来控制内部批处理硬底片的困难。在无监督的情况下,调度否定的困难度是学习联合嵌入的一个关键因素。第三,在第7节中,我们评估了在一系列场景中对未见过的未听说身份的嵌入的学习。其中包括使用人脸和声音嵌入来进行跨模式验证,以及1 in N跨模式检索,其中我们击败了当前最先进的[34]。最后,在第8节,我们展示了一个应用,学习嵌入到身份的一次性学习字符标签的电视剧。这再次评估未见未闻身份的嵌入。
2 相关工作
交叉模态嵌入:
视觉内容和音频之间的关系已经在不同的上下文中进行了研究,常见的应用是生成、匹配和检索[26,29,31]。然而,这项工作的主要焦点是构建一个共享的表征,或联合嵌入的两种模式。虽然联合嵌入在图像和文本中得到了深入的研究[5,17,18,28,49],但它们也开始在音频和视觉中获得了吸引力[1,4,37,44]。有几种方法可以学习这种嵌入,我们从利用视听通信作为一种自我监督学习形式的一系列作品中获得灵感[2,38]。通过交叉模态蒸馏[1,4,21]也可以学习嵌入,在这种方法中,一个受过训练的模型(教师)将其知识以一种方式传递给另一种模型(学生),以产生对齐的表示。
特别相关的是最近的一项工作[3],它学习了视觉框架和乐器、歌唱和工具的声音片段之间的联合嵌入。我们的问题与他们的问题不同,因为我们的问题是一种精细的识别:我们必须学习两对面孔或两对声音之间的细微差别;而[3]必须学会通过它们的外观和声音来区分不同类型的乐器。我们还注意到另一项挑战;人类语言表现出相当大的可变性,这种可变性不仅来自于外部因素,如背景的闲聊、音乐和回响,也来自于内在因素,即来自同一说话者的语言的差异,如语言的词汇内容(被说出的确切单词)、情感和语调[35]。一个人身份敏感的嵌入必须对这两组因素保持不变性。
面孔和声音的跨通道学习:
在生物识别技术,一个活跃的研究领域是多通道识别系统的发展,寻求利用面部图像和语音的互补信号组件(8,25),为了达到更好的性能比系统使用单一形态,通常通过使用功能融合。与此相反,我们的目标是利用信号的冗余,这是两种模式的共同之处,以促进跨模态检索的任务。Le和Odobez[30]试图通过面部嵌入来灌输知识以提高演讲者的记录效果,然而他们的重点只是达到更好的音频嵌入。
在我们早期的工作[34]中,我们通过强制匹配任务,建立了属于同一身份的面孔和声音之间存在很强的相关性。这是性别、年龄、国籍等跨模态生物特征的结果,这些特征影响着面部特征和声音。本文从[34]的两个关键方面入手。首先,[34]使用身份标签来训练一个用于匹配的判别模型,而我们采用无监督的方式来处理这个问题,直接从没有标签的视频中学习。第二,我们不是训练一个局限于匹配任务的模型,而是学习人脸和声音之间的联合嵌入。与[34]不同,我们学习的表示法不再局限于强制匹配,而是可以用于其他任务,如跨模态验证和检索。
3 学习联合嵌入


3.1生成人脸-语音配对
获得演讲面对跟踪:
与之前的视听自我监督工作,寻求利用自然同步数据(2、4),简单地提取音频和视频帧同时不足以获得双面孔和声音样本(相同的身份)需要培养对比损失方程1中描述。甚至对于一个给定的视频标记内容可能包含一个说话的人,一个简短的样本相关的音频可能不包含任何演讲,和言论的情况存在,无法保证扬声器的音频是可见的框架(如在面部特写,倒叙和配音视频[36])。此外,即使发言者的脸是在场的,也可能有不止一张脸占据框架。
我们通过使用SyncNet[13]来解决这些问题,这是一种无监督的方法,可以自动从视频中获得说话的面部轨迹。SyncNet由一个两流卷积神经网络组成,它可以估计视频音轨和嘴部运动之间的相关性。这允许视频被精确地分割成说话的脸轨,从说话者的视频中检测到的连续的分组。
选择脸-声对:
给定一组说话的脸轨,我们可以用以下简单的标记算法构建一组带标记的训练对。我们将从相同的人脸轨迹中提取的人脸和语音片段定义为正对,将从不同的人脸轨迹中提取的人脸和语音片段定义为负对([15]的单模态也采用了这种方法)。
因为我们的目标是学习将身份嵌入到一起的嵌入,而不是捕捉同步的、内在的因素(比如情感表达,或者词汇内容),所以我们不会限制与正对相关的面孔与音频在时间上对齐。相反,它是均匀地从说话的人脸轨迹采样,防止模型学习使用同步线索来对齐嵌入(见图2)。接下来,我们描述在训练过程中配对选择的过程。
4 .基于课程挖掘的重要性
通过对比损失与学习嵌入相关的一个关键挑战是,随着数据集变得更大,可能对的数量会呈二次增长。在这种情况下,网络能够快速学会正确映射简单的示例,但要进一步提高性能,往往需要进行艰难的正挖掘和负挖掘[13,22,43,45,50]。在我们的任务背景下,一个有足够能力的神经网络迅速学会在不同性别的样本中嵌入不同性别的面孔和声音,然后成为简单的负对。由于性别只是构成身份的众多组成部分之一,我们希望确保嵌入部分也学会编码其他因素。然而,由于我们不知道说话人脸的身份是先验的,我们不能强制对性别匹配的负配对进行抽样。我们用一种硬的负挖掘方法来解决这个问题,这种方法不需要在训练期间了解身份。
在无监督环境下使用时,硬负选择是一个有点微妙的过程,特别是当网络是从头开始训练的时候。如果负样本太难,网络就会过度关注异常值,并可能难以学习有意义的嵌入。在我们的环境中,最严重的否定是特别危险的,因为它们实际上可能对应着假的否定标签(同一身份的声音和面孔被偶然地从不同的说话面部表情取样)1。
4.1 控住挖掘负样本的难度
标准在线硬样本挖掘(OHEM)技术[22,42]在一个小批量中对最难的正负对进行取样。然而,在我们的设置中,硬正挖掘的价值可能有限,因为我们不期望视频数据在语音面部轨迹中表现出显著的变异性。如果在每个小批中选择了最困难的负面例子,那么大量的培训会增加异常值或假阴性的风险(即标记为阴性的对实际上是阳性的),这两种情况都会导致较差的学习动力。因此,我们设计了一个简单的基于课程的挖掘系统,我们将在下面进行描述。每个小批包含K个随机采样的面部轨迹。对于每个face-track,我们通过均匀采样单个帧xf和均匀采样3秒音频片段xv来构造正对。这个抽样过程可以看作是一种简单的数据扩充的形式,并充分利用现有数据,产生一组K个正的面孔-声音对。接下来,我们对待每一个面输入xf作为一个锚面,并选择一个适当的硬阴性样本从内部的小批。这是通过计算其对应的人脸嵌入与所有语音嵌入(除了直接配对的语音)之间的距离来实现的,总共有K 1个潜在负相关。然后,潜在的负面根据它们到锚面的距离降序排列(最后一个元素是批中最困难的负面),并根据一个负面难度参数选择适当的负面。这个参数简单地对应于消极排序的百分比:= 1是最难的消极,= 0.5是中位数,= 0是最容易的消极。这个参数可以像学习速率一样调整。在实践中,我们发现,在训练的早期阶段选择容易的消极因素,而在后期阶段选择难的消极因素,这样的安排会特别有效。在选择适当的负值时,我们也要确保锚杆面到阈值负值的距离大于锚杆面到正工作面的距离(遵循[41]中所述的半硬负值开采程序)。在附录A中提供了采矿过程的伪代码,在消融分析(附录B.1)中对我们的采矿过程培训课程的其他方面进行了更详细的研究,证明它在取得良好的性能方面发挥了重要作用。