论文阅读“Multimodal Network Embedding via Attention based Multi-view Variational Autoencoder”

引用:Huang F, Zhang X, Li C, et al. Multimodal network embedding via attention based multi-view variational autoencoder[C]//Proceedings of the 2018 ACM on International Conference on Multimedia Retrieval. 2018: 108-116.

问题说明

多模态网络被定义为一个图形,每个节点包含多种内容形式。假设有一个多峰网络G =(V,E,C),其中V是节点集合,E表示节点之间的边,C表示节点上的多模态内容。 e_{u,v}表示两个节点uv之间的边缘(如果它们之间存在链接)。 每个节点可以包含两种类型的内容,即视觉内容(i)和文本描述(t)。

Multimodal Network.png

简单来说,多模态是指在数据样本中,每个样本包含多个模态的描述,如文字及图片。多模态网络,则是指除了这些样本表示之外,还有一些关于样本联系的一些描述,例如上图中由(C)所确定的forms。

模型展示

The framework of the proposed AMVAE.png

在上图的(a)中,描述的是现实生活中存在的多模态网络数据的形式。为了更好的学习网络中所包含的各种信息,作者提出了图(b)中所展示的模型,主要包含“Visual Textual Attention Model”和“Multi-View VAE”来学习Network Embedding。

模型细节分析

Visual-Textual Attention Model

这一部分应该算是论文中比较有特色的部分,主要是针对图片和文本对应的形式。对于一个样本的两种跨模态的描述,文本模态t_v = \{w_1, w_2, ..., w_m\}记为长度为m的句子;图片模态i_v = \{r_1,r_2,...,r_n\}代表n个图片的划分区域。目标是自动找到单词之间和视觉区域的相关性。 在注意力模型中,对于每个单词w_i,基于图像区域r_j(1≤j≤n)w_i之间的相关性,为每个r_j分配一个01之间的相关分数α_{ij}

weight.png

在上式中,权重矩阵U和偏置b都是可学习的参数。φ是非线性的激活函数,常用tanh。\alpha_{i ·}常用作每个word在图片区域\{r_j\}的归一化因子。然后,将标准化的注意力得分用于调节不同区域的注意力强度。 可以将视觉特征重新加权为w_i一词的整个区域之和:

image.png

为了全面的捕捉句子间单词的语义依赖关系,该论文选择了LSTM进行编码。那么
w_i
对应的输出,则被替换为
c_i = [r^i;w_i]
。因此,完整的句子被表示为visual and textual联合的内容,即
\{c_1, c_2, ..., c_m\}
。最后一个cell的输出被看做是最终的多模态内容的表示。
LSTM with attention model.png

在整个Visual-Textual Attention Model中,由只能处理序列数据的LSTM变成了可以同时处理图片和文本的attention model。

当然,论文期望视觉文本注意模型可以为图像和句子对在输入单词和视觉区域之间分配正确的注意权重。给定图像和句子对(i_v,t_v),首先对否定句子t_v^-进行采样。 然后将(i_v,t_v)(i_v,t_v^-)都输入到LSTM中,并且优化了成对的margin ranking损失函数以学习语义嵌入,损失函数如下:

margin ranking loss.png

我们使用带有激活tanh的多层感知器(MLP)来学习匹配分数即loss函数中的f(·)。整体模型如下:

image.png
Multi-View VAE for Embedding

这部分作者重点介绍了3个multi-view vae模型,内容比较简单,因此只附上模型图。

multi-view vae.png

这里贴一下mixed model的loss

mixed model - loss.png
Attention based Multi-view Variational Autoencoder(整体模型)

论文提出了一种新颖的联合嵌入模型AMVAE(模型图展示),该模型通过探索它们的内在关联性来同时进行语义嵌入和多视图嵌入。 AMVAE的基本设计原理在于,语义嵌入模型和多视图嵌入模型应形成一个相互加强的学习循环。 基于分析,我们将AMVAE的损失函数公式化为margin ranking loss(4)和多视图VAE-loss(7)的总和:
total loss.png

在多视图训练的数据中,往往涉及到V个view。因此在AMVAE中,loss形式化如下:

loss 4 all views.png


模型评价

很巧妙的思路构造了Visual-Textual Attention Model,剩余的基本是常规操作。模型的完整性很容易让人接受,好文!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,240评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,328评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,182评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,121评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,135评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,093评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,013评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,854评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,295评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,513评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,678评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,398评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,989评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,636评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,801评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,657评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,558评论 2 352