Heterogeneous Non-Local Fusion for Multimodal Activity Recognition

一. 前言

  • 这是一篇解读论文的博客,论文标题为:Heterogeneous Non-Local Fusion for Multimodal Activity Recognition

  • 其中涉及到的知识点有:

    • 模态融合(视频信息与传感器信息)
    • Non-Local神经网络
    • 活动识别

二. 概述

  • 这篇文章是做活动识别的,采用的方法是模态融合的方法,融合的信号源有视频信号和传感器信号
  • 其中创新点是对Non-Local神经网络做出了一些创新,使得其能够对异构信号源进行融合

三. Local神经网络

  1. Local神经网络的例子
  • 在讲Non-Local之前,很有必要讲一下什么是Local神经网络,因为它们是相对而言的
  • 举两个深度学习领域的典型例子:CNN网络处理图片、RNN网络进行机器翻译
  1. CNN网络处理图片
图像识别
  • 从上图可以看到,在做卷积和池化等计算时,是对图片一个个局部进行计算(其实是为了提取有效的特征);当filter是3x3的大小时,那么这时计算的就是图片中3x3的9个像素的大小
  • 所以,CNN网络为什么是Local的体现在不能一下子对整个图片进行计算,而是对图片每个局部进行特征提取
  1. RNN网络进行机器翻译


    机器翻译
  • 从上图可以看到,机器翻译时输入的是一个一个单词,然后将上一个单词计算后的输出作为下一个的输入,来找到单词之间的联系(也叫远程依赖)
  • 从这个处理过程可以看到,RNN网络是一个一个单词的计算,而不是一下子计算整个语句,输出翻译结果,RNN网络属于Local神经网络体现在这里

四. Non-Local神经网络

  1. 什么是Non-Local神经网络?
  • 了解了什么是Local的概念之后,Non-Local的概念其实就是相对的,也就是说,它可以处理全局的信息,而不是对局部进行处理
  1. 用图片进行解释


    Non-Local
  • 图片截取自文章:Non-local Neural Networks
  • 做的工作是对视频信号进行处理,从而进行视频分类
  • 首先,这是一个视频的四个帧,其中X_{i}是第一帧中的一个位置(像素点);会发现这个位置不仅关联了本图片的其他位置,还关联了其他帧的位置(图片中只画出了一部分关联性较强的位置),这也是Non-Local的体现,因为这个网络是考量全局的
  1. 用公式进行解释


    Non-Local公式
  • 变量代表的意义x是输入信号,x_{i}x_{j}在前面的图片上可以看到,是图片上两个不同的位置(可以是同一帧图片,也可以是不同帧图片),然后ij下标其实是位置的index,可以简单理解为位置的编号;z_{i}是输出结果
  • 函数的意义f函数用来计算i位置和所有j位置之间的关系,计算结果是一个标量(即常量,相对于矢量的一种说法),Non-Local其实就体现在这里是所有j位置g函数计算输入信号在j位置的representation,是一个简单的线性函数;其中C(x)是用来标准化的(就是控制输出的z_{i}的值的大小,没有实际的意义)
  • 特点:这里其实能看出Non-Local网络的其中一个特点:可以计算时空信息,计算同一张图片的两个不同位置的联系时体现空间,计算不同图片(两帧之间)的两个不同位置时体现时间,可以同时计算所以体现了时空特性,所以Non-Local可以很好的应用于视频的信息计算
  • 总结:通过对公式的各部分进行分析,可以看到其实质是考量不同位置之间的关系;换句话说,若某个位置跟其他位置关系密切,那么说明这个位置是很重要的,我们从这个位置就能得出很多的信息,那么就可以赋予更大的权重(Enforced by representations from all other locations

五. Non-Local Block

  • Non-Local Block其实是对Non-Local神经网络的一个封装
  • 如下图所示,会发现Non-Local Block的一个很重要的特点:输入的张量X与输出的张量Z维度是一样的,所以Non-Local Block可以很轻易的嵌入其他网络
    block

六.模态融合

  1. 前言
  • 基于以上对Non-Local Block的了解,可以看到输入是同一个张量X,也就是只有一种信号源;那么如果这里输入的是不同的张量XY,就实现了模态的融合

  • 当然,这需要解决一些问题,比如这里张量的维度不再一样了,怎么才能进行不同维度张量的计算

  1. 用公式进行解释
image
  • 这里把前面的x_{j}换成y_{j}即可,但是意义上也发生了一些改变

  • 变量代表的意义x是第一个模态的信号,y是第二个模态的信号,i不再是位置的编号,而是信号x的dimensional index(维度的编号),j是信号y的dimensional index;z_{i}是输出结果

  • 函数的意义f函数用来计算xy之间的关系,g函数计算输入信号xy的representation,是一个简单的线性函数,同时也maps y into the same embedding space,意思就是调整维度大小(通过卷积从M调到K);C(x)还是用来标准化的

  • 关键点:可以看到同时输入xy的只有f函数,所以关键在f函数,文中指出只需要将两个模态的输入信号的channel dimensions调至同样大小即可运算,这也是这篇文章最主要的问题;比如x张量是𝐷1 × 𝐷2 × ... × 𝐷𝑝 × 𝑁,y张量是𝑆1 × 𝑆2 × ... × 𝑆𝑞 ×𝑀,只需要NM的大小相同K即可

  • 详解:能计算的原因其实是利用了张量的特性;举个例子,二维张量是一个矩阵的形式,3X2大小的矩阵与2X4大小的矩阵能相乘的条件是第一个矩阵的列与第二个矩阵的行相同;所以张量相乘需要第一个张量最后一个维度与第二个张量第一个维度相同(如下图)

  • 总结:至此可以总结一下该block的所有特性

    • 首先,可以计算时空信息
    • 其次,输出维度与x维度一致,可嵌入其他网络
    • 最后,其实际作用是通过y来加强x的特征学习
      模态融合

七.一些扩展

  • 文中给出了三种不同的模型,实际想考量的分别是:以传感器为主要信息源,视频为辅的效果;以视频为主要信息源,传感器为辅的效果;对称模型的效果,也就是两种模态所起的作用是相同的


    image

    实验部分略

资源获取

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,110评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,443评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,474评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,881评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,902评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,698评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,418评论 3 419
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,332评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,796评论 1 316
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,968评论 3 337
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,110评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,792评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,455评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,003评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,130评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,348评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,047评论 2 355