阅读笔记-TransVOS: Video Object Segmentation with Transformers

image.png

文章要解决的任务是semi-supervised video object segmentation, 该任务的定义是给定一段图像序列,其中第一帧提供了目标的mask,希望能够通过算法获得其后逐帧的目标mask。

motivation

目前解决该任务的主流方法是基于匹配的方法,其基本思想是计算当前帧与历史帧中目标的相似度,确定当前帧中哪些是前景区域。代表性方法比如STM等,构建当前帧的每个像素与历史帧每个像素的时空attention,作者认为这些方法仅考虑了当前帧信息与历史帧信息的关联,但并没有考虑历史帧之间的关系。同时也忽略了帧内不同像素点的关联。另外一些引入temporal relationships的方法忽略了空间关系。而本文将不同帧的不同像素都作为tokens,显然能将时空信息都同等的纳入考虑,于是选择了transformer结构

该任务还存在的一个问题是 输入表示问题,当前帧只有RGB,但参考帧有RGB和mask,两者显然无法同样表示。大多数方法使用两个独立的encoder处理这两种信息,这种做法会有大量的冗余参数,过于庞大。另一些方法则是从让两种信息共享参数的角度出发,比如RANet利用siamese网络处理RGB信息,然后将reference frames的RGB特征和mask结合,作者认为这类方法直接将mask与高层语义结合,忽略了mask具有的edge和contour信息,另一些方法比如RGMP和AGSS-VOS则给当前帧附加了一个伪mask,然后统一成4通道的信息,从而共享网络参数,但这种方法会存在mask对齐的问题,即使使用flow对mask进行wrap,也会带来大计算量。本文的思路是利用两个很浅的层分别处理两种信息,进行尺度统一再输入到共享网络提取特征。相当于折衷方案吧。

method

文章方法的pipeline如Figure 2所示, feature extractor其实处理了两种不同信息,达到统一形式。Transformer包括encoder 和 decoder和DETR的结构一样, 最后的segmentation模块是将transformer获得的target 模板信息target predictions与当前帧的信息融合对尺度的获得当前帧中目标的mask。

image.png
  • Feature extractor, 一般的multi-stage backbone,如VGG, ResNet都可以拿过来用,但第一个stage需要替换成这里的two-path input layer,以处理不同形式的信息。对于query frame的path就是常规的cnn模块,对于reference sets,因为包含RGB和mask,所以该path设计了3个conv分支,分别处理RGB, mask的前景和mask的背景, 然后将三个分支的特征相加作为该path的输出。两个path的融合是将特征在时间T维度上cat,可以理解为batch上,送入到CNNbackbone上提取特征,最后在backbone的后面加了一个1x1的卷积层用于降维,以减少transformer的计算量。最终只有最后一个stage的输出参与了transformer,但不同stage的输出特征还会再segmentation head中用到。
  • transformer, transformer这一块大体上就是标准的流程,tokens是每个frames的每个pixel, 其pos编码采用的是sinusoidal positional encoding,但其参数包含时间和空间。在decoder部分query只有一个,这时候decoder的self-attention部分不需要计算内积和softmax部分,所以直接就是两个线性层映射。
  • Segmentation,在TAB中主要是利用target predictions计算query上存在目标的可能性,然后和query的transformer融合后特征cat一起用于反推当前帧的mask。E_Q 是transformer 的encoder输出的当前帧的特征。O是decoder的输出。
  • [图片上传失败...(image-ad2694-1623323130370)]
  • Segmentation head,这部分通过skip-connection的fan公式融合了TAB的输出和feature extractor获得的当前帧的表观特征,类似于FPN的反向金字塔方式最终获得当前帧1/4分辨率下的mask。这部分怎么理解呢?我个人觉得E_Q 表示了时域的特征,可以认为是种背景信息, attention则可以认为是一种粗糙的mask,feature extractor的输出则是侧重当前帧的信息,从而在当前帧只能更好的区分出背景和前景区域

Training and Inference, 在training时,由于transformer可以是任意数量的token,所以这部分其实对于reference set的基数没有要求,其限制可能来自于CNN的backbone和segmentation head是否使用BN。训练数据则主要来自于合成数据,然后在真实数据上进行微调。损失函数包括二分类的交叉熵损失和mask的IOU损失。在Inference时,从时间角度考虑,inference sets仅使用了第一帧和前一帧。第一帧比较准确,前一帧是与当前帧关联最大。

Experiments

  • 在与SOTA方法对比时,无论是否使用YouTube辅助数据进行训练,性能优势都很明显,证明了该方法处理VOS任务的优越性。

  • 消融实验部分。

  • Mask utilization,主要分析了mask的不同使用时机的影响。multiply是直接与RGB数据乘在一起,这时候两个path应该一样吧?没看到补充材料,具体不清楚;residual表示(mask+1)*features, 这个时候应该两个path也一样吧?, weights-shared就是本文方法,即mask内容和RGB图共享网络。发现mask在更高层上融合比开始就融合的效果好,而本文其实不是mask的简单融合,而是mask所表示内容的特征抽取,其信息更丰富吧。

  • Reference set, 这部分对比了仅利用第一帧,仅利用前一帧和两帧都利用的性能,但为什么没有对比利用T帧reference set的情况呢?

  • Transformer structure, 对比了是否利用decoder的性能,以及仅利用1层decoder和1层encoder的性能。不利用decoder是怎么做的不是很清楚,猜测是直接将query token作为query prediction?

  • input resolution, 增大分辨率显然分割效果更好,但是会带了tokens的数量激增,计算量的压力更大。

image.png
image.png

Thoughts

Transformer可能适合做图像分割,但对于示例分割这种更依赖局部信息,且需要更强区域鉴别性的任务能否取得好效果呢?但attention像Graph attention network一样,除了刻画相似度,也能反映不相似度,所以原理上应该是可以做的。那么这个方法能不能扩展到处理MOTS任务呢?

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,163评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,301评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,089评论 0 352
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,093评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,110评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,079评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,005评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,840评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,278评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,497评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,667评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,394评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,980评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,628评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,649评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,548评论 2 352

推荐阅读更多精彩内容