最值得收藏的学习资料!CVPR 2018 —回顾、笔记和趋势(一)

 技术前沿

来源:olgalitech

编译整理:萝卜兔

今年的CVPR落下帷幕,会议总计接收了900+论文,我们整理了CVPR相关的内容成笔记,和大家一起分享。


三天的会议主要分享了以下主题:

特别会议:Workshop Competitions

物体识别和场景理解

图像中的人物分析

3D视觉

CV中的机器学习

视频分析

计算摄影

图像运动与跟踪

应用



有价值的趋势和主题:

视频分析:视频描述、动作分类、行人运动轨迹预测

虚拟空间中机器定向移动以及完成特定任务

视频行人再识别

风格迁移(GAaaaNs)

Adversarial attacks analysis

图像增强——消除阴影

自然语言与计算机视觉的结合

图像和视频显著性分析

边缘设备的高效计算

CV中的弱监督学习

领域自适应

可解释的机器学习

强化学习在CV中的应用

关于数据标记


笔记分为以下几个部分:

场景分析和问答

图像增强与操作

CV中的各种网络结构

目标驱动导航,室内3D场景

与人相关的分析

高效的DNN

数据和CV

场景分析和问答


会议主题

Embodied Question Answering

重点

向可以看、说话、行动以及推理的机器人迈进

框架和技术细节

论文连接:

https://arxiv.org/abs/1711.11543

视觉模型

以CNN作为编码器,使用多任务学习像素到像素预测

语言模型:2层 LSTMs

导航模型:

“Planner”选择动作(左、右、前、后)

“controller”执行预设动作多次

问答模型

检查最后5帧,基于图像与问题的相似度,采用注意力机制计算特征编码,将这与LSTM编码相结合,并在172个可能答案空间上输出softmax。

数据

EQA数据集:rgb图像、语义分割掩码、深度图、地图;12种房型:厨房、起居室...50种对象类型

计算机生成的问题:

https://github.com/facebookresearch/House3D

应用

仿人类机器人



会议主题

Learning by Asking Questions(LBA)

重点

让机器自己决策它们需要什么信息以及如何获取,优于监督学习

框架和技术细节

给出一些图像,通过询问问题,获得答案的方式进行监督

问题生成模型是一个图像描述模型,使用图像特征为条件的LSTM来生成问题

问答模块是标准的VQA模型

数据

CLEVR:70k images,700image-QA

参考

https://research.fb.com/publications/learning-by-asking-questions/

会议主题

Im2Flow: Motion Hallucination from Static Images for Action Recognition

重点

将静态图像转换为光流图,从而预测单个照片隐含的没有观察到的未来的运动趋势,有助于静态图像的动作识别

框架和技术细节

编码器-解码器CNN、新颖的光流编码将静态图转换为流。

数据

从UCF-101 HMDB-51的视频数据中抽取了70万帧

应用

图像以及视频分析、字幕、动态分析和动作识别



会议主题

Actor and Action Video Segmentation from a Sentence

重点

动作是由一句话来指定,而不是以前的一些词;做动作的主体不限于人,可以是动物等其它目标

框架和技术细节

论文:

https://arxiv.org/abs/1803.07485

代码:

https://kgavrilyuk.github.io/publication/actor_action/

模型由3个部分组成:

CNN编码输入的句子

3DCNN对视频进行编码

解码器进行像素分割

通过将从编码的文本表示生成的动态滤波器与编码的视频表示进行卷积来进行解码。相同的模型应用于Flow输入。

数据

使用超过7500种自然语言描述扩展了两个流行的actor和action数据集

应用

视频分析、索引、字幕



会议主题

Egocentric Activity Recognition on a Budget(EAR)

重点

使用RL来学习具有差异能量分布的策略

框架和技术细节

论文:http://web.it.usyd.edu.au/~framos/Publications_files/egocentric-activity-recognition%20%282%29.pdf

智能眼镜的电池和处理能力有限

数据

数据集:

http://sheilacaceres.com/dataego/

应用

将AI用于辅助生活和护理服务(活动跟踪和分类,使用智能眼镜的数据)EAR可以提供提醒、警告,帮助有认知障碍的人规避风险



会议主题

Emotional Attention: A Studt of Image Sentiment and Visual Attention

重点

第一个研究图像情感属性和视觉注意力之间联系的研究,创建了MOtional注意数据集

框架和技术细节

论文和代码:

https://nussesame.top/emotionalattention/

设计一个用于显著性预测的DNN,包括一个学习图像场景的空间和语义上下文的新子网络结构

CASNet:通道加权子网络(虚线橙色矩形内)为每个图像计算一组1024维特征权重,以捕获特定图像的语义特征的相对重要性。

灰色虚线箭头说明如何通过子网络修改图像内不同区域的相对显著性。

数据

EMOd(1019张图像), NUSEF(751张), CAT2000(2000张)

应用

视频监控、描述



会议主题

Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation

重点

通过定位文本边界框的角点并在相对位置分割文本区域来检测场景文本

框架和技术细节

论文:

https://arxiv.org/abs/1802.08948

结合目标检测和语义分割的思想,并以另一种方式应用它们

给定图像,网络通过角点检测和位置敏感分割输出角点和分割图。然后通过采样和分组角点生成候选框。最后利用分割图和NMS选择候选框。

数据

ICDAR2013,ICDAR2015,MSRA-TD500, MLT and COCO-Text

应用

从自然场景图像中提取文本信息:产品搜索、图像检索、自动驾驶



会议主题

Neural baby talk

重点

采用物体检测器检测图像中的物体(visual words),然后在每个word的生成时刻,自主决定选取text word(数据集中的词汇) 还是 visual word(检测到的词汇)。

框架和技术细节

论文:

https://arxiv.org/pdf/1803.09845.pdf

数据

Coco dataset

应用

图像字幕任务

图像增强

会议主题

xUnit: Learning a Spatial Activation Function for Efficient Image Restoration

重点

显著减少学习参数的数量,对于超分辨率和去噪结构,参数的数量减少了一半以上。

框架和技术细节

论文:

https://arxiv.org/abs/1711.06445

与ReLUs和sigmoid这样应用广泛的逐点激活函数不同,本文实现了具有空间连接的可学习非线性函数,使得网络能够捕获更加复杂的特征,实现更少的层数达到相同的性能。

数据

BSD68, Rain12.

应用

超级分辨率、降噪



会议主题

Deformation Aware Image Compression

重点

编码器不需要过多比特来描述精细结构的精确几何形状,更多的比特用在重要部分,保存图像更多的的细节。

框架和技术细节

论文:

https://arxiv.org/abs/1804.04593

易于并入任何CODEC

由于人类对轻微的局部平移没有什么察觉,作者提出了一种变形不敏感的SSD度量:变形感知SSD。

数据

Berkley分段数据集、Kodak数据集

应用

压缩



会议主题

Residual Dense Network for Image Super-Resolution

重点

他的目标是充分利用原始低分辨率(LR)图像的特征

框架和技术细节

论文:

https://arxiv.org/abs/1802.08797

RDB

数据

DIV2K,Set5, Set14, B100, Urban100, Manga109

应用

照片编辑app



会议主题

Attentive Generative Adversarial Network for Raindrop Removal from a Single Image

重点

提出将视觉注意注入生成网络和判别网络,特别注意雨滴区域。

框架和技术细节

论文:

https://arxiv.org/abs/1711.10098

混合GANs、LSTM和Unet

数据

作者自己创建的数据集(1k图像对)

应用

照片编辑app



会议主题

Burst Denoising with Kernel Prediction Networks

重点

CNN的预测可对齐和去噪帧的空间变化内核,有趣的数据生成方法

框架和技术细节

论文:

https://arxiv.org/abs/1712.02327

数据

合成数据,使用来自公开图像数据集的图像,修改图像引入接近真实图像突发特征的合成失调和噪声。

应用

照片编辑app



会议主题

Crafting a Toolchain for Image Restoration by Deep Reinforcement Learning

重点

由专门从事不同任务的小规模CNNs组成的工具箱与RL:学习策略以选择适当的工具来恢复损坏的图像。

框架和技术细节


项目链接:

http://mmlab.ie.cuhk.edu.hk/projects/RL-Restore/

数据

DIV2K

应用

照片编辑app

原文链接:

https://olgalitech.wordpress.com/2018/06/30/cvpr-2018-recap-notes-and-trends/

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,313评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,369评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,916评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,333评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,425评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,481评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,491评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,268评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,719评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,004评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,179评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,832评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,510评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,153评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,402评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,045评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,071评论 2 352

推荐阅读更多精彩内容