腾讯优图CVPR 2018论文:图片去模糊及快速肖像处理等多项技术解读

姓名:高新诚 学号:17021223282

来源:雷锋网

【嵌牛导读】:CVPR 2018 将在美国盐湖城举行。腾讯优图实验室继在 ICCV 有 12 篇论文被收录(含 3 篇口头报告)后,在今年的 CVPR 2018 上有多篇论文被录用,也凭借这一点在雷锋网学术频道 AI 科技评论旗下数据库项目「AI 影响因子」中有相应展示。

【嵌牛鼻子】:图像处理

【嵌牛正文】:

腾讯优图团队将对其中两篇论文做详细介绍,并简要介绍其它论文。

解密运动模糊:走向实用的非特定场景图片去模糊技术

在慢速曝光或快速运动拍摄照片时,图像模糊常常困扰着照片拍摄者。优图实验室的研究人员开发了可以恢复模糊图像的有效新算法。

在此之前,图像去模糊一直是图像处理中困扰业界的难题。图像模糊产生的原因可能非常复杂。比如,相机晃动,失焦,拍摄物体高速运动等等。现有的图片编辑软件中的工具通常不尽如人意,例如,Photoshop CC 中的「相机抖动还原」工具,只能处理简单的相机平移抖动模糊。这种类型的模糊在计算机视觉业内被称为「均匀模糊」。而大部分模糊图片并不是「均匀模糊」的,因而现有图片编辑软件的应用十分有限。

腾讯优图实验室的新算法,可以处理非特定场景中的图片模糊。算法基于一种被称为「动态模糊」的模糊模型假设。它为每个像素的运动单独建模,因而可以处理几乎所有类型的运动模糊。比如,上图中,由于相机抖动而产生的平移和旋转,每个人物的运动轨迹都不相同。经过腾讯优图实验室的新算法处理后,图片已经恢复到几乎完全清晰,甚至背景中的书籍上的字也清晰可辨。

据腾讯优图实验室的研究员介绍,腾讯优图采用的方法采用的基本技术是深度神经网络。在经历了对数千对模糊/清晰的图像组的处理训练后,强大的神经网络自动学习了如何将模糊的图像结构清晰化。

尽管使用神经网络进行图片去模糊并不是一个新想法,但腾讯优图实验室别出心裁的将物理直觉结合进来以促进模型训练。在腾讯优图实验室新算法的论文中,其网络模仿了一种被称为「由粗到精」的成熟的图像恢复策略。该策略首先将模糊图像缩小成多种尺寸,然后从比较容易恢复的较小而偏清晰的图像出发,逐步处理更大尺寸的图片。每一步中产生的清晰图像则可以进一步引导更大的图像的恢复,降低了网络训练的难度。

AI 肖像艺术家:以干净优雅的方式快速处理人像属性

修改人像照片中的脸部属性(不仅是美化)非常困难。艺术家通常需要对人像做很多层面上的处理才能使得修改后的图像自然美观。AI 可以接管这些复杂的操作吗?

来自贾佳亚教授领导的腾讯优图实验室的研究人员提出了「自动人像操纵」的最新模型。借助此模型,用户只需简单地提供所需效果的高级描述,模型就会根据命令自动呈现照片,例如,使他变年轻/变老等。

完成这项任务,面临的主要挑战是,无法收集到「输入-输出」的样本用于训练。因此,无监督学习中流行的「生成对抗」网络通常用于此任务。然而,优图团队提出的这种方法并不依赖于生成对抗网络。它通过生成带噪声的目标来训练神经网络。由于深度卷积网络的去噪效果,其网络的输出甚至优于所学习的目标。

「生成对抗网络是一个强大的工具,但它很难优化,我们希望找到更简单的方法来解决这个问题,我们希望这项工作不仅能减轻艺术家的负担,还能减轻训练模型的工程师的负担。」腾讯的研究人员说。

据介绍,该模型的另一个吸引人的特点是它支持局部模型更新,也就是说,当切换不同的操作任务时,只需要替换模型的一小部分。这对系统开发人员十分友好。而且,从应用层面,也使得应用可以「增量更新」。

即使相片中的人脸没有裁剪并且很好地对齐,该模型也可以隐式地参加正确的面部区域。在很多情况下,用户仅仅将原始照片输入给模型就足以产生高质量的结果。甚至将视频一帧一帧地输入模型中,也可以处理整段视频中人脸的属性。

除以上两篇,腾讯优图实验室其余入选 CVPR2018 的文章简介:

1、Referring Image Segmentation via Recurrent Refinement Networks

根据自然语言的描述来分割图片的指定区域是一个充满挑战的问题。此前的基于神经网络的方法通过融合图像和语言的特征进行分割,但是忽略了多尺度的信息,这导致分割结果质量不高。对此,我们提出了一种基于循环卷积神经网络的模型,在每一次迭代过程中加入底层卷积神经网络的特征来使得网络可以逐渐捕获图片不同尺度下的信息。我们可视化了模型的中间结果并且在所有的相关公开数据集中都达到了最佳水平。

2、Weakly Supervised Human Body Part Parsing via Pose-Guided Knowledge Transfer

通过由姿态引导的知识迁移进行弱监督及半监督的人体部位分割

人体部位解析,或称人类语义部位分割,是许多计算机视觉任务的基础。在传统的语义分割方法中,我们需要提供手工标注的标签,以便使用全卷积网络(FCN)进行端到端的训练。虽然过去的方法能达到不错的效果,但它们的性能高度依赖于训练数据的数量和质量。在本文中,我们提出了一种获得训练数据的新方法,它可以使用容易获得的人体关键点的数据来生成人体部位解析数据。我们的主要想法是利用人类之间的形态相似性,将一个人的部位解析结果传递给具有相似姿势的另一个人。使用我们生成的结果作为额外的训练数据,我们的半监督模型在 PASCAL-Person-Part 数据集上优于强监督的方法 6 个 mIOU,并且达到了最好的人类部位解析结果。我们的方法具有很好的通用性。它可以容易地扩展到其他物体或动物的部位解析任务中,只要它们的形态相似性可以由关键点表示。我们的模型和源代码将在之后公开。

3、Learning Dual Convolutional Neural Networks for Low-Level Vision

基于双层卷积神经网络处理低层视觉的方法

本文提出了一个双层卷积神经网络来处理一些低层视觉问题,比如图像超分辨率、保边缘的图像滤波、图像去雨、图像去雾等。这些低层视觉问题通常涉及到目标结果的结构和细节部分的估计。受此启发,本文提出的双层卷积神经网络包含两个分支,其中这两个分支可端到端的估计目标结果的结构和细节信息。基于估计的结构和细节信息,目标结果可分别通过特定问题的成像模型来得到。本文所提出的双层卷积神经网络是一个一般性的框架,它可以利用现有的卷积神经网络来处理相关低层视觉问题。大量的实验结果表明,本文所提出的双层卷积神经网络可以应用于大多数低层视觉问题,并取得了较好的结果。

4、GeoNet: Geometric Neural Network for Joint Depth and Surface Normal Estimation

GeoNet:通过几何神经网络进行联合的深度和平面法向量估计

在这篇论文中,我们提出了几何神经网络,用于同时预测图片场景的深度和平面法向量。我们的模型基于两个不同卷积神经网络,通过对几何关系的建模来循环迭代更新深度信息和平面法向量信息,这使得最后的预测结果有着极高的一致性和准确率。我们在 NYU 数据集上验证了我们提出的几何神经网络,实验结果表明我们的模型可以精确预测出几何关系一致的深度和平面法向量。

5、Path Aggregation Network for Instance Segmentation

通过路径聚合网络进行实例分割

在神经网络中,信息传递的质量是非常重要的。在本文中,我们提出了路径聚合神经网络,旨在提升基于区域的实例分割框架中信息传递的质量。具体来讲,我们构建了自下而上的通路来传递储存在低层神经网络层中精确的定位信息,缩短了底层网络和高层网络之间的信息传输距离,增强了整个特征层级的质量。我们展示了适应性特征池化,它连接了区域特征与所有的特征层级,进而使得所有有用的信息都能够直接传递到后面的区域子网络。我们增加了一个互补的分支去捕捉每个区域不同的特性,最终提升了掩膜的预测质量。

这些改进十分易于实现,而且增加了较少的额外计算量。这些改进帮助我们在 2017 COCO 实例分割竞赛中取得第一名,在物体检测竞赛中取得第二名。而且我们的方法也在 MVD 和 Cityscapes 数据集中取得最好成绩。

6、FSRNet: End-to-End Learning Face Super-Resolution with Facial Priors

FSRNet:基于先验信息的端到端训练的人脸超分辨率网络

本文由腾讯优图实验室与南京理工大学主导完成,并入选 Spotlight 文章。人脸超分辨率是一个特定领域的超分辨率问题,其独特的人脸先验信息可以用来更好超分辨率人脸图像。本文提出一种新的端到端训练的人脸超分辨率网络,通过更好的利用人脸特征点热度图和分割图等几何信息,在无需人脸对齐的情况下提升非常低分辨率人脸图像的质量。具体来说,本文首先构造一个粗粒度超分网络恢复一个粗精度的高分辨率图像。其次把该图像分别送入一个细粒度超分编码器和一个先验信息估计网络两条分支。细粒度超分编码器抽取图像特征,而先验网络估计人脸的特征点和分割信息。最后两条分支的结果汇合送入一个细粒度超分解码器重构出最终的高分辨率图像。为了进一步生成更真实的人脸,本文提出人脸超分辨率生成对抗网络,将对抗思想融入超分网络中。另外,我们引入人脸对齐和人脸分割两种相关任务,作为人脸超分的新的评估准则。这两种准则克服了传统准则(比如 PSNR/SSIM)在数值和视觉质量不一致的问题。大量实验显示,本文提出的方法在处理非常低分辨率人脸图像时,在数值和视觉质量两方面都显著优于以往超分方法。

7、Generative Adversarial Learning Towards Fast Weakly Supervised Detection

基于生成对抗学习的快速弱监督目标检测

该论文提出一种面向快速弱监督目标检测的生成对抗学习算法。近年来弱监督目标检测领域有着大量的工作。在没有人工标注包围盒的情况下,现有的方法大多是多阶段流程,其中包括了候选区域提取阶段。这使得在线测试的速度比快速有监督目标检测(如 SSD、YOLO 等)慢一个数量级。该论文通过一种新颖的生成对抗学习算法来加速。在这过程中,生成器是一个单阶段的目标检测器,引入了一个代理器来挖掘高质量的包围盒,同时用判别器来判断包围盒的来源。最后算法结合了结构相似损失和对抗损失来训练模型。实验结果表明该算法取得了明显的性能提升。

8、GroupCap: Group-based Image Captioning with Structured Relevance and Diversity Constraints

基于组群的带结构化相关性和差异性约束的图像自动描述

该论文提出了一种基于组群图像结构化语义关联性分析的图像自动描述方法(GroupCap),对图像间的语义相关性和差异性进行建模。具体而言,该论文首先利用深度卷积神经网络提取图像的语义特征并利用提出的视觉解析模型构建语义关联结构树,然后在结构树基础上采用三联损失和分类损失对图像间语义关联性(相关性和差异性)进行建模,最后将关联性作为约束来引导深度循环神经网络生成文本。该方法新颖且有效,很好解决了当前图像自动描述方法对于生成结果精确度不高且判别性不强的缺陷,并在图像自动描述的多项指标上取得较高的性能。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,080评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,422评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,630评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,554评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,662评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,856评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,014评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,752评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,212评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,541评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,687评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,347评论 4 331
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,973评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,777评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,006评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,406评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,576评论 2 349

推荐阅读更多精彩内容

  • 文章主要分为:一、深度学习概念;二、国内外研究现状;三、深度学习模型结构;四、深度学习训练算法;五、深度学习的优点...
    艾剪疏阅读 21,807评论 0 58
  • 作者所在班级1402012 作 者 姓 名符子龙 作 者 学 号14020120006 《基于深度学习的视网膜OC...
    Jerooooome阅读 5,578评论 0 2
  • 事情是这样的,公司是用的第三方支付工具ping++,工作需要将他们文档中的银行编号和银行名称转成Json字符串放在...
    华子dev阅读 1,763评论 2 8
  • 今天一群志同道合的朋友相约一起在尚泽会所午饭,席间朋友提及,为了阅读我对嘉儿与辰辰成长的记录,还专门下了简书...
    张仁女阅读 658评论 0 3
  • 浅夏第一次遇见宇青的时候浅夏还小,但宇青已经不小了。宇青在雨里撑着伞,他们各打各的伞,小心翼翼地开着玩笑,扯着无聊...
    光军RADIA阅读 323评论 0 1