A2-RL:Aesthetics Aware Reinforcement Learning for Image Cropping

https://arxiv.org/pdf/1709.04595.pdf
最近在搞图像的auto-crop,不得不说这个领域是真的很玄学,美不美谁也说不准。本文是中科院的成果,用强化学习做的,很基础的强化学习的思路,感觉还是work的。此外最大的好处就是中国人写的paper嘛,可读性就是好,而且这篇写的也蛮细的。
整体说呢,就是把image cropping的问题定义为一个序列决策的过程。逐次进行最多t次决策,每一次决策在13中action中选择一种产生下一步的图像,也就是新的crop window了,如果action是termination或者已经决策了t次了就停止,输出结果。整体流程如下:

image.png

具体的流程就不详述了,这里主要列一下作者为了更好的解决这个RL问题的小设计。
1、因为在做一步一步的做image crop的时候,显然前面的step中的精确程度是更重要的,要不上来就跑偏了后面也没得救了。所以这里作者施加了一个与当前时间步t相关的reward惩罚项
image.png

2、同时,基于认为好看的图像的aspect ratio是有限制的假设,又对不符合比例标准的window添加了一个reward的惩罚:
image.png

这里的0.001和nr应该都是根据经验获得的。
3、进入agent的特征是由local和global两个部分组成的,local就是当前window提取出来的卷积特征,global是原始图像的卷积特征。但我没能理性的理解这样做的原因。

算法总体过程如下:


image.png

作者也开源了代码,我再1060的单卡上跑了一下,速度大概是这样的:


image.png

有很多张图像是没有跑两个step就到了terminal的。
选一张我觉得切的好的展示一下吧:


image.png

至于整体的效果,只能说是各花入各眼了~但是总是很容易就termianl了,会给我一种自己拍照水平很能打的错觉。:p)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 前几天去黄金海岸,天是蓝的,海是蓝的,风是咸的。 回家后,直接用瓶子喝了最后一瓶红酒,多了,好像也醉了。本想讲一个...
    Toby冯阅读 320评论 1 2
  • 你是否也有同感——有些事情,偷偷地做,要比正经地做更加有趣。 别想多了,我说的是拍照片。 我拍过的最满意的照片,都...
    时光影记阅读 1,091评论 0 0
  • 今天改写完header文件之后make时发现提醒缺少源文件开头,在经过整理后发现原来是因为在编写完之后没有空出一行...
    Neoyyy阅读 453评论 0 0