图像美学评价+注意力机制(IAQA+ATTENTION)Collaborative and Attentive Learning for Personalized Image Aesthetic...

清华大学在2018IJCAI发表的一篇文章。文章主要提出一个问题,先有的美学评估的方法都是对象不可知的,但是美学这一标准个体间差异很大。因此文章提出一个模型,针对特定用户的偏好,构架美学评价指标。

模型所用的数据库是在AVA的基础上搭建的,在https://www.dpchallenge.com/中,每张图片下边可以看到不同用户的id和该用户对图片的评价,针对特定用户的反馈,给图像重新打分,流程如下:

Data preprocessing

Review classification :使用CoreNLP模型把评论分为四类,第一类:客观地图片评价,例如 “The color is wonderful and the composition is great!”。第二类:主观地图片评价,例如 “I like this photo!”。第三类:模棱两可,但与图片相关的评价,例如“How handsome the boy is!” 。第四类:不知所云的评论,“Do you live in the steeple?”

Review cleaning :把第三类和第四类的评论抛弃掉,并且将第二类的模型重写为第一类的模型, “The photo is good (resp. bad)” 。

Review sentiment counting :运用CoreNLP统计评论中的褒义词和贬义词数量,并因此把评论分成五类

Rating generation:前两类定义为坏的图片后两类定义为好的图片。

有了可用的数据库之后,评价模型如下所示:

Detailed view of our approach


Attentive collaborative filtering network

采用VGG-16对原图提取future map(f_{v} )。bidirectional GRU 模型得到h_{uv},如上图所示。把\sigma (W_{k} h_{uv} +b_{k} )作为卷积核与f_{v} 做卷积得到f_{uv} ,进一步得到attention map:

a_{uv}^{ij}=\frac{e^{f_{uv}^{ij}} }{\sum\nolimits_{i} \sum\nolimits_{j} e^{f_{uv}^{ij}}}  ,同一图片不同评论得到的attention map如下图所示:

Different feature maps extracted with attention maps generated by two users’reviews.

attention map与原图融合后的结果与对应用户的id作为输入,进行一个多任务的学习。最终的损失函数为:

loss

结果y是针对特定用户求出的美学评价分数,z是预测的图片对应的语义标签,\beta 是所求的不针对特定用户的情况下的评价分数。

这篇文章是第一个提出针对特定个人审美的美学评价机制,虽然对我目前的工作没有什么帮助,但是读起来十分有趣

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容