ChatPainter: Improving Text to Image Generation using Dialogue 利用对话来改善文字生成图片

为了解决文字描述中含有多个目标的问题,本文提出了一个利用对话提供更多的额外信息。因为通常一个文本描述是不能够捕获图片中所有的细节信息而且模型也不能够知道图像中的目标对应了描述中的哪一个单词。

仅从效果上看是不好的,但作者实验inception score高

从数据集分析,flower 或者 cub的描述通常只是对单一目标进行详细描述,这样但前的几个任务生成的效果是很好的, 但是,在COCO数据集中,由于存在多个目标,而且在一个描述中不包含所有目标的前景背景的细节描述。


像这样的图片,相同的COCO描述,完全不同的图片,缺少更多细节描述

具体操作

提供一个对话接口,一个提问者,这能看到文本描述,一个回答者,有文本和图像。可以用到任何生成模型上。感觉实质上是丰富了文本描述从而得到更多细节的图像信息。

本篇论文将对话接口直接用于stackGan中,贡献点略少。

可尝试用于之后自己的生成模型中

在stageI 和stage II中都加入了这个额外的描述


损失函数中加入了对话描

结果如图


inception Loss
效果不如通过预测语义布局达到效果的之前个人简书有介绍

文字预测语义布局来生成图片链接(https://www.jianshu.com/p/e374182606c5

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容