一、VQA常用的数据集:
1. COCO-QA
COCO-QA数据集中的图像来自于MS-COCO数据集,主要包括123287张图像,其中72738张用于训练,38948用于测试,并且每张图像都有一个question/answer pair,每个answer都是一个单词。这些question/answer pair都是根据MS-COCO中的图像描述自动生成的。根据Answer可以将Question分为四类:object、number、color 和location。由于问题都是自动生成的,所以存在一定的重复率。
2. FM-IQA
FM-IQA也是基于MS-COCO,包含123,287张图像。它的question/answer pair是通过Amazon Mechanical Turk crowd-sourcing platform自动生成的。注释的人可以提出任何和图像相关的问题,使得FM-IQA相对于之前的数据集更加复杂。FM-IQA中的question/answer pair是中文的,之后才将其翻译成英文的。
3. VQA dataset
VQA dataset中的图像主要由两个部分组成:现实图像和抽象卡通图像。VQA-real中有123,287训练图像和81,434测试图像,主要来自于MS-COCO数据集。不同于之前的一些数据集,VQA-real中包含二元问题(i.e, yes/no)。这个数据集中可以进行多选设置,即为每个问题提供17个额外的错误的候选答案。综上所述,VQA-real包含614163个问题,并且每个问题都包含10个来自不同注视者的答案。
4. Visual Genome
Visual Genome包含108,249张图像,这些图像来自于YFCC100M和MS-COCO数据集,平均每张图像有17个Q/A pairs。到目前为止,这是最大的VQA数据集。Visual Genome的问题主要由6种”W”构成:what, where, how, when, who和 why。
5. Visual7W
Visual7W是Visual Genome的一个子集,包含47,300张图像。Visual7W的问题主要由What, Where, How, When, Who, Why, and Which构成。Visual7W的问题是多选问题,每个问题都有四个候选答案。
6. Clever
二、评价方法:
Accuracy
Wu-Palmer Similarity (WUPS)
参考文献:
1. https://blog.csdn.net/lsh894609937/article/details/61645283