视频摘要生成
1.Microsoft Research Video Description Cor-pus (Chen and Dolan, 2011)
介绍:这个视频语料库是1970年YouTube片段的集合。每个短片的持续时间在10秒到25秒之间,通常描述一个单一的活动或一个简短的序列。该数据集配有多种语言的人工生成的描述;我们使用每个视频大约40个可用的英语描述。
2. Flickr30k (Hodosh和Hockenmaier, 2014)
该数据集有大约30,000张图片,每一张都有5个或更多的描述。
3. COCO2014 (Linet al., 2014)
该数据集包含82,783幅训练图像和40,504幅验证图像,每幅图像都有5个或更多的句子描述
4. MPII Movie Description Dataset (MPII-MD)
MPII-MD包含从94部好莱坞电影中提取的约68000个视频剪辑。每个剪辑都附带一个句子描述,该描述来源于电影脚本和音频描述(AD)数据。广告或描述性视频服务(DVS)是添加到电影中的附加音频曲目,用于为视力受损者描述电影中明确的视觉元素。尽管电影片段是手动与描述对齐的,但由于视觉和文本内容的高度多样性,以及大多数片段只有一个引用语句,因此数据非常具有挑战性。我们使用作者提供的训练/验证/测试分割,每五帧提取一次(视频比MSVD短,平均94帧)。
5. Montreal Video Annotation Dataset (M-V AD)
是另一个最近收集的92部电影中约49000个短片的集合。它类似于MPII-MD,但只包含自动对齐的AD数据。我们使用与MPIIMD相同的设置