一写在前面

未经允许，不得转载，谢谢~~~

这篇文章主要整理一下视频动作识别领域常用的数据集~~~

大概但不严格按照时间顺序排列。

二视频分类数据集

1. HMDB51

来源：HMDB: a large human motion database
类型：Action recognition
年份：2011
论文：paper
数据：51种动作类别，6,766个视频片段；
train_info: {video, class}
其他信息：动作又分为面部动作（smile，laugh，chew，talk）；有其他东西配合的面部动作（smoke，eat，drink）；常见的肢体动作（climb，dive，jump）；有其他东西配合的肢体动作（brush hair，catch，draw sword）；人类交互之间的肢体动作（hug，kiss，shake hands）。

HMDB51之前还有很多视频数据集，但是再早一些的基本都不怎么用到了。

2. UCF101

来源： UCF101
类型：Action recognition,sports
年份：2012
论文: paper
数据：101种动作类别，13,320个视频片段；
train_info ：{ video，class}
其他信息: 有兴趣的话看看这个吧~视频数据集UCF101的处理与加载（未使用深度学习框架）

3. ASLAN

来源：ASLAN:The Action Similarity Labeling dataset
类型：Action recognition, Action Similarity Labeling
年份：2012
论文：paper
数据：432种动作类别，3,697个视频片段；
train_info ：{The id of the first sample，The id of the second sample，The pair label (0/1)，The action label of the first sample，The action label of the second sample}
其他信息: 从1571个视频url中抽取出这3697个视频片段，所以视频的长短不一，有71个小于大于10s的, 187个小于1s的。主要用于判定相似/不相似;

4. Sports-1M

来源： Sports-1M
类型：Action recognition,sports
年份：2014
论文: paper
数据：487种动作类别，1,100,000个视频片段；
train_info ：

{
  "stitle": "Improving Sprint Start Technique", 
  "label487": [ 205 ], 
  "thumbnail": "https://i1.ytimg.com/vi/Drdm1WsRQwA/hqdefault.jpg", 
  "width": 640, 
  "duration": 86, 
  "height": 360, 
  "id": "Drdm1WsRQwA", 
  "source487": "train"
},

5. FCVID

来源： FCVID
类型：Action recognition,Human activities, scene and objects
年份：2015
论文: paper
数据：239种动作类别，91,223个视频片段；
train_info ：{ video,class}

6. ActivityNet

来源 ActivityNet: A Large-Scale Video Benchmark for Human Activity Understanding
类型：Action recognition,Human activities
年份：2015
论文：paper
数据：包含activityNet-100和activityNet-200两个版本，具体包含的视频信息点击官网直接进去看就好了；
train_info ：

{
   5n7NCViB5TU: {
      annotations: [
         {
            label: "Discus throw", segment: [24.25018, 38.08036]
         },
         {
            label: "Discus throw", segment: [97.00073, 106.284]
         }
      ],
      duration: 121.44,
      resolution: "320x240",
      subset: "training",
      url: "https://www.youtube.com/watch?v=5n7NCViB5TU"
   }
}

其他信息: 可以关注一直ActivityNet相关的比赛系列。

7. Youtube-8M

来源：Youtube-8M
类型：Action recognition
年份：2016
论文: paper
数据：4716 种动作类别，8,000,000个视频片段; 2018年最新在原来的版本上移除了一些低质量的视频后的数据集为3862个动作类别，5,600,000个视频片段。
train_info ：{ video，class1，class2...}
其他信息: Youtube-8M是一个多标签分类的数据集。

8. Charades

来源：Charades
类型：Action recognition, Human activities
年份：2016
论文：paper
数据：157种动作类别，9,848个视频片段； 27847 Free-text descriptions, action intervals, classes of interacted objects
train_info ：video-level：{video vector}，frame-level{id framenumber vector}
其他信息: 既包含video-level的分类，又包含frame-level的分类（localizaition）。且这里也不是简单的单标签，而是用vector表示了在各个类上的一个概率分布情况。

9. Kinectics:

来源：Kinetics:including a diverse range of human focused actionss
类型：Action recognition
年份：2017
论文：paper
数据：600种动作类别，500,000个视频片段；
train_info: {video, class}
其他信息: 包括多样多样的人类行为，每个视频在10s左右，用单个class标注；整个数据集又分成Kinetics-600和Kinectics-400两个。

10. AVA

来源：AVA
类型：Action recognition, Atomic visual actions
年份：2017
论文：paper
数据：80个原子视觉动作和时空注释，210,000种动作类别，57,600个视频片段；
train_info ：AVA actions: {video_id, middle_frame_timestamp, person_box, action_id, person_id }
其他信息: 注释的视频都是15分钟长的电影视频，除了AVA actions还有一个AVA Spoken Activity Datasets是基于语音信息的。

11. VLOG

来源：VLOG: From Lifestyle VLOGs to Everyday Interactions:
类型：Action recognition
年份：2017
论文：paper
数据：114，000个视频片段；
train_info ：数据文件下载不了~~

12. HACS(包含了原来的 SLAC )

来源：HACS:Human Action Clips and Segments Dataset
类型：Action recognition, Action Temporal Localization
年份：2017
论文：paper
数据： 200种动作类别，520,000个视频片段；
train_info ：HACS CLIPS：{classname,youtube_id,subset,start,end,label} ， HACS SEGMENTS直接看例子吧：

        "--0edUL8zmA": {
            "annotations": [
                {
                    "label": "Dodgeball",
                    "segment": [ 5.4,11.6 ]
                },
                {
                    "label": "Dodgeball",
                    "segment": [ 12.6, 88.16]
                }
            ],
            "duration": "92.166667",
            "subset": "training",
            "url": "https://www.youtube.com/watch?v=--0edUL8zmA"
        }

其他信息: HACS CLIPS动作识别数据集包含: 1.55M 2-second clips on 504K videos，动作分段数据集包含: 140K complete segments on 50K videos; HACS SEGMENTS动作分割数据集变成了一个新的时序定位Temporal Localization benchmark。

13. 20BN-SOMETHING-SOMETHING

来源 : 20BN-SOMETHING-SOMETHING
类型：Action recognition,Human activities
年份：2017
论文: paper
数据：174种动作类别，108,499个视频片段，新的版本动作不变，视频片段已经增加到220,847个；
train_info ：

{"id":"190776","label":"dropping compass tool onto box","template":"Dropping [something] onto [something]","placeholders":["compass tool","box"]}

其他信息: 这个数据集主要关注动作之间的联系，例如：‘Putting something on a surface，Moving something down’

14. Moments in Time

来源：Moments in Time: A large-scale dataset for recognizing and understanding action in videos
类型：Action recognition
年份：2017
论文：paper
数据：339种动作类别，1,000,000个视频片段；
train_info ：{video，class}
其他信息: 100万时长为3秒的视频片段，包括人、动物、物体或自然现象。专注动作本身，例如opening，张开嘴巴，开门，开花都属于opening这个动作本身。

三写在最后

文章中的基本信息都来自参考资料中给出的网址，这个网址中除了我列出来的视频分类的各个数据集之外还给了视频分析别的任务例如caption等相关的数据集，可以说是非常全面良心了，感谢一波大佬(❁´◡`❁)✲ﾟ

关于视频动作识别相关的数据集暂时先整理这么多吧，很多数据集我自己也没有用到，还是需要多多学习~

很多数据集都有相关的比赛，比如最有名的ACTIVITY NET 等等，大家也都可以关注一下，突然觉得自己还有很多东西没有了解到，菜菜的（/捂脸）

目前的版本写的比较粗糙，等以后接触到了再慢慢更新好了~~~

参考资料

https://www.di.ens.fr/~miech/datasetviz/

视频数据集 | 视频动作识别video recognition常用数据集整理

视频数据集 | 视频动作识别video recognition常用数据集整理

一写在前面

二视频分类数据集

1. HMDB51

2. UCF101

3. ASLAN

4. Sports-1M

5. FCVID

6. ActivityNet

7. Youtube-8M

8. Charades

9. Kinectics:

10. AVA

11. VLOG

12. HACS(包含了原来的 SLAC )

13. 20BN-SOMETHING-SOMETHING

14. Moments in Time

三写在最后

参考资料

推荐阅读更多精彩内容

视频数据集 | 视频动作识别video recognition常用数据集整理

一 写在前面

二 视频分类数据集

1. HMDB51

2. UCF101

3. ASLAN

4. Sports-1M

5. FCVID

6. ActivityNet

7. Youtube-8M

8. Charades

9. Kinectics:

10. AVA

11. VLOG

12. HACS(包含了原来的 SLAC )

13. 20BN-SOMETHING-SOMETHING

14. Moments in Time

三 写在最后

参考资料

推荐阅读更多精彩内容

一写在前面

二视频分类数据集

三写在最后