3、基于彩色序列图像、光流图像以及声音的视频检测分类
在前述的基础上加入了声音信,与之前不同的在于网络结构声音融合的差异。如图所示分别采用不同的网络层,参考文献见最后。
4、其它视频检测分类
光流信息是需要提前提取出来了,因此有学者采用3D卷积获取图像的光流信息,以减少单独处理光流的时间,如图所示。
除了上述的彩色图像、光流、声音以外还包括语义信息,主要是相比声音信息,声音存在较大的噪声和音声的片段干扰性大等不足。
5、总结
基于深度学习的视频检测分类的数据有YouTube-8M、UCF-101、CCV等数据库,采用的方法主要取决于特征的选择不同,网络结构不同,全连接层融合后的输出不同。精度可以达到80%到90%,网络层次越大,结构越复杂可能精度会提升,然而带来的就是实时性就变差。因此选择合适的网络层,网络结构优化可以带来较好的提升。
参考文献
1、Attention Clusters: Purely Attention Based Local Feature Integration for Video Classification
2、Modeling Multimodal Clues in a Hybrid Deep Learning Framework for Video Classification
3、Multi-Stream Multi-Class Fusion of Deep Networks for Video Classification
4、Fine-grained Video Classication and Captioning
5、Visual Data Synthesis via GAN for Zero-Shot Video Classification