2019秋 第13周

一个月把没接触过的GRE考出来了,可喜可贺。按照计划本周回归毕业设计的工作。

本周学习

《Lightweight Network Architecture for Real-Time Action Recognition》(1)

1.png

前三个是使用了VTN结构的网络结构。看出VTN的目的是降低耗时的同时保证一个可靠的正确率。
作者采用了Transformer模型
Transformer网络结构是目前NLP领域发展前景最好的模型。按照NLP问题的大致分类,虽然我要做的是人体动作识别,但可以分为NLP里的“序列标注”(命名实体识别)。
作者选取Transformer正是考虑到了NLP工作的重中之重是选取一个好的特征提取器。
为什么不采用RNN?
当今NLP领域,RNN也逐渐不再吃香,是由于RNN本身结构限制导致的并行计算能力差。RNN某隐层计算的前提是上个层的输出计算完成,形成了序列依赖,无法并行计算。
前一段时间谷歌推出的BERT模型在11项NLP任务中夺得STOA结果,引爆了整个NLP界。而BERT取得成功的一个关键因素是Transformer的强大作用。谷歌的Transformer模型最早是用于机器翻译任务,当时达到了STOA效果。Transformer改进了RNN最被人诟病的训练慢的缺点,利用self-attention机制实现快速并行。并且Transformer可以增加到非常深的深度,充分发掘DNN模型的特性,提升模型准确率。
回到动作识别
原文有一句:在多头自关注力机制中,通过使用注意力机制用其他帧的表示来实现每帧表示,来建模帧与帧之间的时间相互关系。这句话比较抽象。我们可以简单认为“每一帧”类似于NLP任务中的“每一个单词”

Openvino

基于CPU的神经网络开发库。既然已经决定用CPU来做,就必须得掌握Openvino的用法了。

总结

结合其他人的笔记与讨论,坚定了我继续参考VTN的信心。VTN虽然很新,但实际应用潜力非常吸引人。

下周计划

深入理解“知识蒸馏”(暗知识提取)和Transformer模型。
利用Openvino复现VTN(2D动作识别)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。