2019秋第13周

一个月把没接触过的GRE考出来了，可喜可贺。按照计划本周回归毕业设计的工作。

本周学习

《Lightweight Network Architecture for Real-Time Action Recognition》（1）

1.png

前三个是使用了VTN结构的网络结构。看出VTN的目的是降低耗时的同时保证一个可靠的正确率。
作者采用了Transformer模型
Transformer网络结构是目前NLP领域发展前景最好的模型。按照NLP问题的大致分类，虽然我要做的是人体动作识别，但可以分为NLP里的“序列标注”（命名实体识别）。
作者选取Transformer正是考虑到了NLP工作的重中之重是选取一个好的特征提取器。
为什么不采用RNN？
当今NLP领域，RNN也逐渐不再吃香，是由于RNN本身结构限制导致的并行计算能力差。RNN某隐层计算的前提是上个层的输出计算完成，形成了序列依赖，无法并行计算。
前一段时间谷歌推出的BERT模型在11项NLP任务中夺得STOA结果，引爆了整个NLP界。而BERT取得成功的一个关键因素是Transformer的强大作用。谷歌的Transformer模型最早是用于机器翻译任务，当时达到了STOA效果。Transformer改进了RNN最被人诟病的训练慢的缺点，利用self-attention机制实现快速并行。并且Transformer可以增加到非常深的深度，充分发掘DNN模型的特性，提升模型准确率。
回到动作识别
原文有一句：在多头自关注力机制中，通过使用注意力机制用其他帧的表示来实现每帧表示，来建模帧与帧之间的时间相互关系。这句话比较抽象。我们可以简单认为“每一帧”类似于NLP任务中的“每一个单词”

Openvino

基于CPU的神经网络开发库。既然已经决定用CPU来做，就必须得掌握Openvino的用法了。

总结

结合其他人的笔记与讨论，坚定了我继续参考VTN的信心。VTN虽然很新，但实际应用潜力非常吸引人。

下周计划

深入理解“知识蒸馏”（暗知识提取）和Transformer模型。
利用Openvino复现VTN（2D动作识别）