任何刷榜的团队肯定不会放弃光流,然而光流在落地时却有着比较明显的缺陷:
CVPR18的一篇spotlight(Tencent AI Lab)《End-to-End Learning of Motion Representation for Video Understanding》中总结的很到位:
•光流提取在空间和时间上都很昂贵。提取的光流必须被写到磁盘上进行训练和测试。ucf - 101数据集[34]它包含成1万个视频,提取所有数据的光流通过TV-L1方法需要一个GPU-day,存储成本超过1 tb,存储他们的原始字段为浮点型(通常是一个线性JPEG规范化需要节省存储成本[33])。
•训练是一个两阶段的管道。在第一阶段,通过基于优化的方法(如TV-L1 [ 42 ])提取每两个连续帧的光流。在第二阶段,在提取的光流数据上训练CNN。这两个阶段是分开的,第二个阶段的信息(如梯度)不能用来调整第一个阶段的过程。