时域卷积网络
参考论文:Temporal Convolutional Networks for Action Segmentation and Detection
1. 任务和模型简介
本文讲述了对于视频中人类动作片段的切分与检测任务应用了TCN的编码器解码器架构。Action segmentation and detection任务主要是用于将视频中人物在不同时段的动作切分出来,并进行识别。据说在监控和机器人行为的研究中比较有用。
TCN全称为Temporal convolutional network,中文为时域卷积网络,融合了时域上的建模能力,卷积的低参数量下的特征提取能力。本文提出的TCN encoder-decoder如下图所示。
使用TCN对任务进行建模的好处:
1.比基于LSTM的循环神经网络模型训练更快,因为RNN存在时序上的计算连接;
2.TCN更加擅长捕捉时序上的依赖关系,而且因为使用了卷积,可以捕捉到局部信息。
3. 感受野的尺寸可以灵活调整。
2. 模型剖析
基本TCN的特征:
- 计算是layer-wise的,即每个时刻被同时计算,而非时序上串行。
- 卷积是跨时域进行的。
- predictions at each frame are a function of a fixed-length period of time, which is referred to as the receptive field。
- 可实现接收任意长度的输入序列作为输入,同时将其映射为等长的输出序列,这方面比较像RNN。
TCN的基本结构:
TCN的输入:视频特征的集合,从视频的每一帧中提取。对于时刻t来说,对应了第t个帧,每个时刻会提取出来一个特征向量。对于整个视频,提取出来的是一个特征向量的序列。对于每一帧,都有一个对应的正确的动作标签(action label)。输出是和输入等长的序列。
因果卷积(causal convolution)convolutions where an output at time t is convolved only with elements from time t and earlier in the previous layer。
扩大卷积(dilated convolution)是通过跳过部分输入来使filter可以应用于大于filter本身长度的区域。等同于通过增加零来从原始filter中生成更大的filter。
3. FCN 全卷积网络
FCN同CNN的区别:
全连接层转换为卷积层:
假设一个卷积神经网络的输入是224x224x3的图像,一系列的卷积层和下采样层将图像数据变为尺寸为7x7x512数据形式。AlexNet使用了两个尺寸为4096的全连接层,最后一个有1000个神经元的全连接层用于计算分类评分。我们可以将这3个全连接层转化为卷积层:
- 针对第一个连接区域是[7x7x512]的全连接层,令其滤波器尺寸为(7*7),这样输出数据体就为[1x1x4096]了。
- 针对第二个全连接层,令其滤波器尺寸为(1*1),这样输出数据形状为[1x1x4096]。
- 对最后一个全连接层也做类似的,滤波器尺寸为(1*1),最终输出数据形状为[1x1x1000]。