问题:
视频预测需要捕捉:1、pixe-wise appearance. 2、motion change。然而现在的方法并不对pixel-wise motion trajectory精确建模,直接预测像素值,导致模糊预测。现在对于设计motion field的方法由于不精确的中间的光流,导致预测帧的人工痕迹。
解决的问题主要是缓解长期预测造成的误差累计
方法:强迫未来帧的预测与pixe-wise的flow(光流)一致。主要的任务:未来帧预测,辅助任务:未来光流预测,形成了闭循环,生成信息互相提供反馈信号为了更好的视频预测。
模型:(光流label是用EpicFlow进行有监督的未来光流预测)
1、概率motion encoder:不同位置出现的动作的不确定性。存在的方法对于场景中所有的物体学习一个隐藏向量z,但是不能区别每个不同物体的像素位置的运动模式,因此生成一个运动的空间联合分布。
2、future-frame generator:预测未来的帧,通过帧判别器,以及估计的预测帧与之前帧(预测的光流)的光流判别器。
3、future-flow generator:预测未来的光流,通过光流判别器,以及外推的帧进入帧判别器。
Trick:batchsize=1
改进:
光流预测和视频预测选用同一个编码器是否不妥,视频预测主要与内容有关,光流预测主要与动作有关,如果把光流预测的输入变为图像间的差会不会更好?