VIDEO (LANGUAGE) MODELING: A BASELINE FOR GENERATIVE MODELS OF NATURAL VIDEOS
问题:1、设计合适的目标函数,鼓励系统发现有意义的规律。(平方欧式距离:模糊,对于小的图像变形比较敏感;log-likelihood:高维的密度估计很困难)
2、之前的方法并不能处理较大的帧,并不能适用于较多帧数的数据集,并不能泛化到一般的转换。
难点:预测模型必须学习运动基元和理解物体的局部变形
方法:1、应用简单的模型简化计算(假设空间和时间的平稳性;不对使用的特征和相邻帧的转换做假设)
2、将回归问题转化为分类问题。将每个8*8的patch编码为一个k-means atom
未解决的问题:1、对于较小的时序间隔预测准确。(将pixel-wise的预测转换为高级特征的预测)
2、是否对监督的任务有帮助
改进方向:1、没有对转换精确建模。对内容和转化分别编码。
Unsupervised Learning of Video Representations using LSTMs
问题:视频无监督的学习表示,促进视频的行为分类。
DEEP MULTI-SCALE VIDEO PREDICTION BEYOND MEAN SQUARE ERROR
问题:1、模糊(GAN)
2、卷积仅仅对短期依赖建模(多级形式)
改机:1、循环结构
2、学习到的特征用于行为分类
3、与光流预测结合
Unsupervised Learning for Physical Interaction through Video Prediction
问题:1、之前方法只能做短期预测
2、对于未见物体无法进行预测(缺乏泛化能力)
解决方法:代替预测像素预测动作,不对物体的外貌进行建模。
假设:1、物体只在局部区域运动
2、同一个刚性物体像素的运动相同
改进:精确的提取一个以物体为中心的表示。