一句话概括:spacetime patches of video and image latent codes的diffusion transformer架构
OpenAI发布的东京街头漫步视频和其创作者Sora模型无疑是春节期间大模型领域的重磅新闻。
视频的逼真细节,例如皮肤的皱纹斑点,以及不同视角镜头下视频的三维空间一致性和物体持久性令人惊叹。在OpenAI公开的报告中明确提及不会涉及具体模型实现细节,但透过其中的描述仍可对模型实现方法略窥一二。
技术报告主要包括两点:一是如何将不同类型的视频数据转换为统一的表征,二是模型能力和局限性的定性评估方式。
输入数据转换方式
数据输入的核心关键词是spacetime latent patches。不同于之前的视频生成方法,Sora的输入包含不同时长、分辨率、宽高比的视频以及图像,并通过压缩网络统一转换为spacetime latent patches作为网络输入,类似于语言模型中的token。压缩网络将各类视觉数据变换到隐空间,再提取成一个spacetime patches的序列(图2)。
模型结构的核心关键词是diffusion transformer,报告提到spacetime patches会喂入transformer结构的网络,同时模型采用diffusion model,由噪声生成多帧数据(图3),因此很多人推测模型结构类似DiT。
模型能力&局限性
能力:
视频生成:Sora能够生成长达一分钟的高清视频(1920x1080p),同时由于输入数据没有进行宽高比的裁剪,视频具有更优的构图取景。
视频理解:文本生成视频上,使用了DALL·E 3 的re-captioning技术,训练了字幕生成器模型,同时使用它为训练集中的所有视频生成文本字幕。推理阶段还会 用GPT 将简短的用户提示转换为详细文字描述发送到视频模型。
输入图像生成视频
时间帧向前或向后扩展视频
视频编辑
视频连接:Sora可以在两个输入视频间进行插值,从而具有完全不同主题和场景构成的视频之间创建无缝过渡的转场
局限性:
无法理解基本相互作用的物理过程,例如破碎。
长时间视频中存在不连贯性或对象的自发出现。
openai技术报告:https://openai.com/research/video-generation-models-as-world-simulators