最近,人工智能领域的领军企业OpenAI发布了一个重磅消息,他们训练出了一个名叫Sora的 视 频生成模型,它可以仅仅根据文字描述,生成长达一分钟的高保真 视 频。
这听起来好像天方夜谭,但是看看下面Sora生成的几段 视 频,你就会立刻意识到,这个模型做到了什么。
是的,这些细节丰富、栩栩如生的 视 频场景,全都是Sora从零生成的,没有使用任何预先录制的 视 频片段,仅仅依靠文字描述就达到了这样逼真的效果。
Sora的魔力在哪里?
Sora之所以能生成逼真的 视 频,离不开几项核心技术的支持:
1. 统一视 频 数据表示
Sora将视 频 数据表示为“碎片”,就像NLP模型中使用的词语标记。这种表示可以应用于不同长度、分辨率和宽高比的 视 频,扩大了模型的训练范围。
2. 变压器架构
Sora使用了类似GPT语言模型的变压器结构。这种结构展现出了惊人的可扩展性和生成能力。随着参数和训练数据的增加,它的生成 视 频 质量不断提升。
3. 高度描述性的字幕
Sora使用DALL-E 3的技术,为视 频 生成详细生动的文字描述,然后进行训练。这大大提高了模型对语言的理解能力,可以更准确地遵循文本提示来生成 视 频。
Sora的独特之处在于,它不仅可以生成 视 频,还具备了许多模拟和理解现实世界的能力:
- 可以生成具有一致3D运动效果的视 频
- 可以在视 频 内模拟简单的物理交互,例如画家在画布上绘画
- 可以生成记忆不同镜头间主体状态的连贯视 频(例如同一个人可以在不同镜头中出现)
- 可以生成模拟数字世界(例如我的世界游戏)的视 频
正是这些能力,使得Sora成为通用世界模拟器迈出的重要一步。它开始理解和模拟人、动物以及环境在物理世界中的存在方式。
Sora的局限还在哪里?
当然,Sora距离成为 完 美 的世界模拟器还有一定差距。它当前存在的主要局限包括:
- 难以准确模拟许多基本物理过程,例如玻璃破碎
- 对物体状态变化的建模不够连贯(例如吃东西后食物没有减少)
- 理解因果关系的能力仍较弱
- 无法持续高保真地生成非常长的视 频
但OpenAI的研究员认为,随着模型运算量和训练数据的持续增加,这些局限都可以逐步被克服。Sora有潜力成长为充当数字世界、人工生命的高性能模拟器,对虚拟现实、数字人等领域都将产生深远影响。
Sora意味着什么?
Sora的问世标志着 视 频 生成AI进入新的阶段。在它之前的视 频 AI模型通常针对特定领域,生成视 频 时间和质量都有限。而Sora作为一个通用模型,开始模拟并理解物理世界的运行方式。
这意味着通过不断增强Sora,我们可以培养出数字世界和数字人类,他们能够和我们一样思考和行动。这可以 彻 底 改变许多行业的生产方式和人才结构。
例如在影视制作领域,Sora意味着概念设计师、导演、编剧甚至演员的部分工作都能被自动化。内容生产成本会大幅下降,更多人都可以参与创作。基于语音和AI创作的元宇宙影视作品也会层出不穷。
游戏和设计师们也可以使用Sora作为想象力助推器,只需要输入文字描述,就可以立刻体验各种创建场景,加速灵感迭代。
总之,Sora开启了数字世界的新纪元,也必将深刻影响许多创意产业的生态。它预示着一个AI与人类共生共荣的美好未来。