一文读懂AI视频生成的底层逻辑

最近,以CogVideo X 2.0、Kling(可灵)为代表的新一代AI视频生成模型爆火全网。它们能生成几乎以假乱真的宏大场面,让很多人惊叹于AI的进化速度,也引发了关于"AI会不会取代人类创作者"的广泛讨论。

今天这篇文章,我会用最通俗的大白话,不带任何复杂公式,带你彻底搞懂AI视频生成的底层逻辑。你会明白为什么这些新模型这么强,更重要的是,你会清晰地知道AI视频的能力边界在哪里——有哪些事情,至今没有任何AI能够做好,甚至在可预见的未来也很难做到。

视频的数学本质:从像素到高维向量空间

我们先抛开所有复杂的技术细节,从最本质的角度来看AI视频生成。

一个AI视频模型,本质上就是一个"输入文字,输出视频"的函数。而视频是什么?视频就是由一帧帧连续的图片构成的;图片又是什么?图片就是由一个个像素点构成的;每个像素点的颜色,都可以用一组数字来表示(比如RGB三通道就是三个数字)。

如果我们把一张图片所有像素的颜色值,按顺序排成一行,它就变成了一个长长的数字列表——这就是我们常说的向量。一张1024x1024的RGB图片,对应的向量维度就是1024×1024×3=3,145,728维。而一段10秒、24帧的视频,就是 240 个 3,145,728 维度的向量。

我们只能想象三维空间,但数学上,高维空间和二维、三维空间的逻辑是完全一样的。在二维空间中,每个点对应一个二维向量(x,y);在高维空间中,每个点也对应一个高维向量——而这个向量,就对应着一段视频或者一张图片。

如果我们把所有可能的向量都画在这个高维空间里,会得到一个无比庞大的"点的海洋"。在这个海洋里:

  • 有一小部分点,对应的是看起来合理、有意义的视频(比如一只猫在走路,或者一场太空大战)
  • 还有一部分点,对应的是看起来奇怪、不合理的视频(比如长着三个头的猫,或者上下颠倒的世界)
  • 绝大多数点,对应的都是毫无意义的纯噪声

AI视频生成的核心目标,就是在这个茫茫的高维点海中,快速、准确地采样出那些有意义的点。

扩散模型:在噪声中"找"出有意义的视频

既然目标是找到有意义的点,那怎么找呢?我们不可能遍历所有点,也找不到一个数学公式能精确描述所有有意义的点的分布。这时候,深度学习就派上用场了——我们可以用大量已知的视频数据,去拟合学习这个分布。

不过,直接训练一个模型"从纯噪声一步生成完整视频",难度实在太大了。所以科学家们想到了一个聪明的办法:分多步完成,也就是我们常说的"去噪"过程

这个过程其实非常简单。我们以图片生成为例:

  1. 我们先拿一张清晰的图片,然后一步一步地给它加噪声,直到它变成完全的纯噪声
  2. 然后训练一个模型,让它学会"预测"每一步加进去的噪声是什么
  3. 当模型学会预测噪声之后,我们就可以反过来:从纯噪声开始,一步一步地减去模型预测的噪声,最终得到一张清晰的图片

去噪本质上就是一个简单的减法操作。而模型其实就是在学习一个"输入带噪声的图片和时间步,输出预测噪声"的函数。

现在主流的文生图和文生视频模型,用的都是这个核心架构——基于Transformer的扩散模型(Diffusion Transformer,简称DiT)

扩散模型的训练过程:大力出奇迹的缩放定律

那这个"预测噪声"的模型是怎么训练出来的呢?过程其实也不复杂:

  1. 准备海量的图文对数据(也就是一张图片/一段视频,配上对应的文字描述)
  2. 对每张图片/每段视频,主动一步一步地加噪声,并记录下每一步的时间步
  3. 把"带噪声的图片/视频 + 时间步 + 对应的文字描述"作为模型的输入
  4. 模型输出预测的噪声,然后和我们实际加进去的"真实噪声"进行比较,计算损失函数
  5. 通过反向传播算法,不断调整模型的参数,让预测的噪声越来越接近真实噪声

剩下的,就是大力出奇迹了——只要数据足够多、模型足够大、算力足够强,模型的效果就会越来越好。

约束条件:如何让AI生成你想要的内容

现在我们回到高维向量空间的类比。如果没有任何约束,AI可以生成任何合理的视频,解空间非常大。但如果我们加入一段文字描述,比如"一只白色的猫在草地上跑",本质上就是给AI加了一个约束条件——它只能生成符合这个描述的视频,解空间一下子就变小了。

随着技术的发展,现在的AI视频模型已经支持非常丰富的约束条件了。可以用自然语言写出非常精确的约束,这些约束条件叠加在一起,会让解空间变得更小,生成的结果也会更精准。

这也解释了为什么不同的提示词,生成难度天差地别:

  • 提示词"生成一段太空大战":解空间非常大,只要差不多像太空大战就行,AI很容易生成不错的效果
  • 提示词"生成一段太空大战,先出现一艘蓝色的飞船,然后被红色的飞船击中爆炸":解空间变小了一些,AI需要遵循基本的剧情走向
  • 提示词"生成一个人从1数到10,同时伸出对应的手指":解空间极小,几乎只有一个正确解,AI几乎不可能生成完美的结果

对于底层到处是随机变量的扩散模型来说,解空间越小,生成难度就越大,容错空间就越小。这就是AI视频生成的核心矛盾。

为什么有些任务AI永远做不好?解空间极小的挑战

现在你应该能理解,为什么有些事情AI至今做不好了。比如:

  • 精确计数:让AI生成一个人从1数到10,同时伸出对应的手指
  • 精确对口型:让AI生成一个人一字不差地说一段长文本
  • 精确动画:让AI生成一段完全按照脚本要求的、每一帧都精确的科普动画

这些任务的共同特点是:解空间极小,几乎只有一个正确解。而扩散模型的本质是"采样",它擅长在一个大的范围内找到合理的点,但不擅长精确地命中一个特定的点。

我曾经用几个顶尖的AI视频模型,尝试生成"一个人从1数到10,同时伸出对应的手指"的视频,结果惨不忍睹——要么手指数量不对,要么数字说错,要么两者都错。这不是模型不够大、算力不够强的问题,而是底层逻辑的限制。这种每一帧的内容、出现的时间都必须分毫不差,解空间极小,而且很难用提示词精准描述。这种任务,AI暂时还无法完成。

AI暂时无法替代的领域

而AI很难替代的,是那些人工成本相对较小、视觉冲击力不大,但需要和内容深度配合、要求极高精确度的领域:

  • 科普动画、教学动画
  • 以内容为根基的优质影视作品、纪录片
  • 需要精确表达个人观点和情感的自媒体内容

这些领域的核心价值不是"画面好看",而是"内容本身"。AI的创作逻辑是"先出效果,再根据效果调整内容",而这些领域的逻辑是"先有内容,再根据内容制作画面"。这两种逻辑是完全相反的,所以AI很难完美适配。

总结

今天我们用最通俗的语言,讲清楚了AI视频生成的底层逻辑:

  1. 视频本质上是一个高维向量,AI视频生成就是在高维向量空间中采样有意义的点
  2. 扩散模型通过"加噪-预测噪声-去噪"的过程,实现了从噪声到视频的生成
  3. 约束条件会缩小解空间,解空间越小,生成难度就越大
  4. AI擅长解空间大的任务,不擅长解空间极小的任务
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容