双人访谈、相声视频，Sora2都做不到超1分钟稳定生成，这个免费AI工具竟完美解决

分享一个故事，也是12月份我陆陆续续用业余时间研究的一个AI视频生成案例。

故事是这样的，好友超哥一个月前问我:

有没有办法用AI做一个几分钟长度的双人对话交流视频，帮助宣传他的企业，这样他就节省了大量拍摄和找演员的时间，可以低成本做推广了。

这个场景同样可运用在访谈类节目、相声节目等场景。

但是他试过Sora2，生成15秒的双人对话是没啥问题，可是就是因为时长的限制，第二次想要同样保持同样的人物一致性、场景一致性就容易出问题。

超哥说:“如果把这个问题克服了，那解决的问题就太多了。这个社会上很多问题都能得到迎刃而解。”

我根据我的认知，估摸着应该没啥问题，也没多想，一口就答应超哥做个效果出来。

可是在实操过程中，却发现现有的各大主流工具上，做单人视频都挺OK，一旦要双人稳定地不切镜头，交替说话的这种，都认栽了。

这就有点愧对超哥的信任了，正在一筹莫展的时候，无意间看到了一款AI工具，竟然可以完美地解决这个问题。

比如可以丝滑地做出访谈类节目，大幅减少企业主的营销费用:

视频里提到的陕西恒信检测就是超哥的公司，非常Nice的老板。

还比如做这种相声节目场景，只要有搞笑相声剧本，你自己就可以将相声艺术发扬光大:

我所有的担心点，这个工具都帮我解决好了。

接下来我无偿分享下面这个教程给你，也希望你用好这个工具，做出有创意的节目，且行好事。

登录网址 https://x2v.light-ai.top/

目前都是可以免费使用的。

你也看到了还有很有其他生成视频、生成图片的功能，咱们先按下不表。

我们先选择数字人模式。

左边图片区上传图片，注意，如果是希望做双人视频，就一定要上传一张带有两个人的图片。

然后再选择“多角色模式”，并添加角色。

选择角色人物所在的区域，一次圈住一个人。两个人就添加两次。

接下来是配音，支持文本转音频、双人播客、上传音频、直接录音等方式。

文本转音频我看了下，比较适合单人配音，多人还是不太方便。

不过双人播客这个就很适合了，只要把你的口播对话脚本粘贴到下面的文字框中，再生成播客就可以了。

不过，目前根据音色判断，他们也是调用了豆包的AI播客api，只支持固定男女音色，所以如果你想要两位男士的声音，只能移步到扣子空间的播客功能中，有两种双人音色可选。

坐等生成完成，就可以下载音频到本地。

返回主页，回过来再上传这个音频到刚才界面上。上传之后要等个几分钟，这里会进行多角色模式的自动音频分割，我发现如果双人是一男一女，分割声音比较容易。如果两个男声差别不太大的情况下，有可能把A的部分声音分给了B。

分割好了之后，两段音色播放时就可以听出来，每段只保留了一个人声，要注意听一下，如果女角色播的是男声，要自己拖动一下音色块，与另一个对调下。

这些做好之后，再写一个提示词，确定你想要的讨论风格：

最后点击生成视频，等待几分钟就出来了。

在找到这个工具之前，我也试过了不少其他工具。包括Sora2。

Sora2虽然支持创建角色功能，可以保持人物的一致性，但是场景无法保证一致，再加上一次只能生成15秒，所以多个视频组合起来就露馅了。

也是过号称专攻数字人视频生成很厉害的gaga.art，但是看到女主播嘴巴都不咋动，我就放弃了。

甚至还有擅长场景、人物一致性都包圆的Vidu Q2，看着场景图片和人物图片都可以上传，我原本还是挺期待的：

但是结果实在拉胯，场景、人物虽然可以保证不错，但是口唇同步咋就不做好呢？

不过好在，我们还有LightX2V这款免费工具。

AI的意义，从来不是取代人类，而是让那些被遗忘的声音被听见，让那些被忽略的故事被看见。

当小企业主不必为营销费用发愁，当远方的亲人能跨越时空对话，当濒危的文化在数字世界重生。

我才真正理解，为什么超哥说"这个社会上很多问题都能迎刃而解"。

愿我们创造的技术，

永远服务于人们心中最柔软的渴望，

被理解，被记住，被深爱。

如果你对我的系列文章感兴趣，欢迎点赞和关注~感谢支持！ღ( ´･ᴗ･` )比心。