双人访谈、相声视频,Sora2都做不到超1分钟稳定生成,这个免费AI工具竟完美解决


分享一个故事,也是12月份我陆陆续续用业余时间研究的一个AI视频生成案例。

故事是这样的,好友超哥一个月前问我:

有没有办法用AI做一个几分钟长度的双人对话交流视频,帮助宣传他的企业,这样他就节省了大量拍摄和找演员的时间,可以低成本做推广了。

这个场景同样可运用在访谈类节目、相声节目等场景。

但是他试过Sora2,生成15秒的双人对话是没啥问题,可是就是因为时长的限制,第二次想要同样保持同样的人物一致性、场景一致性就容易出问题。

超哥说:“如果把这个问题克服了,那解决的问题就太多了。这个社会上很多问题都能得到迎刃而解。”

我根据我的认知,估摸着应该没啥问题,也没多想,一口就答应超哥做个效果出来。

可是在实操过程中,却发现现有的各大主流工具上,做单人视频都挺OK,一旦要双人稳定地不切镜头,交替说话的这种,都认栽了。

这就有点愧对超哥的信任了,正在一筹莫展的时候,无意间看到了一款AI工具,竟然可以完美地解决这个问题。

比如可以丝滑地做出访谈类节目,大幅减少企业主的营销费用:

视频里提到的陕西恒信检测就是超哥的公司,非常Nice的老板。

还比如做这种相声节目场景,只要有搞笑相声剧本,你自己就可以将相声艺术发扬光大:

我所有的担心点,这个工具都帮我解决好了。

接下来我无偿分享下面这个教程给你,也希望你用好这个工具,做出有创意的节目,且行好事。

登录网址 https://x2v.light-ai.top/

目前都是可以免费使用的。

你也看到了还有很有其他生成视频、生成图片的功能,咱们先按下不表。

我们先选择数字人模式。

左边图片区上传图片,注意,如果是希望做双人视频,就一定要上传一张带有两个人的图片。

然后再选择“多角色模式”,并添加角色。

选择角色人物所在的区域,一次圈住一个人。两个人就添加两次。

接下来是配音,支持文本转音频、双人播客、上传音频、直接录音等方式。

文本转音频我看了下,比较适合单人配音,多人还是不太方便。

不过双人播客这个就很适合了,只要把你的口播对话脚本粘贴到下面的文字框中,再生成播客就可以了。

不过,目前根据音色判断,他们也是调用了豆包的AI播客api,只支持固定男女音色,所以如果你想要两位男士的声音,只能移步到扣子空间的播客功能中,有两种双人音色可选。

坐等生成完成,就可以下载音频到本地。

返回主页,回过来再上传这个音频到刚才界面上。上传之后要等个几分钟,这里会进行多角色模式的自动音频分割,我发现如果双人是一男一女,分割声音比较容易。如果两个男声差别不太大的情况下,有可能把A的部分声音分给了B。

分割好了之后,两段音色播放时就可以听出来,每段只保留了一个人声,要注意听一下,如果女角色播的是男声,要自己拖动一下音色块,与另一个对调下。

这些做好之后,再写一个提示词,确定你想要的讨论风格:

最后点击生成视频,等待几分钟就出来了。

在找到这个工具之前,我也试过了不少其他工具。包括Sora2。

Sora2虽然支持创建角色功能,可以保持人物的一致性,但是场景无法保证一致,再加上一次只能生成15秒,所以多个视频组合起来就露馅了。

也是过号称专攻数字人视频生成很厉害的gaga.art,但是看到女主播嘴巴都不咋动,我就放弃了。

甚至还有擅长场景、人物一致性都包圆的Vidu Q2,看着场景图片和人物图片都可以上传,我原本还是挺期待的:

但是结果实在拉胯,场景、人物虽然可以保证不错,但是口唇同步咋就不做好呢?

不过好在,我们还有LightX2V这款免费工具。

AI的意义,从来不是取代人类,而是让那些被遗忘的声音被听见,让那些被忽略的故事被看见。

当小企业主不必为营销费用发愁,当远方的亲人能跨越时空对话,当濒危的文化在数字世界重生。

我才真正理解,为什么超哥说"这个社会上很多问题都能迎刃而解"。

愿我们创造的技术,

永远服务于人们心中最柔软的渴望,

被理解,被记住,被深爱。

如果你对我的系列文章感兴趣,欢迎点赞和关注~感谢支持!ღ( ´・ᴗ・` )比心。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容