AI 写真的最后一块拼图:只要“替身”,不要“指令”

走到今天,AI 生图其实已经解决了一个最大的难题:“他是谁”

现在的云端大模型(像 Midjourney、NanoBanana 等)已经非常强了。你不需要训练什么复杂的模型,往往只需要上传一张参考图,AI 就能把人物的脸锁得死死的。哪怕换个场景,那张脸依然能保持一致。

脸的问题解决了,但“身体”的问题更严重了。

现在的尴尬是:脸是活的,身子是死的。你想让这个角色摆个复杂的动作,光靠写提示词根本写不明白。你写了五行字描述“身体前倾重心在左脚”,AI 生出来的图,人还是像飘在半空中的纸片。

所以,AI 写真工业化的最后一步,不是更强的模型,而是把“动作”独立出来。

缺席的“替身演员”

如果把生图比作拍电影,现在的 AI 只有编剧(提示词)和主演(人物参考)。它缺一个“替身演员”。

好莱坞拍大片时,大明星只负责露脸,那些高难度的动作,都是替身做的。我们的「真人实拍动作库」,就是在这个流程里扮演“替身”。

未来的 AI 写真流程应该极其简单,只有三个要素:

提示词:决定光影和氛围。

人物参考:云端模型搞定,决定长相

动作资产:我们搞定,决定物理状态

以前我们试图用文字去控制动作,这本身就是错的。文字是管剧情的,图片才是管动作姿态的。只有把这三者拆开,你才能真正实现“换脸不换动作,换动作不换脸”。

完美的“瑕疵”

为什么我坚持要用“真人实拍”做替身,而不用 3D 骨架?

因为 3D 骨架太“数据化”了。而且如果AI没有专门训练过,会导致不认得这些骨架动作。

当你用一张真人照片做参考时(哪怕只参考 60%),AI 抄走的不仅仅是姿势,还有物理定律

真人用力时,衣服会被肌肉撑紧。

真人站立时,鞋底会被体重压扁。

真人转身时,脊柱会微微弯曲。

这些“受力感”,是你永远无法用提示词写出来的。AI 看到真人照片里的这些细节,它生成的画面就会自带“重力”。

我们用真人动作图,其实就是在借用物理世界的规则,去约束 AI 的幻觉。

未来的“杀手级”功能

对于 NanoBanana 这些平台来说,下一步的竞争点其实很清晰。

现在的用户还在痛苦地用英语描述动作。未来的平台,应该内置一套「清洗过的真人动作索引」。

用户不需要说话,只需要做两步拖拽: 左边拖入一张“脸”,右边拖入一张“动作卡”。

那个穿着灰色紧身衣的“数字替身”,瞬间就会穿上你设计的皮囊,完美演绎你想要的剧情。

不需要学解剖,不需要写长篇大论。用最朴素的“照片”去控制最先进的“算法”,这才是 AI 写真该有的样子。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容