说干就干,产品和技术的同学兵分两路。
产品这边,捧起了斯坦福的这篇论文,开始逐字逐句研读起来。我们也把研读的一些总结,发在我们的笔记里面,供大家参考。如果有分析的不对,或者理解有问题的地方,请大家直接评论指出,立马赠送我们平台SDK的时间嘿嘿。
斯坦福的这篇论文,其实核心是在研究一种非常逼真的人类智能体的社交行为。Agent,从字面理解,就是丰富的大脑行为的一个代理符号,其实用智能体来描述,我觉得是非常贴切的。论文认为,如果能组建仿真,一组非常逼真的人类社交行为,那么整个交互应用都会发生翻天覆地的变化,这种使用方式,可以赋能到各种应用来。
这篇论文提供的,就是模仿逼真人类大脑行为的方法论,并通过代码,来初步进行了实现。而我们要升级二创的小镇,是打造一个3D世界,有了大脑的指令后,通过Motionverse,来进行每个Agent智能体,提供合成的语言,动作表情的表达,进行充分的情绪表达,相当于Motionverse提供了小脑的能力。那么这个过程中,为什么不能用传统游戏技术方案中的动作库呢,我认为主要有如下几个原因:
1、大脑不会采用写死的脚本,而是基于人设和规则,通过大语言模型来实时生成行为规划,就是为了逼真和丰富。那类比到小脑的动作表情是同理的,每个角色有自己不同的动作风格化特征,并不是K多少个动作循环播放就能解决的。为了达到和情绪表达的匹配,逼真和丰富,所有智能体的动作,一定也是通过大动作模型,根据要说的文本,根据这个角色的动作风格特点,实时生成的动作和表情。
2、智能体在说每句话的说话,会有不同的节奏,不同的情绪转换,只有通过生成的方式,才能做到让动作和表情,和智能体预期的表达相一致,无论是从语音节奏角度,还是从语义角度。
3、未来3D元宇宙世界,一定是千人千面,每个数字人都在不停的生成大脑内容,生成动作表情表达,这个已经不是K几个动作库可以完成的工作量了,从量级上,一定是只有通过AI生成的一种方式。
其实这个也很好理解,现实世界中,每个人都有自己的动作风格,我们在进行表达的时候,每次动作表情都会是不一样的,丰富的,但又都带有自己的显著风格的。同时也一定和我们说话的语音语义相匹配的,那未来的智能体世界,也只有AI生成,这一种驱动的方式是可行的,这个也是我们一直在坚定的推动内部Motoinverse动作表情AI生成研发的原因。
说到Motionverse又滔滔不绝的表达了一下我的观点,回到论文本身,这篇论文主要有如下4个贡献,我先总结出来,后面每天会详细描述,并匹配上我们的研发测试结果
1、提出了生成式智能体这一概念,它可以根据智能体不断变化的经历和环境,动态地生成逼真的人类行为。
2、设计了一个新颖的架构,使生成式智能体能够记忆、检索、反思,与其他智能体互动,并在动态变化的环境中制定计划。该架构利用了大型语言模型强大的提示功能,并在此基础上增加了支持长期行为连贯性、管理不断演化记忆以及递归生成高层反思的能力。
3、进行了两场评估实验,一场受控评估和一场端到端评估,验证了架构组件的重要性,并识别出了由记忆检索不当等原因导致的故障。
4、探讨了生成式智能体在交互系统中的应用机遇、伦理风险和社会影响。我们认为需要调整这些智能体以降低用户产生拟人依恋的风险,记录日志以减轻深度伪造和定制劝说的风险,并以辅助而非替代的方式应用于设计流程中。
回到技术上,我们已经初步跑通了整个python服务器脚本,但里面还有不少坑还在解决,下一篇文章,我们讲来讲述,如果进行部署,并且对应的坑如何避免