今天看到一个新闻,OpenAI 收购了Global Illumination这家公司。这家公司的核心产品不知道大家体验过没有,是一个开放世界沙盒游戏。
由于最近团队一直在集中研究斯坦福AI 小镇,对这方面的信息很敏感,我们第一个想到的,就是OpenAI也要利用他们强大的语言模型能力,进军虚拟人AI-Agent智能体,打造以生成式智能体为核心的的开放游戏。开放游戏世界和元宇宙社区,是AI技术的广阔使用场景,利用AI技术,打造AI agents的角色,构建创新性玩法。这种结合会为用户全新的虚拟体验,也为整个技术和行业带来新的变革。
那在如此之让人振奋的赛道上,和全球的AI公司同台合作和竞技。虚拟人的大舞台上,我们的优势就是要把Motionverse的动作表情的生成,做到极致,让虚拟人可以充分、轻松、丰富的进行各种感情表达。
回到我们的项目进度上,整套服务器的部署已经完成,但还有坑没有填完,运行比较多步的时候,会出现卡死的情况,还在排查这块,整体解决后,我们会总结避坑指南。我们在海外阿里云部署了一个服务,跑了3个NPC,下面这个是一个片段,做个记录
http://154.22.104.10:8000/demo/July1_the_ville_isabella_maria_klaus-step-3-14/1/3/#
继续来研究论文,斯坦福的论文中,花了很多笔墨,在描述一个为了完成一个可信任的智能体,很多开发者做出的各种贡献。到今年,大型语言模型的出现为重新审视这些问题提供了一个重要的契机,我们能创造一个有效的架构,将记忆的数据通过大模型生成为为可信行为。
这些智能体可以感知和居住在一个开放的环境中,就像我们所处的人类社会环境一样,并努力以通过与用户或其他智能体的社交互动产生涌现行为的方式行事。通常情况下,这些智能体是在游戏中的,智能NPC的背景下开发使用的,创造具有可信行为的NPC,通过与智能体NPC的社交互动来增强玩家在游戏和互动小说中的体验。
在斯坦福的论文中,生成式智能体充分利用大型语言模型驱动其行为。通过这些年大语言模型的高速发展,大型语言模型从其训练数据中,学习到了广泛的人类行为。
如果使用细致定义的上下文进行提示词工程,大语言模型是足够可以用来生成人类可信行为的。AI智能小镇核心就是使用思维链来生成描述原型系统中的人物和其行为。
同时,凭借生成和分解动作序列的能力,大型语言模型也被用于规划智能体的任务,模型会被提示将任务分解成更小的动作序列
目前大多数测试和产品,包括我们前阵子自己在做的智能NPC村,都只依赖于一阶模板的少数提示。这些模板在仅基于智能体当前环境的条件下生成行为方面是有效的。但是,可信智能体不仅需要根据当前环境,还需要根据大量过去经历进行条件化,目前提示词窗口在这方面是有限制的,没法带入全部历史过程,斯坦福的论文中,提出了通过为语言模型增加静态知识库和信息检索方案或者简单的总结方案来越过一阶提示。论文中提出的架构可以处理检索,其中过去经历在每个时间步都动态更新,并与智能体当前的上下文和计划相结合。
上面提到的我们自己在做的智能NPC村,是我们自己团队用我们公司的motionverse sdk打造的一个开源Demo。
Demo背景是在一个宁静的小村庄,里面的住民有农夫,有艺术家,有音乐家,还有保卫村庄的勇士。整个Demo 是一个基于unity打造的3d环境,角色还是来自于RPM。
我们为每一位NPC设置了其专属提示词,约定了他的背景,设定和性格。也带入了简单的上下文多轮对话能力(大概5轮对话)。这块其实就是论文中提到的一阶少数提示词,并且是有限的过去经历记忆。
虽然智能程度不及论文中设定的架构,使用起来还是比较有意思的。在语音识别环境,我们接入了微软的ASR,支持多种语言输入。收到大模型返回的文本,在我们的motionverse的云端马上生成了智能体情感表达所需要的语音,动作和表情数据。于是你可以自由的和每位村民开心的交谈了。这个Demo目前还在最终整理阶段,有兴趣的同学可以关注我们,马上会开源整个工程。这个Demo的扩展性非常强,几乎可以覆盖目前限定环境下,数字人的绝大部分需求。我们这次打造斯坦福AI小镇,也会基于这个工程继续创作。UE引擎版本,也在开发中,大家可以关注起来,有什么意见和建议,也可以随时联系我们哦。