以前的人工智能神经网络,往往“分工明确”、“用情专一”,训练一类数据集只能推理完成一类任务,对其他类别的任务爱莫能助。原来的AI预训练模型也是如此,自然语言处理只搞自然语言处理,计算机视觉只搞计算机视觉,机智客觉得,虽然随着技术发展,后来的大模型“打破世俗的偏见”,开始跨界,多模态成为新的技术风向,比如可以用于NLP的还可以用于CV。不过多数情况下,还是一个萝卜一个坑,特定的AI有特定的应用,难有通用AI。
而现在,人工智能界的扛把子DeepMind似乎将通用人工智能向前推进了一步。他们推出了一款新的具备通才的AI智能体Gato,说它具备通才,是因为它受大规模语言建模的启发而构建,具有多模态、多任务、多具身(embodiment)特点。
具体一点就是,这个被成为Gato的AI智能体,不仅能作用于游戏——比如玩雅达利游戏,而且还能作用于图像——比如给图像添加字幕;不仅能作用于NLP——比如用来聊天,而且还能作用于操作——比如用机械臂堆叠积木。可谓一次训练,到处使用。
而且在细化一点,具体到玩游戏,Gato也不仅仅只能玩一种游戏,它虽然采用相同的训练模型,然而却跟有脑子一样的人一样,能玩转多种游戏。切换到这个游戏,能玩,再切换到另外不同的游戏,依然能玩。这个是不是有点酷呢?
那么这么酷的AI是怎么训练出来的?据了解天生具备多种模式的它,训练当然也需要包括不同模态的数据,如图像、文本、本体感觉(proprioception)、关节力矩、按钮按压以及其他离散和连续的观察和行动。
而多模态数据集,毕竟千差万别,不是同类,所以并不能直接使用,而是从数据序列转化为一个扁平的token序列。而在这个扁平的序列中,Gato则是从类似于标准的大规模语言模型进行训练和采样。而在部署过程中,它可以根据上下文组合成对话响应、字幕、按钮按下或其他动作。这也是它为什么会操作机械臂执行各种连续的动作的一个原因。
总而言之,DeepMind这款AI智能体,不再像以前那样由单一的同类训练集训练执行单类的任务,而是博采众长,糅合多种AI领域,比如强化学习啦计算机视觉啦自然语言处理啦,有机结合到一块,映射到同一的空间用于同一套参数来表达,不可谓不厉害。
虽然这款AI智能体的参数量并不多,算是试水之作,不过很显然它提供了一个思路,证明了可以将CV、NLP乃至RL结合起来,机智客觉得这也许是为以后的人工智能技术发展提供了一个新的探索方向吧,或许以后新的技术分支和更“聪明”的AI正在孕育。让我等升斗小民一起等待新的技术突破吧。