在GPT火出来以前,人工智能最成功的应用就是计算机视觉,比如我们都知道的人脸识别,更广泛的图像识别已经成功进如商业领域应用(自动驾驶)。
但是,它远远达不到通用智能的程度,就在于他只能识别图片,并且你教他什么它会什么,没有泛化能力——就像你教一个学生,你教一个他会一个,不能举一反三极大限制他的智能范围。
而自然语言处理自从transformer架构提出以后,大规模无监督的数据训练,使得模型把语言的规则和特征“学会”了(不断通过“损失函数”去校正),并全部表征为向量空间的向量(这些向量记录了“分词”上千个维度的特征)。
不同于人类教给他规则,是机器通过大规模的数据学习到了人类语言的应用规律,至于具体他到底学会了哪些规律,没人知道,是一个黑盒,只有当我们在通过任务微调之后才知道他到底有哪些能力。
这也是为什么大模型事实上不会太在乎用的语料中文多一点还是英文多一点。
比如OPENAI的大模型,它们用的中文语料其实是非常少的,但是在理解能力表现上是不差的,只是输出的内容质量没那么好(通常让他用英文回答质量要高于中文)。这就和训练的语料质量有关了,你训练的高质量语料如果不多,那么也没法指望人家输出多高质量的东西。
国内清华GLM模型也是一样,语料中英文其实没有过于的在意,因为最终都是要嵌入到向量空间的,对于机器来讲只是向量的特征的固定和推理运算。
这也能理解,马斯克成立的Xai公司,网站首页就写着“Understand the Universe”(理解宇宙),看来马斯克是希望用大模型能揭开整个宇宙的奥秘。因为这个东西的厉害之处,不光是他能理解人类语言,学会人类知识,而是他有逻辑思维的可能,产生新的知识。