大语言模型6:大模型在技术上没有巨大的突破

虽然这一次的生成式AI在效果上突破了人们的预料,效果已经达到了我们无法想象的地步。

但是,从技术演进的角度,似乎平平无奇,只是一个问题接一个问题地解决,算是稳步发展,只是速度非常快而已。


人工智能领域最早突破和商用的,就是“计算机视觉”,也可以理解成是图像识别,用的就是卷积神经网络(CNN)。

这个模型后来也用在了自然语言处理中,但效果不好。因为语言是“序列数据”,它不像图片,每一个文字都与上下文是依赖关系,而不是独立的。

注:序列数据是一系列顺序上相互依赖、彼此之间具有某种相关性的数据项。例如,一个句子中的单词以某种顺序相互关联、相互依赖。出现在同一句话中的单词是有序的,而且不是相互独立的。

所以循环神经网络(RNN)就出来了。

循环神经网络是一种机器学习模型,它可以存储和使用序列数据中先前数据相关的记忆信息来处理当前数据。例如,循环神经网络具有先前单词的记忆,并可利用这种记忆来处理句子中的当前单词。

循环神经网络面临的主要挑战是对时间跨度长的序列数据记忆力不足。例如,相比于若干句话之前的句子中的单词,循环神经网络更容易记住最近处理过的几个单词。

也就是说,循环神经网络(RNN)没法解决长程依赖的问题,因为对于比如“问答”这样的场景,就需要模型记住很长距离的内容。文字就不光是依赖一句话的上下文,而是依赖之前很长距离的对话。

基于这样的问题,循环神经网络就发展出了很多变体,如长短期记忆(LSTM)和门控循环单元(GRU),甚至于也设计出了循环神经网络的“注意力机制”。

机器学习中的注意力机制可以帮助神经网络将“注意力”集中在与当前任务最相关的信息上,而忽略其他无关紧要的信息。这使得神经网络在执行任务时有更好的表现,就像专注的人能够更好地完成任务一样。

注意力机制在改善机器翻译质量方面取得一定成功之后,便变得非常流行。市场上出现了一系列注意力机制变体,包括自注意力机制、全局注意力机制、局部注意力机制、硬注意力机制和软注意力机制等。

现在来到几乎所有大模型都采用的Transformer架构,它几乎可以说是组合了之前所有的优秀设计,来了个组合式创新:

它虽然是完全不同的架构,但是它采用了最早前馈神经网络的“编码器-解码器”以及循环神经网络的“注意力机制”,实现了数据的并行计算,以及解决了分词长程依赖的问题。

通过消除对依次循环处理结构的依赖和仅使用注意力机制,Transformer允许我们一次将整个数据序列传递给解码器,而不用像传统的序列模型那样按顺序传递。这种通过网络一次传递一个数据块(比如很多句话)的创新改变了游戏规则。

与传统的序列模型相比,Transformer更具并行性,可在给定时间内从更多的数据中学习,从而减少训练时间。这种训练过程中的并行化突破导致了大规模预训练语言模型的出现。

你会发现,这个过程就是不断解决问题,也继承之前的各种已有的技术,进行的组合式创新。

而你说现在的大模型公司有没有技术壁垒呢?

恐怕是没有的,有的可能是数据(如果有专有的优质数据)、团队工程能力,其他架构也是开源的能有什么壁垒呢?

当然没有技术壁垒不代表不难,训练一个基础模型自然非常难,不光是时间金钱硬件资源的问题,工程能力同样不可小觑,你看OPENAI在人员支出上的巨大开销就可以想象了。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
禁止转载,如需转载请通过简信或评论联系作者。

推荐阅读更多精彩内容