7.1 什么是Scaling law
7.1.1 Scaling low的目标
在训练之前了解模型能力,以改善关于大模型的对齐,安全和部署的决定。
GPT4和较小模型的性能表现,在训练之前就大致预测处理GPT的性能边界
虚线表示对较小模型(不包括GPT4)的幂律拟合,该拟合可以精准预测GPT4的最终损失。横轴为训练计算量,并进行了标准化处理,使得GPT4的对应值为1。
7.1.2 Scaling low的定义
- Scaling law定义:
- 用计算量、数据集规模和模型规模,来预测模型最终能力。
在大语言模型中,我们期望模型能够理解人类语言的一般规律,从而做出和人类相似的表达方式,通过使用大量的数据进行训练从而获得使模型学到到数据的一般规律。
在训练模型时,通常有两个可以提高大语言模型性能的选项:增加数据集大小和增加模型参数量。在词基础上,训练过程中还存在一个限制条件,即训练成本,比如GPU的数量和可用于训练的时间等。
因此,大模型的预训练,通常伴随着训练的计算量、数据集规和模型规律的三方权衡博弈。
- 用计算量、数据集规模和模型规模,来预测模型最终能力。
是否可以通过Scaling Law预测大模型的计算量、数据集规模和模型规模这三个因素变化是,损失值变化?这些预测能帮助一些管家你设计决策,比如在固定资源预算下,匹配模型的最佳大小和数据大小,而无需进行及其昂贵的试错。
7.2 OpenAI vs SeepMind
7.2.1 OpenAI关于Scaling law观点
模拟神经语言模型的模型性能(Loss)与模型大小,数据集大小和训练量的关系。
image.png
用于训练的计算量、数据集规模和模型规模的增加,语言建模性能平稳提升。
为了获得最佳性能,必须将这三个因素同步扩大。
当没有受到其他两个因素限制时,性能与每个单独因素之间呈幂律关系;当没有其他两个瓶颈时,性能会急剧上升,影响程度为计算量>参数>>数据集大小。
7.2.2 DeepMind关于Scaling law观点
Deepmind人为模型大小和训练token的数量都应该按相等的比例进行扩展。
在给定的计算量下,数据量个模型参数量之间的选择平衡存在一个最优解。
7.3 总结
- Scaling Law定义:
- 用计算量、数据集规模和模型规模,来预测模型最终能力
- OpenAI关于Scaling Law的主要观点
- 三个要素之间,每个参数会收到另外两个参数影响。当没有其他两个瓶颈时,性能会急剧上升,影响程度为计算量>参数>>数据集大小。
- DeepMind 关于Scaling Law的主要观点
- 三个要素之间,应该按相等的比例进行扩展。