LLama1, LLama2和LLama3的区别有哪些?

LLama1, LLama2和LLama3的区别有哪些?

  • 参数规模
    第一代和第二代的Llama模型都包含了四个不同参数规模的版本,其中最小的模型参数规模在70亿,往上分别有130亿、340亿和700亿(第一代最高的是650亿)。而此次发布的第三代Llama3模型,目前公开的只有80亿参数规模版本和700亿版本。而根据透露,最高的参数版本是4000亿参数规模的模型。只是目前还在训练中。
  • 模型结构
    LLama3全部都用了GQA来实现加速训练和推理。
  • 上下文长度
    Llama三代模型的上下文长度分别是2K、4K和8K,虽然Llama3训练是8K上下文,但是按照目前业界的技术,应该是可以继续拓展到更长上下文的。而官方也说过,未来Llama3会有更长上下文的版本。
    image
  • 词汇表
    在Llama1和Llama2中,MetaAI的词汇表都是32K大小,这可能与前两代模型的训练数据差距不大有关。而第三代的Llama3模型的词汇表大小变为128K,也就是说它的tokenizer有了较大的变化。更大的词汇表意味着更强的语义表达能力,也是支持更多语言的一个基础。
    image
  • 训练过程
    训练过程的升级我们主要看训练时间和训练数据的变化。此前,业界一直说大模型的训练成本在下降。但是从Llama3的变化看,下降的是单位训练成本,但是大模型总的训练成本其实在大幅增长。
  • 训练数据
    Llama3模型的训练数据大幅增长,Llama3的训练数据达到了15万亿,比第一代和第二代Llama模型加在一起还多好几倍。如下图所示,第一代的小一点的模型训练数据是1万亿tokens,而较大的650亿规模的模型训练数据是1.4万亿tokens。到了第二代Llama2系列,训练数据都增长到了2万亿tokens。
    image
  • 训练时长
    在Llama1论文发布的时候,训练Llama1模型可能花费了几百万上千万美金。原因是650亿参数的Llama1模型训练了102万个GPU小时,按照公有云A100租赁的价格打折计算,这个成本也是几百万美金。到了Llama3模型这里,训练成本的增长更为恐怖,Llama3-8B模型的训练时长比650亿参数规模的Llama1模型还长。结果如下:
    image
  • 评价指标
    三代不同Llama系列在综合理解评测基准MMLU、数学推理GSM8K以及代码能力HumanEval的评测结果显示,Llama3相比Llama2的提升应该是比Llama2相比Llama1的提升要高的多的。

本文由mdnice多平台发布

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容