LLama1, LLama2和LLama3的区别有哪些？

参数规模
第一代和第二代的Llama模型都包含了四个不同参数规模的版本，其中最小的模型参数规模在70亿，往上分别有130亿、340亿和700亿（第一代最高的是650亿）。而此次发布的第三代Llama3模型，目前公开的只有80亿参数规模版本和700亿版本。而根据透露，最高的参数版本是4000亿参数规模的模型。只是目前还在训练中。
模型结构
LLama3全部都用了GQA来实现加速训练和推理。
上下文长度
Llama三代模型的上下文长度分别是2K、4K和8K，虽然Llama3训练是8K上下文，但是按照目前业界的技术，应该是可以继续拓展到更长上下文的。而官方也说过，未来Llama3会有更长上下文的版本。

image
词汇表
在Llama1和Llama2中，MetaAI的词汇表都是32K大小，这可能与前两代模型的训练数据差距不大有关。而第三代的Llama3模型的词汇表大小变为128K，也就是说它的tokenizer有了较大的变化。更大的词汇表意味着更强的语义表达能力，也是支持更多语言的一个基础。

image
训练过程
训练过程的升级我们主要看训练时间和训练数据的变化。此前，业界一直说大模型的训练成本在下降。但是从Llama3的变化看，下降的是单位训练成本，但是大模型总的训练成本其实在大幅增长。
训练数据
Llama3模型的训练数据大幅增长，Llama3的训练数据达到了15万亿，比第一代和第二代Llama模型加在一起还多好几倍。如下图所示，第一代的小一点的模型训练数据是1万亿tokens，而较大的650亿规模的模型训练数据是1.4万亿tokens。到了第二代Llama2系列，训练数据都增长到了2万亿tokens。

image
训练时长
在Llama1论文发布的时候，训练Llama1模型可能花费了几百万上千万美金。原因是650亿参数的Llama1模型训练了102万个GPU小时，按照公有云A100租赁的价格打折计算，这个成本也是几百万美金。到了Llama3模型这里，训练成本的增长更为恐怖，Llama3-8B模型的训练时长比650亿参数规模的Llama1模型还长。结果如下：

image
评价指标
三代不同Llama系列在综合理解评测基准MMLU、数学推理GSM8K以及代码能力HumanEval的评测结果显示，Llama3相比Llama2的提升应该是比Llama2相比Llama1的提升要高的多的。

本文由mdnice多平台发布

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

LLama1, LLama2和LLama3的区别有哪些？

LLama1, LLama2和LLama3的区别有哪些？

LLama1, LLama2和LLama3的区别有哪些？

相关阅读更多精彩内容

友情链接更多精彩内容