人的学习过程和大模型训练过程有着相似之处

Meta在训练LLaMA3 70b的时候提到，这个模型甚至还没有在整个数据集上完全收敛。最近问了计算机领域的自动机算法，发现LLaMA3 8b 模型居然也懂不少。不得不说，模型的潜力还是很大的。
其实我们每个人也很想是一个在互联网这个巨大的数据库中不断训练，追求收敛的模型。学出来就对应着模型收敛。没有学出来也可能发散，再训练效果也不好。人都有着这样的潜力，至少是可能性。

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

自然语言大模型介绍
1 简介最近一直被大语言模型刷屏。本文是周末技术分享会的提纲，总结了一些自然语言模型相关的重要技术，以及各个主流...
xieyan0811阅读 2,063评论 0赞 2
别急着骂百度，来看看大模型到底怎么用
文｜光锥智能，作者｜周文斌，编辑｜王一粟 GPT-4惊艳亮相后，压力来到百度这边。上台后的李彦宏和百度CTO王海...
光锥智能阅读 959评论 0赞 1
详解 MoE
随着 Mixtral 8x7B 的发布（公告[https://mistral.ai/news/mixtral-of...
MatrixOnEarth阅读 1,692评论 0赞 0
大模型实践总结
随着ChatGPT的迅速出圈，加速了大模型时代的变革。对于以Transformer、MOE结构为代表的大模型来说，...
吃果冻不吐果冻皮阅读 886评论 0赞 2
llm_finetune网页一键式大模型训练到服务的全流程平台
[LLM Finetune 网页格式一键式大模型训练到服务的全流程平台，包括数据上传、微调训练、模型合并、模型部署...
水他阅读 313评论 0赞 1

赞1赞

手机看全文