Meta在训练LLaMA3 70b的时候提到,这个模型甚至还没有在整个数据集上完全收敛。最近问了计算机领域的自动机算法,发现LLaMA3 8b 模型居然也懂不少。不得不说,模型的潜力还是很大的。
其实我们每个人也很想是一个在互联网这个巨大的数据库中不断训练,追求收敛的模型。学出来就对应着模型收敛。没有学出来也可能发散,再训练效果也不好。人都有着这样的潜力,至少是可能性。
人的学习过程和大模型训练过程有着相似之处
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
推荐阅读更多精彩内容
- [LLM Finetune 网页格式一键式大模型训练到服务的全流程平台,包括数据上传、微调训练、模型合并、模型部署...