Meta在训练LLaMA3 70b的时候提到,这个模型甚至还没有在整个数据集上完全收敛。最近问了计算机领域的自动机算法,发现LLaMA3 8b 模型居然也懂不少。不得不说,模型的潜力还是很大的。
其实我们每个人也很想是一个在互联网这个巨大的数据库中不断训练,追求收敛的模型。学出来就对应着模型收敛。没有学出来也可能发散,再训练效果也不好。人都有着这样的潜力,至少是可能性。
人的学习过程和大模型训练过程有着相似之处
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- [LLM Finetune 网页格式一键式大模型训练到服务的全流程平台,包括数据上传、微调训练、模型合并、模型部署...