想学习大语言模型(LLM),应该从哪个开源模型开始?

建议先从主流的Qwen2、Llama3.1+上手,先快速体验提示词工程,然后再学习LLM模型架构,尝试RAG,跑LoRA微调脚本。

一、首先制定学习目标:

  • 学习如何从零训练大模型(1B左右规模,预训练+SFT++DPO+),打通整个流程。
  • 钻研SFT:
    1)专有任务如Code生成、NL2SQL或通用NLP的NER、分类、抽取、摘要模型
    2)场景领域微调,建筑任务LLM、电商LLM
  • RAG落地:搭建领域问答机器人、知识问答助手

二、大模型学习的思路有两个:

  1. 学习见效最快,投入产出比最大的 -> 快速上手之后,能立即带来产出收益(譬如调包微调)
  2. 学习底层基础,越靠近第一性原理越好 -> 底层变得慢,短期无收益但长期看好(譬如优化器)
注意,不同岗位的学习目标,需求不同。大模型初创或大厂自研大模型岗,具体有预训练组、后训练组(微调、强化学习对齐)、评测组、数据组、优化组,但偏难。但是我们接触的是更多是大模型应用算法,譬如提示词工程、RAG等等,这些可以快速了解。

三、快速了解大模型学习路线推荐:

学习方式

  • 阅读大模型相关、机器学习、深度学习书籍,观看视频
  • 力求快速应用,先调包学习,使用开源工具
  • 在实践中动手学习,搞懂每个关键点:【原理学习】+ 【代码实践】+【输出总结】

基础知识推荐

  • 视频课程:推荐理由机器学习、算法的基本概念。

    • 吴恩达机器学习入门
    • 李沐讲AI
    • 台大李宏毅-机器学习
    • 斯坦福NLP cs224n
  • 书籍

    • 《深度学习入门》:推荐理由是基于Python的理论与实践,numpy实现MLP、卷积的训练,实战和理论的结合
    • 《深度学习进阶:自然语言处理》:推荐理由针对性学习,是numpy实现Transformers、word2vec、RNN的训练,这些是大模型的基础。
    • 《大语言模型基础与前沿》:推荐理由是深入涵盖大语言模型的广泛主题,从基础到前沿,从方法到应用,涉及从方法论到应用场景方方面面的内容。首先,本书介绍了人工智能领域的进展和趋势;其次,探讨了语言模型的基本概念和架构、Transformer、预训练目标和解码策略、上下文学习和轻量级微调、稀疏专家模型、检索增强型语言模型、对齐语言模型与人类偏好、减少偏见和有害性以及视觉语言模型等内容;最后,讨论了语言模型对环境的影响。

四、学习纲要:针对大模型算法应用

1、快速开箱即用

  • Prompt调优:

    • 上下文学习In-Context Learning, ICL
    • 思维链 Chain of Thought, COT
    • Costar提示词模板
    • Kimi的提示词应用:自动出提示词,基本是按Costar模板
  • RAG (Retrieval Augmented Generation)

    • 基于文档分块、向量索引和LLM生成,如Langchain文档问答
    • 建议实践

2、领域数据-指令微调LLM

  • PEFT (Parameter-Efficient Fine-Tuning):
    • LORA (Low-Rank Adaption of LLMs)
    • QLORA
    • LORA+、LORA-pro、LORA-ga

参数高效的微调,适合用于纠正模型输出格式(PEFT上限不高,并向LLM输入的知识有限)

  • SFT (Supervised Finetuning):
    • 全参数监督微调,使用prompt指令样本全量微调LLM(可以注入新的领域知识)
    • 需要控制样本配比(领域数据 + 通用数据)

重心在数据构造和整理上。

3、训练推理优化

  • 模型量化
  • 推理加速(DS开源了一部分)
  • 蒸馏
  • 推理框架
但这么多内容,不可能什么都学,一定得排一个优先级,立一个目标来学习,实践和理论相结合,不然四处为战,很快就懈怠了。
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容