两大类LLM应用开发框架
ChatBot开发框架
主要面向开发聊天机器人(ChatBot)的框架,例如LangChain和Llama Index。此外,大多数流行的RAG开发框架和低代码开发平台(如DiFy、Coze等)也属于这一类。这些框架通常用于构建基于对话的应用程序。
Autonomous Agent开发框架
主要面向开发自主代理(Autonomous Agent)的框架,例如AutoGPT、BabyAGI、Camel、MetaGPT、AutoGen(微软)、AutoAgents和Swarm(OpenAI)等。这些框架支持开发多代理应用,适用于复杂工作流的自动化应用。
两大类LLM模型
Chat模型
包括LLM和一些优化后的小模型,自带聊天(Chat)能力。
-
开源Chat模型举例(Hugging Face Hub上的名称):
- meta-llama/Meta-Llama-3.2-8B
- Qwen/Qwen2.5-7B-Instruct
- THUDM/glm-4-9b-chat
Embedding模型
用于实现文本的向量化(嵌入),常用于知识库类应用。
-
开源Embedding模型举例(Hugging Face Hub上的名称):
- BAAI/bge-large-zh-v1.5
- nomic-ai/nomic-embed-text-v1.5
模型量化精度
模型文件名中的fp32
、fp16
、int8
、int4
字样表示模型的量化精度。fp32
为全精度,量化精度从高到低排列顺序是:fp32 > fp16 > int8 > int4
。量化精度越低,模型的大小和推理所需的显存越小,但模型的能力也会相应下降。
常见LLM模型格式
Safetensors格式
Hugging Face Hub上的大多数开源语言模型文件都是Safetensors格式,基于Hugging Face Transformers库开发,依赖PyTorch。因此,运行这些模型需要配备高性能的显卡。
Ollama与vLLM
- Ollama:基于llama.cpp,即使没有安装Nvidia独立显卡,只要CPU足够强大且内存充足,就能运行开源LLM。
- vLLM:基于CUDA库,必须安装Nvidia独立显卡,对硬件配置的要求高于Ollama。