从零开始学MCP(6) | MCP 与大型语言模型（LLM）深度集成

在前几期的MCP系列教程中，我们已经了解了MCP的基本概念、工作原理和核心组件。本期我们将深入探讨如何将Model Context Protocol (MCP) 与大型语言模型(LLM)进行深度集成，实现更加智能和强大的AI应用。

本文将涵盖三个核心方面：本地模型接入(Ollama/vLLM)、在线模型扩展(OpenAI/DeepSeek)以及提示词模板设计，帮助你全面掌握MCP与LLM的集成技巧。

一、MCP与LLM集成架构设计

1.1 整体架构概述

MCP与LLM的集成通常采用客户端-服务器架构：

1.2 核心组件职责

MCP客户端：主应用程序，负责用户交互和请求调度
MCP服务器：协议转换层，将MCP协议转换为LLM API调用
LLM后端：实际执行模型推理的组件

二、本地模型接入：Ollama/vLLM + MCP

2.1 Ollama集成方案

环境准备

首先安装必要的依赖：

创建Ollama MCP服务器

客户端配置

2.2 vLLM集成方案

vLLM MCP服务器实现

<pre data-tool="mdnice编辑器" style="-webkit-tap-highlight-color: transparent; margin: 10px 0px; padding: 0px; outline: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important; border-radius: 5px; box-shadow: rgba(0, 0, 0, 0.55) 0px 2px 10px; text-align: left;"># vllm_mcp_server.py import mcp.server as mcp from mcp.server import Server from vllm import LLM, SamplingParams from pydantic import BaseModel import asyncio # 全局vLLM实例 vllm_engine = None class VLLMRequest(BaseModel): prompt: str max_tokens: int = 256 temperature: float = 0.7 top_p: float = 0.9 def initialize_vllm(model_name: str = "facebook/opt-125m"): """初始化vLLM引擎""" global vllm_engine if vllm_engine isNone: vllm_engine = LLM( model=model_name, tensor_parallel_size=1, gpu_memory_utilization=0.9 ) server = Server("vllm-mcp-server") @server.tool() asyncdef vllm_generate(request: VLLMRequest) -> str: """使用vLLM生成文本""" try: sampling_params = SamplingParams( temperature=request.temperature, top_p=request.top_p, max_tokens=request.max_tokens ) outputs = vllm_engine.generate([request.prompt], sampling_params) return outputs[0].outputs[0].text except Exception as e: returnf"vLLM生成失败: {str(e)}" @server.list_resources() asyncdef list_vllm_models() -> list: """列出支持的vLLM模型""" return [ mcp.Resource( uri="vllm://facebook/opt-125m", name="OPT-125M", description="Facebook OPT 125M参数模型" ), mcp.Resource( uri="vllm://gpt2", name="GPT-2", description="OpenAI GPT-2模型" ) ] if __name__ == "__main__": # 初始化vLLM initialize_vllm() mcp.run(server, transport='stdio') </pre>

三、在线模型扩展：OpenAI/DeepSeek适配器

3.1 OpenAI MCP适配器

3.2 DeepSeek MCP适配器

四、提示词模板设计：动态注入上下文

4.1 基础模板设计

4.2 动态上下文注入

4.3 多轮对话上下文管理

<pre data-tool="mdnice编辑器" style="-webkit-tap-highlight-color: transparent; margin: 10px 0px; padding: 0px; outline: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important; border-radius: 5px; box-shadow: rgba(0, 0, 0, 0.55) 0px 2px 10px; text-align: left;"># conversation_manager.py from typing import List, Dict from dataclasses import dataclass @dataclass class Message: role: str # "user", "assistant", "system" content: str timestamp: str class ConversationManager: def __init__(self, max_history: int = 10): self.history: List[Message] = [] self.max_history = max_history def add_message(self, role: str, content: str): """添加消息到历史记录""" from datetime import datetime message = Message( role=role, content=content, timestamp=datetime.now().isoformat() ) self.history.append(message) # 保持历史记录长度 if len(self.history) > self.max_history: self.history = self.history[-self.max_history:] def get_conversation_context(self) -> str: """获取对话上下文""" context_lines = [] for msg in self.history: context_lines.append(f"{msg.role}: {msg.content}") return"\n".join(context_lines) def generate_contextual_prompt(self, user_input: str, template_name: str) -> str: """生成包含对话上下文的提示词""" from prompt_templates import TEMPLATES conversation_context = self.get_conversation_context() prompt = TEMPLATES[template_name].render( user_query=user_input, conversation_history=conversation_context, current_time=datetime.now().strftime("%Y-%m-%d %H:%M:%S") ) return prompt </pre>

五、完整集成示例

5.1 综合MCP服务器

<pre data-tool="mdnice编辑器" style="-webkit-tap-highlight-color: transparent; margin: 10px 0px; padding: 0px; outline: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important; border-radius: 5px; box-shadow: rgba(0, 0, 0, 0.55) 0px 2px 10px; text-align: left;"># comprehensive_mcp_server.py import mcp.server as mcp from mcp.server import Server from pydantic import BaseModel from typing import Optional import os # 导入各个模块 from ollama_integration import OllamaIntegration from openai_integration import OpenAIIntegration from prompt_system import PromptSystem server = Server("comprehensive-llm-server") class LLMRequest(BaseModel): prompt: str model_type: str = "ollama"# ollama, openai, deepseek model_name: Optional[str] = None max_tokens: int = 512 temperature: float = 0.7 # 初始化各个集成模块 ollama_integration = OllamaIntegration() openai_integration = OpenAIIntegration() prompt_system = PromptSystem() @server.tool() asyncdef generate_text(request: LLMRequest) -> str: """统一的文本生成接口""" # 使用提示词系统增强用户输入 enhanced_prompt = prompt_system.enhance_prompt( request.prompt, context=prompt_system.get_current_context() ) # 根据模型类型选择后端 if request.model_type == "ollama": result = await ollama_integration.generate( enhanced_prompt, request.model_name, request.max_tokens ) elif request.model_type == "openai": result = await openai_integration.chat_completion( enhanced_prompt, request.model_name, request.temperature ) else: return"不支持的模型类型" # 记录到对话历史 prompt_system.add_to_history("user", request.prompt) prompt_system.add_to_history("assistant", result) return result @server.list_resources() asyncdef list_all_models() -> list: """列出所有可用的模型""" ollama_models = await ollama_integration.list_models() openai_models = openai_integration.list_models() return ollama_models + openai_models if __name__ == "__main__": mcp.run(server, transport='stdio') </pre>

5.2 客户端使用示例

六、最佳实践与优化建议

6.1 性能优化

连接池管理：为频繁使用的模型连接创建连接池
缓存机制：对常见请求结果进行缓存
批量处理：支持批量提示词处理以提高效率

6.2 安全考虑

API密钥管理：使用环境变量或密钥管理系统
输入验证：对所有输入进行严格的验证和清理
访问控制：实现基于角色的访问控制

6.3 监控与日志

性能监控：跟踪响应时间和资源使用情况
使用日志：记录详细的请求和响应日志
错误处理：实现完善的错误处理和重试机制

总结

本文详细介绍了如何将MCP与大型语言模型进行深度集成，涵盖了本地模型(Ollama/vLLM)和在线模型(OpenAI/DeepSeek)的接入方案，以及提示词模板设计和动态上下文注入的高级技巧。

通过MCP协议，我们可以构建更加模块化、可扩展的AI应用系统，实现不同模型之间的无缝切换和组合使用。这种架构不仅提高了系统的灵活性，还为未来的功能扩展奠定了坚实的基础。

希望本教程能够帮助你在实际项目中成功实现MCP与LLM的深度集成，构建出更加强大和智能的AI应用。

2025-08-27