先生zeng - 简书

先生zeng

IP属地：北京

KV Cache优化实践：深入理解 KV Cache 的作用及优化方法
在大模型LLM推理部署中，很多开发者都会遇到一个共性瓶颈：模型权重占用显存固定，但一旦开启长上下文、多并发请求，GPU显存瞬间被占满，出现OOM...

75 0 0
ACP 大模型应用开发之在生产环境的具体优化实践二
本篇文章会接上一篇继续更新关于大模型落地在生产环境相关的一些优化实践策略，可以从各个方面去优化落地。三、成本优化 3.1 优化系统性能时节约成...

0.4 25 0 1

ACP 大模型应用开发之在生产环境的具体优化实践一
前言将大模型应用从开发和测试阶段转移到实际业务场景，是一个复杂且关键的过程，涉及业务选型、系统架构、运维与合规等多方面考量。功能性需求定义大...

33 0 0
ACP 大模型应用开发之 vLLM 部署与压测实战
前言微调解决的是「模型会不会做你的任务」；部署解决的是「业务能不能稳定、低成本地调用它」。很多团队微调完成后卡在中间一步：Java 服务仍调...

0.4 43 0 1
ACP大模型应用开发之用 Skill 将能力固化为可复用流程整理（上）
🚄 前言 Memory 让 Agent 记住了你的偏好，但具体的工作方法每次还是要在对话里重新交代。Skill 就是解决这个问题的：把「在什么情...

0.4 39 0 1
ACP 大模型应用开发之用蒸馏让小模型掌握专业能力实战下
写在前面：接上篇之后要做什么上篇走完「教师模型打标 → 过滤 → Baseline」，基座 0.6B 的 JSON 合规率和路由准确率往往惨不...

0.4 35 0 1
ACP 大模型应用开发之用蒸馏让小模型掌握专业能力实战上篇
代码策略：能落在 Java 工程里的部分（教师 API 调用、标注校验、评测指标、数据加载）用 JDK 17 + Jackson + HttpC...

0.4 33 0 1

ACP 大模型应用开发-Agent 评测驱动开发之从端到端测评与白盒评测
承接：RAG 自动化评测体系[https://www.jianshu.com/p/0de7ffc44beb]（先学会度量「答案质量」，再度量「过...

0.4 76 0 2
ACP 大模型应用开发 | 注册加载生成skill与社区复用skill（下）
承接：上篇：从审查痛点到高质量 Skill[https://www.jianshu.com/p/0169231762cb?v=177917375...

0.4 29 0 1