背景 最近在使用vllm部署llm推理服务,发现deepseek的推理结果也在content内不符合预期最终在vllm文档中发现需要修改启动参数...
背景 k8s cri使用docker时候,cadvisor采集的指标如container_fs_writes_total没有pod name和n...
背景 最近在做大模型推理的产品,用vllm部署大模型经常出现OOM问题,这边简单记录一下显存的开销 简单介绍 大致分为固定占用和动态分配. 固定...
背景 最近需要进行大模型推理服务的部署,方案选择了vllm,这边对vllm主流程代码进行简单的记录,后续进行细节分析 源码 入口相关代码 vll...
nccl 仓库https://github.com/NVIDIA/nccl[https://github.com/NVIDIA/nccl]文档h...
背景 最近在做大模型推理服务,需要对部署好的大模型推理服务进行性能测试 介绍 安装测试工具 测试 得到结果
安装 示例 创建composite resource definition 创建function 创建composition 使用custom ...
背景 最近在做大模型的推理服务,对外提供兼容/v1/chat/completions的接口(sse的方式) sse简介 sse的是一个服务端单向...
背景 线上集群有节点not ready,看kubelet日志发现 如何解决 方案一 方案二 kubelet启动参数添加 方案三 kubeadm ...