部署envoy gateway 创建gatewayclass 创建envoyproxy 这里顺便测试envoy gateway的daemonset hostNetwork部署...
部署envoy gateway 创建gatewayclass 创建envoyproxy 这里顺便测试envoy gateway的daemonset hostNetwork部署...
背景 dcgm提供对gpu硬件状态到任务的全方位监控,如利用率、显存、温度、NVLink/PCIe带宽、ECC/XID错误等 安装dcgm 测试 得到如下+---------...
准备虚拟环境 安装依赖 修改main.py 替换为如下内容
背景 最近在做大模型推理服务,其中要使用到rdma技术,这边简单记录一下rdma网络互通测试 互通测试 server side client side 性能测试 通过如下命令...
kube-state-metrics 监控k8s pod/pvc等资源的状态等信息 gpu使用情况 node-exporter 监控节点资源情况 cadvisor 监控容器资...
安装victoriametrics operator 创建vmcluster 创建demo workload 创建vm auth ingress.class_name替换为实...
如何修改envoy proxy的部署配置 默认envoyproxy的配置可能无法满足需求,比如envoyproxy deployment的replicas为1,svc typ...
安装 kubectl apply -f https://github.com/envoyproxy/gateway/releases/download/v1.5.0/ins...
背景 最近在做ai平台,用户在平台上订购一个pod,其中有一定的gpu等资源,但是可以让用户关机,一般的实现就是关机删除pod,开机创建pod,但是这样做的话关机后开机可能由...
背景 最近在使用vllm部署llm推理服务,发现deepseek的推理结果也在content内不符合预期最终在vllm文档中发现需要修改启动参数,在此简单记录一下 解决方案 ...
背景 k8s cri使用docker时候,cadvisor采集的指标如container_fs_writes_total没有pod name和namespace信息 验证在m...
背景 最近在做大模型推理的产品,用vllm部署大模型经常出现OOM问题,这边简单记录一下显存的开销 简单介绍 大致分为固定占用和动态分配. 固定占用:模型参数显存,模型参数量...
背景 最近需要进行大模型推理服务的部署,方案选择了vllm,这边对vllm主流程代码进行简单的记录,后续进行细节分析 源码 入口相关代码 vllm/entrypoints/a...
nccl 仓库https://github.com/NVIDIA/nccl[https://github.com/NVIDIA/nccl]文档https://docs.nvi...
背景 最近在做大模型推理服务,需要对部署好的大模型推理服务进行性能测试 介绍 安装测试工具 测试 得到结果
安装 示例 创建composite resource definition 创建function 创建composition 使用custom resource 测试 删除p...
背景 最近在做大模型的推理服务,对外提供兼容/v1/chat/completions的接口(sse的方式) sse简介 sse的是一个服务端单向给浏览器推送数据的方式浏览器的...
背景 线上集群有节点not ready,看kubelet日志发现 如何解决 方案一 方案二 kubelet启动参数添加 方案三 kubeadm join时候添加参数
部署机房1 vmstorage 创建/etc/systemd/system/vminsert.service,内容如下 启动 部署vminsert 创建/etc/system...
ccManager 负责是否开启机密计算(https://github.com/NVIDIA/gpu-admin-tools,admin[https://github.com...