240 发简信
IP属地:青海
  • 大模型推理服务如何统计token

    背景 最近在做一个大模型推理服务,需要统计每个请求的token数量以便计费 简单示例 非stream 请求示例 响应示例 stream 请求示例...

    0.3 19 0 2
  • 一个简单的例子通过hpa扩缩容cr

    初始化project 创建api 修改api/v1alpha1/myapp_types.go MyAppSpec中添加 MyAppStatus中...

  • tekton入门

    安装 安装pipeline 从https://github.com/tektoncd/pipeline/releases[https://git...

  • k8s通过vllm部署分布式推理服务简单记录

    worker pod head pod headless service head service head ingress

  • 通过bcc入门bpf

    安装依赖 hello world 编写程序 hello_world.py 运行 在一个终端中运行 测试 另一个终端中运行 可以在python3 ...

  • 从源码看SizeBasedListCostEstimate特性

    背景 1.34后引入了SizeBasedListCostEstimate特性,用于评估List请求的开销,针对内存开销判断list请求开销.在此...

  • 从源码看k8s 1.34对list请求如何处理

    背景 1.34版本的k8s中apiserver处理list请求的逻辑由于很多新特性已经变化比较大,这边做个简单的总结 源码 staging/sr...

  • 从源码看DetectCacheInconsistency特性

    背景 1.34后ListFromCacheSnapshot默认开启,为了避免cache和etcd不一致,引入了cache和etcd的一致性检测,...

  • 如何让pod调度到特定显卡型号节点

    部署依赖 自动识别节点显卡型号然后给node打上label 创建demo pod container 省略