体验 vllm qwen3-4b

vllm 是 UC Berkeley Sky Computing 实验室发起的性能优异的推理引擎。项目主要以 Python 代码编写。我们以 docker 容器快速体验其功能。

环境信息

  • Ubuntu 22.04
  • Nvidia 3060 12GB
  • Nvidia GPU driver 570.153.02 Cuda 12.8
  • vllm 0.8.5,低于 vllm 0.8.5的版本不支持 qwen3
  • qwen3-4b

目录结构

名称 目录
qwen3-4b /work/model

安装 nvidia docker toolkit

参考官方文档

拉取 vllm docker 镜像

docker pull vllm/vllm-openai:v0.8.5
建议使用梯子,否则失败。

下载模型文件

建议从 魔搭社区 下载

启动 vllm

docker run -d -t \
--name vllm \
-v /work/model/:/data \
-p 18000:8000 \
--gpus all \
--ipc=host \
vllm-openai:v0.8.5 \
--model /data/qwen3-4b \
--served-model-name qwen3-4b \
--max-model-len=2048 \
--enforce-eager \
--dtype=half

curl 测试

vllm 提供了 OpenAI 兼容 API。

curl http://localhost:18000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-4b",
    "messages": [
      {"role": "system", "content": "You are Qwen, created by Alibaba Cloud. You are a helpful assistant."},
      {"role": "user", "content": "你是谁?"}
    ],
    "temperature": 0.7,
    "top_p": 0.8,
    "repetition_penalty": 1.05,
    "max_tokens": 512
  }'
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容