体验 vllm qwen3-4b

vllm 是 UC Berkeley Sky Computing 实验室发起的性能优异的推理引擎。项目主要以 Python 代码编写。我们以 docker 容器快速体验其功能。

环境信息

Ubuntu 22.04
Nvidia 3060 12GB
Nvidia GPU driver 570.153.02 Cuda 12.8
vllm 0.8.5，低于 vllm 0.8.5的版本不支持 qwen3
qwen3-4b

目录结构

名称	目录
qwen3-4b	/work/model

安装 nvidia docker toolkit

参考官方文档

拉取 vllm docker 镜像

docker pull vllm/vllm-openai:v0.8.5
建议使用梯子，否则失败。

下载模型文件

建议从魔搭社区下载

启动 vllm

docker run -d -t \
--name vllm \
-v /work/model/:/data \
-p 18000:8000 \
--gpus all \
--ipc=host \
vllm-openai:v0.8.5 \
--model /data/qwen3-4b \
--served-model-name qwen3-4b \
--max-model-len=2048 \
--enforce-eager \
--dtype=half

curl 测试

vllm 提供了 OpenAI 兼容 API。

curl http://localhost:18000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-4b",
    "messages": [
      {"role": "system", "content": "You are Qwen, created by Alibaba Cloud. You are a helpful assistant."},
      {"role": "user", "content": "你是谁？"}
    ],
    "temperature": 0.7,
    "top_p": 0.8,
    "repetition_penalty": 1.05,
    "max_tokens": 512
  }'

体验 vllm qwen3-4b

环境信息

目录结构

安装 nvidia docker toolkit

拉取 vllm docker 镜像

下载模型文件

启动 vllm

curl 测试

推荐阅读更多精彩内容