vllm 是 UC Berkeley Sky Computing 实验室发起的性能优异的推理引擎。项目主要以 Python 代码编写。我们以 docker 容器快速体验其功能。
环境信息
- Ubuntu 22.04
- Nvidia 3060 12GB
- Nvidia GPU driver 570.153.02 Cuda 12.8
- vllm 0.8.5,低于 vllm 0.8.5的版本不支持 qwen3
- qwen3-4b
目录结构
| 名称 | 目录 |
|---|---|
| qwen3-4b | /work/model |
安装 nvidia docker toolkit
参考官方文档
拉取 vllm docker 镜像
docker pull vllm/vllm-openai:v0.8.5
建议使用梯子,否则失败。
下载模型文件
建议从 魔搭社区 下载
启动 vllm
docker run -d -t \
--name vllm \
-v /work/model/:/data \
-p 18000:8000 \
--gpus all \
--ipc=host \
vllm-openai:v0.8.5 \
--model /data/qwen3-4b \
--served-model-name qwen3-4b \
--max-model-len=2048 \
--enforce-eager \
--dtype=half
curl 测试
vllm 提供了 OpenAI 兼容 API。
curl http://localhost:18000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3-4b",
"messages": [
{"role": "system", "content": "You are Qwen, created by Alibaba Cloud. You are a helpful assistant."},
{"role": "user", "content": "你是谁?"}
],
"temperature": 0.7,
"top_p": 0.8,
"repetition_penalty": 1.05,
"max_tokens": 512
}'