完整实现步骤
1. 环境准备
# 一键安装Higress(需Docker环境)curl -sS https://higress.cn/ai-gateway/install.sh | bash
安装完成后访问控制台http://localhost:8001,完成初始化配置。
如果在其他电脑访问,需要重新docker启动,监听在0.0.0.0:8001,而不是loocalhost:8001
# 如果之前有残留容器(虽然大概率没有),先清理
docker rm -f higress-ai-gateway 2>/dev/null
# 启动 Higress(绑定到 0.0.0.0)
docker run -d \
--name higress-ai-gateway \
--restart unless-stopped \
-p 8001:8001 \
-p 8080:8080 \
-p 8443:8443 \
higress-registry.cn-hangzhou.cr.aliyuncs.com/higress/all-in-one:latest
2. 模型接入配置
1)在 Higress 控制台配置 Qwen3-0.6B 的接入方式:

如果是对接厂商的模型,可以通过选择厂商名进行配置,例如:

如果是对接自建的模型,可以使用 OpenAI 兼容模式,填入 baseURL 即可:

2)在 Higress 控制台创建路由,按照前缀的路由规则转发给模型。

若某个大模型需要更多资源,可以使用 AI Token 限流插件对其进行限流:


并在触发限流后,通过模型 fallback 机制兜底到 QwQ-32b 模型:

3. 客户端调用示例(Python)
注意url前缀加了/ai
curl -sv http://10.7.11.21:8080/ai/v1/chat/completions \
-X POST \
-H 'Content-Type: application/json' \
-H 'Host: guo.com' \
-d \
'{
"model": "Qwen3-0.6B",
"messages": [
{
"role": "user",
"content": "您好!"
}
]
}'

Higress AI 网关的进阶功能
多模型服务只是 Higress AI 网关的基本能力之一,其他进阶能力还包括消费者鉴权、模型自动切换等,可以集中解决用户遇到的以下三类问题:
- 需要在 TPS 和成本之间找到平衡点,不可能无限增加资源。
- 没有联网搜索,大模型幻觉依然很大。
- LLM 可观测,应用、网关、后端 LLM 服务的全链路,贴合 LLM 推理的指标。
我们将 AI 网关的其他能力,汇总如下。

| 功能 | 应用场景 | 实现效果 |
|---|---|---|
| 消费者鉴权 | 满足多租户模型服务分租、企业内部权限分级管控等需求。 | IT 团队可对用户设置使用角色,控制功能权限和资源权限,满足业务和安全需求。 |
| 模型自动切换 | 解决模型自身特性、用户使用不规范、用户使用不规范、依赖服务故障等导致的模型不可用等问题。 | 模型A出现故障,自动切换到模型B,不需要承担宕机损失。 |
| Token 级别限流 | 满足系统出现过载情况下保证用户依旧能获得稳定的体验;使用量超出限定值,应用主动设置限流。 | 避免突发流量导致系统宕机。满足业务需求,例如基于用户分层设定的产品能力差异。 |
| 内容安全和合规 | 过滤掉有害或不适当的内容,检测和阻止包含敏感数据的请求。 | 用户请求不安全或者不合规的内容时,大模型进行校验,保证内容输出安全、合规。 |
| 语义缓存 | 在网关层自动缓存对应用户的历史对话,在后续对话中自动填充到上下文,从而实现大模型对上下文语义的理解。 | 大模型 API 调用,缓存命中和未命中,计费价格不同,充分利用该机制降低调用费用。 |
| 联网搜索+全文检索 | 解决开源大模型默认不提供联网搜索+全文检索能力的问题。 | 获得更好的内容生成效果。 |
| 大模型可观测 | 避免大模型应用的资源消耗比 Web 应用更加敏感和脆弱所导致的模型调用费用方面的资损。 | 提供 QPS、RT、错误率,基于 consumer/模型 的 token 消耗统计,限流消费者统计,缓存命中统计等数据。 |