完整实现步骤

1. 环境准备

# 一键安装Higress（需Docker环境）curl -sS https://higress.cn/ai-gateway/install.sh | bash

安装完成后访问控制台http://localhost:8001，完成初始化配置。

如果在其他电脑访问，需要重新docker启动，监听在0.0.0.0:8001，而不是loocalhost:8001

# 如果之前有残留容器（虽然大概率没有），先清理
docker rm -f higress-ai-gateway 2>/dev/null

# 启动 Higress（绑定到 0.0.0.0）
docker run -d \
  --name higress-ai-gateway \
  --restart unless-stopped \
  -p 8001:8001 \
  -p 8080:8080 \
  -p 8443:8443 \
  higress-registry.cn-hangzhou.cr.aliyuncs.com/higress/all-in-one:latest

2. 模型接入配置

1）在 Higress 控制台配置 Qwen3-0.6B 的接入方式：

如果是对接厂商的模型，可以通过选择厂商名进行配置，例如：

如果是对接自建的模型，可以使用 OpenAI 兼容模式，填入 baseURL 即可：

2）在 Higress 控制台创建路由，按照前缀的路由规则转发给模型。

若某个大模型需要更多资源，可以使用 AI Token 限流插件对其进行限流：

并在触发限流后，通过模型 fallback 机制兜底到 QwQ-32b 模型：

3. 客户端调用示例（Python）

注意url前缀加了/ai

curl -sv http://10.7.11.21:8080/ai/v1/chat/completions \
    -X POST \
    -H 'Content-Type: application/json' \
    -H 'Host: guo.com' \
    -d \
'{
  "model": "Qwen3-0.6B",
  "messages": [
    {
      "role": "user",
      "content": "您好!"
    }
  ]
}'

Higress AI 网关的进阶功能

多模型服务只是 Higress AI 网关的基本能力之一，其他进阶能力还包括消费者鉴权、模型自动切换等，可以集中解决用户遇到的以下三类问题：

需要在 TPS 和成本之间找到平衡点，不可能无限增加资源。
没有联网搜索，大模型幻觉依然很大。
LLM 可观测，应用、网关、后端 LLM 服务的全链路，贴合 LLM 推理的指标。

我们将 AI 网关的其他能力，汇总如下。

功能	应用场景	实现效果
消费者鉴权	满足多租户模型服务分租、企业内部权限分级管控等需求。	IT 团队可对用户设置使用角色，控制功能权限和资源权限，满足业务和安全需求。
模型自动切换	解决模型自身特性、用户使用不规范、用户使用不规范、依赖服务故障等导致的模型不可用等问题。	模型A出现故障，自动切换到模型B，不需要承担宕机损失。
Token 级别限流	满足系统出现过载情况下保证用户依旧能获得稳定的体验；使用量超出限定值，应用主动设置限流。	避免突发流量导致系统宕机。满足业务需求，例如基于用户分层设定的产品能力差异。
内容安全和合规	过滤掉有害或不适当的内容，检测和阻止包含敏感数据的请求。	用户请求不安全或者不合规的内容时，大模型进行校验，保证内容输出安全、合规。
语义缓存	在网关层自动缓存对应用户的历史对话，在后续对话中自动填充到上下文，从而实现大模型对上下文语义的理解。	大模型 API 调用，缓存命中和未命中，计费价格不同，充分利用该机制降低调用费用。
联网搜索+全文检索	解决开源大模型默认不提供联网搜索+全文检索能力的问题。	获得更好的内容生成效果。
大模型可观测	避免大模型应用的资源消耗比 Web 应用更加敏感和脆弱所导致的模型调用费用方面的资损。	提供 QPS、RT、错误率，基于 consumer/模型的 token 消耗统计，限流消费者统计，缓存命中统计等数据。

Higress AI 网关

完整实现步骤

1. 环境准备

2. 模型接入配置

3. 客户端调用示例（Python）

Higress AI 网关的进阶功能

推荐阅读更多精彩内容