Higress AI 网关

完整实现步骤

1. 环境准备

# 一键安装Higress(需Docker环境)curl -sS https://higress.cn/ai-gateway/install.sh | bash

安装完成后访问控制台http://localhost:8001,完成初始化配置。

如果在其他电脑访问,需要重新docker启动,监听在0.0.0.0:8001,而不是loocalhost:8001

# 如果之前有残留容器(虽然大概率没有),先清理
docker rm -f higress-ai-gateway 2>/dev/null

# 启动 Higress(绑定到 0.0.0.0)
docker run -d \
  --name higress-ai-gateway \
  --restart unless-stopped \
  -p 8001:8001 \
  -p 8080:8080 \
  -p 8443:8443 \
  higress-registry.cn-hangzhou.cr.aliyuncs.com/higress/all-in-one:latest

2. 模型接入配置

1)在 Higress 控制台配置 Qwen3-0.6B 的接入方式:

如果是对接厂商的模型,可以通过选择厂商名进行配置,例如:


如果是对接自建的模型,可以使用 OpenAI 兼容模式,填入 baseURL 即可:



2)在 Higress 控制台创建路由,按照前缀的路由规则转发给模型。


若某个大模型需要更多资源,可以使用 AI Token 限流插件对其进行限流:



并在触发限流后,通过模型 fallback 机制兜底到 QwQ-32b 模型:


3. 客户端调用示例(Python)

注意url前缀加了/ai

curl -sv http://10.7.11.21:8080/ai/v1/chat/completions \
    -X POST \
    -H 'Content-Type: application/json' \
    -H 'Host: guo.com' \
    -d \
'{
  "model": "Qwen3-0.6B",
  "messages": [
    {
      "role": "user",
      "content": "您好!"
    }
  ]
}'

Higress AI 网关的进阶功能

多模型服务只是 Higress AI 网关的基本能力之一,其他进阶能力还包括消费者鉴权、模型自动切换等,可以集中解决用户遇到的以下三类问题:

  • 需要在 TPS 和成本之间找到平衡点,不可能无限增加资源。
  • 没有联网搜索,大模型幻觉依然很大。
  • LLM 可观测,应用、网关、后端 LLM 服务的全链路,贴合 LLM 推理的指标。

我们将 AI 网关的其他能力,汇总如下。


功能 应用场景 实现效果
消费者鉴权 满足多租户模型服务分租、企业内部权限分级管控等需求。 IT 团队可对用户设置使用角色,控制功能权限和资源权限,满足业务和安全需求。
模型自动切换 解决模型自身特性、用户使用不规范、用户使用不规范、依赖服务故障等导致的模型不可用等问题。 模型A出现故障,自动切换到模型B,不需要承担宕机损失。
Token 级别限流 满足系统出现过载情况下保证用户依旧能获得稳定的体验;使用量超出限定值,应用主动设置限流。 避免突发流量导致系统宕机。满足业务需求,例如基于用户分层设定的产品能力差异。
内容安全和合规 过滤掉有害或不适当的内容,检测和阻止包含敏感数据的请求。 用户请求不安全或者不合规的内容时,大模型进行校验,保证内容输出安全、合规。
语义缓存 在网关层自动缓存对应用户的历史对话,在后续对话中自动填充到上下文,从而实现大模型对上下文语义的理解。 大模型 API 调用,缓存命中和未命中,计费价格不同,充分利用该机制降低调用费用。
联网搜索+全文检索 解决开源大模型默认不提供联网搜索+全文检索能力的问题。 获得更好的内容生成效果。
大模型可观测 避免大模型应用的资源消耗比 Web 应用更加敏感和脆弱所导致的模型调用费用方面的资损。 提供 QPS、RT、错误率,基于 consumer/模型 的 token 消耗统计,限流消费者统计,缓存命中统计等数据。
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容