上个月看账单的时候心态有点崩——团队的AI API费用比预期高了一大截。
但我没换模型,没砍功能,代码改动加起来不超过10行,最后费用降了超过60%。
听起来像标题党?往下看。
---
## 先说最管用的一招:换API网关
这是我做的第一件事,也是效果最明显的。
什么是API网关?简单说就是一个中间商。它从OpenAI、Anthropic这些厂商批量采购API额度,然后以更低的价格转卖给你。你通过它调用API,享受批量采购的折扣。
就像去批发市场买水果,虽然批发商也赚钱,但你买到手的价格还是比便利店便宜得多。
我试了几家,最后选了 Crazyrouter。原因很简单:
第一,价格确实低。海外模型统一低于官方定价,国产模型更是便宜到几乎可以忽略。
第二,627个模型一个Key搞定。不用注册一堆账号,OpenAI一个、Anthropic一个、Google一个……一个Key全搞定。
第三,额度永不过期。充多少用多少,不会三个月不用就清零。
第四,全球7个节点。国内走香港或日本节点,延迟很低。
切换代码真的只要改两行:
```python
from openai import OpenAI
client = OpenAI(
base_url="网关地址/v1", # 改成你的网关地址
api_key="your-gateway-key" # 改成你的Key
)
# 下面的代码一行都不用动
response = client.chat.completions.create(
model="gpt-5.2",
messages=[{"role": "user", "content": "你好"}]
)
```
完全兼容OpenAI SDK,Function Calling、Vision、流式输出全部正常。跑了一周零异常。
光这一步,月费就大幅降低了。
---
## 第二招:别什么任务都用最贵的模型
这是很多人的通病。一条简单的文本分类,用Claude Opus来做?就好比叫外卖炒个蛋炒饭,非要请米其林大厨,味道差不多但价格差了100倍。
我的做法是按任务分配模型:
简单任务(分类、提取、问答)→ DeepSeek R1,成本极低,准确率只差1-2个百分点。
中文任务(翻译、总结、写作)→ Qwen Max,中文理解力某些维度比GPT还好。
需要创意的(对话、文案)→ GPT-5.2。
复杂任务(代码、推理)→ Claude Opus,确实最强,值得用贵的。
长文档 → Gemini 3 Pro,上下文窗口大。
```python
def get_model(task):
models = {
"classification": "deepseek-r1",
"translation": "qwen-max",
"conversation": "gpt-5.2",
"coding": "claude-opus-4.6",
"long_doc": "gemini-3-pro",
}
return models.get(task, "claude-sonnet-4.5")
```
我做了A/B测试:DeepSeek R1在分类任务上准确率94.2%,Claude Opus是95.8%,差1.6个百分点,但成本差了两个数量级。
把批量处理任务全切到DeepSeek后,费用又降了一截。
---
## 第三招:少花token,多办事
Token就是钱。每多一个无意义的token,就是在烧钱。
几个立竿见影的技巧:
**精简系统提示词。** 系统提示词每次请求都会发,调用1万次就发1万次。
优化前(287 tokens):
> 你是一个非常有帮助的AI助手,你需要尽可能详细和全面地回答用户的问题。在回答时,请确保你的回答是准确的、有用的……
优化后(42 tokens):
> 简洁准确回答。中文。不确定则说明。
效果一样,token减少85%。
**强制结构化输出。** 模型默认会输出很多"废话"——"好的,让我来帮你分析一下……综上所述……"加上 `response_format={"type": "json_object"}` 后,输出token减少30-50%。
**控制max_tokens。** 只需要一句话的回答,别让模型写一篇文章。
**先试Zero-shot。** 2026年的模型大部分任务不需要Few-shot示例了,每个示例都要消耗几百个input token。
四个技巧叠加,平均token消耗降了约18%。
---
## 第四招:缓存
如果你的应用有大量相似查询(客服系统、FAQ机器人),缓存是你的好朋友。
最简单的做法——精确匹配缓存:
```python
import hashlib, redis, json
r = redis.Redis()
def cached_completion(model, prompt, ttl=3600):
key = f"llm:{model}:{hashlib.md5(prompt.encode()).hexdigest()}"
cached = r.get(key)
if cached:
return json.loads(cached) # 命中!省一次API调用
response = client.chat.completions.create(
model=model,
messages=[{"role": "user", "content": prompt}]
)
result = response.choices[0].message.content
r.setex(key, ttl, json.dumps(result))
return result
```
我们客服系统上了缓存后,API调用量减少了32%。将近三分之一的问题是重复的,这部分直接变成Redis查询,成本几乎为零。
---
## 国产模型:省钱的终极武器
最后重点说说国产模型。
2026年的国产大模型已经非常能打了。DeepSeek R1在推理任务上达到GPT-4级别,Qwen Max的中文能力某些维度超过GPT-5.2。
而通过Crazyrouter调用国产模型,价格优势非常明显。用DeepSeek R1处理日常任务,月费可以控制在一杯咖啡以下。
我的终极建议:
1. 能用国产模型的任务全部切过去。翻译、总结、分类、提取——国产模型完全胜任,中文场景下往往更好。
2. 复杂任务再用海外模型,通过网关也能享受更优惠的价格。
3. 这样搭配下来,整体费用能降到原来的三分之一甚至更低。
---
## 总结
四个策略按优先级:
1. 换API网关(5分钟,改两行代码,立刻见效)
2. 智能路由(1小时,简单任务用便宜模型)
3. Prompt优化(半天,精简提示词+控制输出)
4. 语义缓存(1-2天,重复请求不重复付费)
如果只能做一件事,那就换网关。5分钟搞定,投入产出比最高。
---
感兴趣的话搜 **Crazyrouter** 就能找到,注册就送额度,可以先试试。