最近 Google 发布的 Gemini 3.1 Pro 在圈子里讨论度很高,正好我在一个叫 KULAAI(m.877ai.cn)的 AI 模型聚合平台上第一时间用上了它。那个站点把国内外主流大模型都整合到了一起,不用一个账号一个账号去注册,切模型跟切频道似的,对新模型尝鲜特别友好。深度体验了一周多,想聊聊最打动我的 5 个功能,每一个都切中了真实工作流,不只是参数好看。

一、百万 Token 上下文,终于能读完一整本代码库了
之前用很多模型,上下文一超过几十页就开始忘事。这次 Gemini 3.1 Pro 把上下文窗口直接拉到了百万 Token 级别,还不是那种“勉强支持但准确率跳水”的噱头。
我手里有一个客户的老项目,单文件不大,但模块互相 include,总代码量有 40 多万行。我把核心目录做成一个文本快照扔进去,让模型帮我梳理调用链路,找出了 3 个循环依赖。它不光标记了位置,还给了我重构顺序的建议。这种“把整本说明书吞下去再回答问题”的体验,之前只有 Claude 的长窗口做得比较好,但现在 Gemini 的速度和召回准确率明显更稳,基本没有漏掉文件中间的函数声明。
从趋势上看,长上下文不再是卖点,而是刚需。以后我们评判模型,可能不再问“你能读多长”,而是问“这么长的内容,你还能精准提取多少次”。Gemini 3.1 Pro 在这种情况下展现出的检索增强生成一致性,比很多加了 RAG 的套壳方案还靠谱。
二、原生多模态理解,连视频里的细微动作都能抓住
之前多模态大多停留在“看图说话”,可这次 Gemini 3.1 Pro 对视频流的理解上升到了动作逻辑层。
我上传了一段产品操作录屏,没有附带任何解说,直接让它分析用户在哪一步产生了困惑。它不仅给出了时间戳,还指出鼠标在某个按钮区域来回滑动了 4 秒,且点击前有一次明显的犹豫悬停,由此推测交互文案不明确。这种粒度,以前你得先做埋点、再看热力图、再人工复盘,现在一个视频扔进去直接就出结论了。
和 GPT-4o 对比了一下,GPT-4o 也会描述视频里有什么,但在把视觉细节转化成用户体验洞察这一点上,Gemini 3.1 Pro 的逻辑链更主动。给我的感觉是,Google 把 YouTube 和搜索里积累的多模态理解能力下沉到了模型层,这是一条跟 OpenAI 依赖的静态图文训练数据很不同的路径。未来的 AI 视频编辑、自动化 QA、甚至无人巡检,可能会被这类模型彻底改变。
三、深度推理模式,复杂任务自己拆解、自己验证
很多模型都有 Chain-of-Thought,但经常是“假装思考”,步骤列得漂亮,结果一跑就错。Gemini 3.1 Pro 的推理模式允许模型在面对开放问题时,自己分阶段定义子目标,并且会用工具去验证中间结论。
我试了一个真实需求:给一家小咖啡馆设计一个本月会员复购活动,预算 3000 元,需要同时考虑毛利率和翻台率。它没有直接甩我一个方案,而是先拆成“当前时段客单价和毛利估算”“同城竞品参考活动”“低预算高感知触点”三个子任务,然后调用内置的搜索工具去拉了参考数据,最后输出了一版带成本预估、风险提示和 A/B 测试建议的策划。逻辑衔接得非常好,完全像是一个初级运营分析师的工作流派。
这跟 Claude 那种偏保守的长文写作助手定位不太一样,Gemini 3.1 Pro 更像一个喜欢主动动手解题的工程师。以后“推理”这个标签会越来越分化:有的模型推理是为了写出更优美的文字,有的则是为了在真实环境里完成任务。后者对 Agent 化来说,价值更大。
四、工具调用 API 与 Google 生态的丝滑咬合
这个功能表面不性感,但极度实用。Gemini 3.1 Pro 对 Function Calling 的支持非常可靠,而且跟 Google 搜索、地图、邮箱这些 API 有天然的结合优势。
我搭建了一个极简的个人助理自动化流:每天上午 9 点,它通过搜索 API 抓取我关注的 5 个细分赛道新闻,按重要程度排序,然后自动调用 Gmail API 生成一封 HTML 邮件推给我。整个过程只写了几十行 Python,难点全在 prompt 设计上。模型对工具返回的结构化数据解析得非常干净,几乎没有出现幻觉编造 JSON 字段的情况。
相比 OpenAI 的 Function Calling,Gemini 3.1 Pro 的 schema 兼容性更好一些,尤其在嵌套对象和多选一参数场景下,不会擅自脑补。另外就是调用成本,这个我们看下一点。工具调用是模型从“聊天玩具”变成“数字员工”的必经接口,谁家稳定、便宜、生态广,谁就能抢到更多自动化工作流的入口。
五、价格真的下来了,AI 普惠才不是空话
最后打动我的可能有点俗,但非常现实:价格。
Gemini 3.1 Pro 的百万 Token 输入成本,比前一代又降了一个数量级,而且免费额度给的比较大方。我这一周高强度测试,调用了一堆长文档和视频解析,基本没花什么钱。
我们把性价比拉出来比一比:处理一次 50 万 Token 的巨型代码审查,GPT 系列和 Claude 的高配版可能得花掉一杯咖啡的钱,而 Gemini 3.1 Pro 可能只相当于一颗糖。对于个人开发者、小团队、内容创作者来说,这意味着你可以把它深深嵌入日常而不心疼。AI 不用供着,随手就能用,这才是真正的生产力爆发点。
而且这种低成本不是靠牺牲性能换来的,说明推理架构和底层 TPU 的优化真的奏效了。未来模型竞争会从单纯的跑分,转向“单位质量的成本”。谁能让用户肆无忌惮地做多次深度推理、反复生成视频分析,谁就能沉淀下更多的真实数据,进而迭代出更贴近实战的模型。
回头看这五个功能,其实都延续了一个逻辑:不是去做一个比前代更会考试的神童,而是变成一个更懂你工作流程、也更让个人用户用得起的搭档。AI 的下半场不会再有那么多“颠覆世界”的叙事,真正的好东西,就是能每天帮你省下两小时,还不用心疼账单。Gemini 3.1 Pro 在这个方向上,踩得很扎实。