
头条
DeepSeek-Math-V2
https://huggingface.co/deepseek-ai/DeepSeek-Math-V2
Deepseek 的新数学推理模型在2025年国际数学奥林匹克竞赛(IMO)中达到了金牌水平,与谷歌和OpenAI近期的成果相当。该方法训练了一个基于大语言模型(LLM)的证明验证器,作为奖励模型。这激励生成器逐步验证推理过程,而不只是验证最终答案,解决了正确答案不能保证推理正确这一根本问题。
分析数据泄露暴露 API 用户后,OpenAI 切断与 Mixpanel 的合作
https://www.theregister.com/2025/11/27/openai_mixpanel_api/
OpenAI API用户可能会受到数据分析供应商Mixpanel近期数据泄露事件的影响。只有API用户受影响,普通ChatGPT用户无需采取任何行动。泄露的数据包括姓名、大致位置、操作系统和浏览器详情以及用户ID。由于此次攻击,OpenAI不再与Mixpanel合作。它还在其供应商体系内开展更广泛的安全审查。
谷歌因“需求旺盛”调整Gemini 3 Pro免费使用额度
https://9to5google.com/2025/11/27/gemini-3-pro-free-limits/
谷歌更新了Gemini 3 Pro的访问规则。现在,免费用户只能获得基本访问权限,使用3 Pro进行思考功能时,每日使用限制可能频繁变动。考虑到行业整体需求趋势,限制可能收紧了。NotebookLM取消了免费用户对由Nano Banana Pro驱动的新信息图表和幻灯片的访问权限,并对Pro用户设置了使用限制。
深度分析
搜索索引的护城河
https://robonomics.substack.com/p/search-the-moat-of-the-search-index
ChatGPT用“代理”方法超越了谷歌搜索,它从多个来源提取相关信息并整合答案,削弱了谷歌传统搜索索引的优势。这种方法减少了单个搜索结果失败的影响,不过它处理长尾、最新或SEO比重高的查询时会有困难。传统搜索引擎的护城河基本消失了,人工智能驱动的模型正越来越多地融合搜索能力。
如何为Nano Banana Pro 创建有效的提示词
https://www.radicalcuriosity.xyz/p/how-to-create-an-effective-prompt
设计漫画是个复杂挑战,要把讲故事、视觉结构、风格统一,以及将抽象概念转化为插图序列的能力结合起来。这篇文章详细介绍了如何用Nano Banana Pro创作漫画,还给出了一个元提示,读者可以用它为Nano Banana生成提示。
DeepSeek OCR 评测
https://lukeatkins.me/90_30_Club/posts/deepseekocr/
DeepSeek-OCR由两部分组成:DeepEncoder和作为解码器的DeepSeek3B-MoE-A570M。在实际应用中,它每天能为大语言模型(LLM)/视觉语言模型(VLM)生成超20万页的训练数据。这篇文章分享了阅读已发布论文后的一些初步想法。
工程
Better Agents (GitHub 仓库)
https://github.com/langwatch/better-agents
Better Agents 是一款命令行工具,也是一套构建智能体的标准。它能让代码助手精通任何智能体框架。该工具会生成一份 AGENTS.md 文件,确保遵循行业最佳实践。命令行工具会引导用户选择编程语言、智能体框架、代码助手、大语言模型供应商和 API 密钥。
复合工程插件(GitHub 仓库)
https://github.com/EveryInc/compounding-engineering-plugin
复合工程插件是Claude Code的一款插件,它能改变开发者使用人工智能工具规划、编写和审查代码的方式,系统地优化开发流程。复合工程的理念是,每一项工程工作都应让后续工作更轻松,而非更困难。该插件提供了实现复合工程的工具。
INTELLECT - 3:用大规模强化学习训练的超1000亿参数混合专家模型
https://www.primeintellect.ai/blog/intellect-3
INTELLECT - 3是一个参数超1000亿的混合专家模型,在数学、代码、科学和推理基准测试中,以其规模取得了顶尖成绩。它是在GLM 4.5 Air基础模型上,通过监督微调(SFT)和强化学习(RL)训练而成。研究人员采用了多样且有挑战性的强化学习环境组合,以提升模型的推理和自主能力。训练的完整细节已公布。
Open Deep Research(GitHub 代码库)
https://github.com/langchain-ai/open_deep_research
这是一个基于 LangGraph 的实验性全开源研究助手。它能自动开展深度主题研究,通过规划、收集资料,撰写结构化的 markdown 报告。可以采用人工介入的工作流程,也能使用多智能体架构,还能配置模型、搜索工具,实现提示和评估集成。
其他
失控的成本
https://x.com/sqs/status/1994157344461345049
“废线程”指的是模型开始大量输出泄露的思考内容或重复的标记。这通常意味着用户得放弃并撤销该线程。在Amp中,Gemini用户产生的成本里,有17.8%花在了“废标记”上。这比Sonnet差两倍多,比Opus差近八倍。
关于GPL对基于GPL代码训练的人工智能模型的传播影响理论的现状
https://shujisado.org/2025/11/27/gpl-propagates-to-ai-models-trained-on-gpl-code/
对于是否要让模型遵循GPL传播,目前尚无定论。短期内这不大可能成为现实。当前的诉讼是在寻求禁令和赔偿,而非强制让模型遵循GPL,所以这在法律上仍是未知领域。我们需要继续探索如何让技术创新和软件自由兼容。
据报道,因显存短缺,英伟达不再向其GPU板卡合作伙伴供应显存。
据报道,英伟达将停止为其卖给显卡厂商(AIB)的GPU捆绑显存。合作伙伴得自己去采购所需的显存。对大型供应商来说,这不成问题,因为这已是常规操作。此举可能会给小规模运营商带来巨大压力,让它们面临倒闭风险。
仅保留模型权重还不够
https://www.lesswrong.com/posts/fGCGJGCKMLbfquKiu/model-weight-preservation-is-not-enough
如果我们真的关心模型福祉,就需要考虑实例保存的问题。
Claude科学技能(GitHub 代码库)
https://github.com/K-Dense-AI/claude-scientific-skills
这个代码库包含123种以上可供Claude直接使用的科学技能。
对人类来说轻而易举,对AI却难如登天的提示
https://teodordyakov.github.io/the-impossible-promt/
这篇文章给出了一个罕见的提示,答案简单明确,很容易验证。大语言模型(LLM)每次都会答错,而大多数人能给出正确答案。
情报;智能
https://mathstodon.xyz/@tao/115620261936846090
智能这个话题太复杂了,任何简单的描述都不可能完全准确。