头条
Anthropic 宣布推出模型上下文协议
https://www.anthropic.com/news/model-context-protocol
模型上下文协议 (MCP) 是一种新的开放标准,旨在将 AI 系统直接连接到业务工具和内容存储库等数据源。它通过用通用协议取代零散的自定义集成,简化了让 AI 访问所需数据的过程,使系统更具可扩展性和有效性。
OpenAI 分享红队演练,让 AI 更安全
https://openai.com/index/advancing-red-teaming-with-people-and-ai/
OpenAI 发布了两篇论文,扩大了红队演练范围:一篇详细介绍了外部专家如何参与红队演练,另一篇介绍了一种新的自动化测试方法。
Nvidia CEO在 AI Lab 改进 AI 模型, 同时捍卫自己的护城河
随着 AI 模型的发展,“测试时间扩展”变得越来越重要。Nvidia 已为这一转变做好准备。这种方法通过提高计算能力来增强 AI 推理,随着初创公司开发快速 AI 推理芯片,它带来了竞争挑战。尽管人们担心收益递减,但 Nvidia 仍专注于利用其在预训练方面的主导平台优势,但预计 AI 推理将有所增长。
研究
Coalescence:使 LLM 推理速度提高 5 倍
https://blog.dottxt.co/coalescence.html
“Coalescence” 是一个框架,在生成 JSON 等结构化输出时,可使 LLM 推理速度提高 5 倍。该技术的工作原理是将结构化格式转换为有限状态机,并识别导致相同输出的冗余路径,从而使它们跳过不必要的 LLM 调用。虽然它显著提高了速度,但重要的是要保持输出质量,确保优化不会阻止生成更可能的序列。
WildLMa:野外长视野局部操控
https://arxiv.org/abs/2411.15131
WildLMa 是一个框架,使四足机器人能够在现实环境中执行复杂的操控任务。该系统结合了三个关键组件:用于 VR 远程操作的全身控制器、通过模仿学习 (WildLMa-Skill) 学习到的可泛化技能库,以及协调这些技能以完成长期任务的基于语言模型的规划器 (WildLMa-Planner)。在本文中,研究人员展示了如何将其用于清理走廊垃圾和重新排列书架上的物品等任务。该框架在不同环境和对象配置中保持有效性。
多模态模型评估
https://mmgenbench.alsoai.com/
MMGenBench 是一种针对大型多模态模型的新评估流程,重点关注其生成和解释图像的能力。使用此方法,模型可以从输入图像生成描述,然后使用这些描述创建新图像进行比较。
工程
Marco-o1:面向开放式解决方案的开放式推理模型
https://github.com/AIDC-AI/Marco-o1
Marco-o1 是一门 LLM,旨在处理标准问题(如数学和编码)和没有明确正确答案的开放式任务。该模型结合了思想链微调、蒙特卡洛树搜索、反射机制和新颖的推理策略来解决复杂的现实问题,而传统的强化学习方法可能会因为不明确的奖励信号和成功指标而陷入困境。
Moondream Python 客户端
https://github.com/vikhyat/moondream/tree/main/clients/python
Moondream 的 Python 客户端库包含用于图像分析和查询的工具。它提供针对 CPU 优化的推理,但目前不推荐用于 GPU 或 Mac M1/M2/M3 用户。用户可以通过 pip 安装它。模型权重可以以不同的格式下载(int8、fp16 或 int4)。
SANA:使用线性扩散变换器进行高效的高分辨率图像合成
https://github.com/NVlabs/Sana
Sana 是一种高效的图像生成模型,可以在不到一秒的时间内用笔记本电脑 GPU 创建高质量的 1024x1024 图像。其关键创新包括 32 倍图像压缩自动编码器 (DC-AE)、用线性注意力取代 DiT 中的 vanilla 注意力、仅用于文本编码的解码器 LLM,以及优化的训练和采样方法。0.6B 参数模型与 Flux-12B 等更大的模型相当或优于它们,同时体积小 20 倍,速度快 100 倍。 Sana-0.6B 仅需要 9GB VRAM 即可进行推理,因此适用于消费级硬件。该存储库包含用于训练、推理和评估的代码,并提供 0.6B 和 1.6B 模型变体。
杂七杂八
LLM 和国际象棋发生了一些奇怪的事情
https://dynomight.substack.com/p/chess
本文探讨了不同的 LLM 在下国际象棋时的表现。大多数模型在几步之后都会遇到困难,但 GPT-3.5-turbo-instruct 除外,它的表现非常好。这表明指令调整可能会阻碍国际象棋能力,或者 GPT-3.5-turbo-instruct 可能在更多的国际象棋数据上进行了训练。标记器处理可能存在问题,从而影响模型性能。
超级智能时代的人类价值评估:HumaneRank
https://roadtoartificia.com/p/valuing-humans-in-the-age-of-superintelligence-humanerank
人工智能可能超越人类的智力产出,从而导致经济取代。拟议的 Humanerank 系统通过允许个人分发认可、反映社会价值和确定资源分配来调整这一点。这既维护了市场机制和人类自由,又为在人工智能主导的世界中评估人类贡献提供了一个新的框架。
流模型
https://drscotthawley.github.io/blog/posts/FlowModels.html
基于流的建模的精彩介绍,这是对扩散的理论改进。
Juna.ai 希望使用 AI 代理使工厂更节能
AI 代理正在获得关注,Salesforce 和 Google 等大公司投入巨资,德国 Juna.ai 等初创公司也进入市场。
创建 AI 驱动的游戏课程
https://www.deeplearning.ai/short-courses/building-an-ai-powered-game/
这是由 Andrew Ng、Latitude 和 Together AI 开设的课程,介绍如何制作 AI 驱动的游戏。
更清晰的红外图像
https://github.com/hey-it-s-me/corple
该项目提高了红外图像的图像超分辨率,解决了传统方法扭曲光谱保真度的问题。