头条
上下文检索
https://www.anthropic.com/news/contextual-retrieval
Anthropic 展示了如何对文档进行语义分块,这可以显著提高性能,同时由于缓存,每百万个分块的成本仅为 1 美元。
Prompting o1
https://platform.openai.com/docs/guides/reasoning/how-reasoning-works
在 OpenAI 的新推理模型令人兴奋之时,人们错过了这个指南。它展示了提示这个新模型的不同之处,需要更简单的提示和更结构化的输入上下文。
Jony Ive 证实他正在与 OpenAI 合作开发一款新设备
https://www.theverge.com/2024/9/21/24250867/jony-ive-confirms-collaboration-openai-hardware
Jony Ive 正在与 OpenAI 首席执行官 Sam Altman 合作开展一个新的 AI 硬件项目。该合资企业有望在年底前筹集 10 亿美元,并邀请了苹果前几位重要设计师参与。该设备的具体细节尚未确定,但它旨在利用生成式人工智能实现高级用户交互。
研究
微调图像条件扩散模型比想象的要容易
https://arxiv.org/abs/2409.11355
已经进行了大量工作,将预训练的图像扩散模型推广到小众深度估计器和其他图像条件模型。这项工作发现,通过简化问题并修复一个小错误,研究人员能够以更少的训练计算获得显着提高的性能。
通过强化学习训练语言模型进行自我纠正
https://arxiv.org/abs/2409.12917
Deepmind 发布了一篇论文,即使实际结果不是最先进的,也显示出希望。它展示了一种强化学习范式,可用于帮助模型在生成数学和代码时进行自我纠正。
Michelangelo:通过潜在结构查询进行 Haystacks 以外的长上下文评估
https://arxiv.org/abs/2409.12640
另一篇出色的 Google 论文展示了如何评估长上下文模型。它在方向上与 Magic 最近的成果相似。
工程
带扩散变换器的 3D Topia
https://github.com/3DTopia/3DTopia-XL
带网格平滑和 PBR 就绪照明的图像和文本到 3D
AI for JQ
https://github.com/taylorai/aiq
简单但功能强大的工具,用于在命令行中标记、嵌入和分类未标记的文本。它还可以在流上运行,使其能够从其他来源接收管道输入。
Kyutai Labs 发布 Moshi 权重
https://github.com/kyutai-labs/moshi
几个月前,这家资金雄厚的实时助理语音初创公司展示了其令人印象深刻的技术。它现在发布了一份详细的技术报告和几个模型工件,包括代码和模型权重。
杂七杂八
单个 GPU 上最强大的 LLM
https://www.upstage.ai/products/solar-pro-preview
Solar Pro 是一个 22B 语言模型,可以安装在单个 80GB GPU 上。该项目的目标是打造可以在单个设备上运行的最强大的模型。
研究揭示家庭监控中的 AI 问题
https://news.mit.edu/2024/study-ai-inconsistent-outcomes-home-surveillance-0919
研究人员发现,大型语言模型在分析监控视频时对是否报警做出不一致的决定。
SAE 直觉
https://adamkarvonen.github.io/machine_learning/2024/06/11/sae-intuitions.html
稀疏自动编码器是当今用于理解语言模型内部的头号工具。这篇文章探讨了模型背后的直觉以及有关它们如何工作的一些有用信息。
通用知识提炼训练器
https://huggingface.co/docs/trl/gkd_trainer
TRL 库已将 GKD 添加到其训练程序中。
Arcade AI 融资 1700 万美元,推出产品创建平台
https://www.prnewswire.com/news-releases/arcade-announces-first-ever-ai-product-creation-platform-302254225.html
Arcade 是一个新平台,用户可以从提示到产品。
Salesforce 利用 Nvidia 开发 AI 驱动的虚拟形象
https://www.marketwatch.com/story/salesforce-taps-nvidia-to-develop-ai-powered-avatars-40acf63a
Salesforce 正在与 Nvidia 合作创建 AI 驱动的虚拟形象,旨在增强虚拟互动和客户服务。