头条
用 AI Agent 模拟 Altman 的董事会纷争
https://venturebeat.com/games/can-sam-altman-win-the-openai-board-fight-in-an-ai-agent-simulation/
游戏和 AI 模拟公司 Fable 使用名为 SIM-1 的 AI 决策框架构建了一个模拟,以探索涉及 Sam Altman 的 OpenAI 董事会纠纷。该模拟利用了多代理竞争和 GPT4o,强调了 Altman 在 20 个场景中只有 4 个不太可能重返 CEO 职位。该研究强调了 AI 在模拟复杂决策环境中的潜力。
Ai2 的 OpenScholar
https://allenai.org/blog/openscholar
Ai2 推出了 OpenScholar,这是一种检索增强语言模型,可搜索相关论文并生成基于这些来源的答案。它将使科学家更容易找到和综合知识。
Anthropic x AWS trainium 合作
https://www.anthropic.com/news/anthropic-amazon-trainium
作为最近一项投资的一部分,Anthropic 正在与 AWS 合作,以提高 trainium 推理和工具的质量。
研究
修复 AI 生成图像中的人体伪影
https://arxiv.org/abs/2411.13842v1
本研究通过引入人体伪影数据集 (HAD) 解决了文本转图像模型中人体扭曲的难题,该数据集是一个包含超过 37,000 张带注释图像的大型数据集。
提升 LLM 中的低资源语言
https://arxiv.org/abs/2411.14343v1
UnifiedCrawl 提供了一种新方法,可以使用最少的计算能力从 Common Crawl 中收集低资源语言的大规模文本数据。
一种新的图像到视频模型
https://arxiv.org/abs/2411.13975v1
研究人员开发了图像到视频扩散模型,可以从静态图像生成逼真的运动变换,解决了仿射变换等传统方法的局限性。
工程
AIMv2:新视觉模型
https://github.com/apple/ml-aim
AIMv2 系列视觉模型利用多模态自回归训练方法,在各个任务中表现出色。
用于训练 LLM 的新注意力机制
https://github.com/haonan3/anchorcontext
AnchorAttention 是一种新的注意力机制,旨在增强长上下文场景中大型语言模型的训练。它解决了使用 BFloat16 精度时与旋转位置嵌入 (RoPE) 相关的数值挑战。
结合卷积和自注意力实现高效视觉模型
https://github.com/rayleizhu/glmix
GLMix 是一种在视觉任务中以不同粒度集成卷积和多头自注意力 (MHSA) 的新方法。卷积处理细粒度局部特征,而 MHSA 则在粗粒度语义槽上运行以获得全局洞察。
杂七杂八
Echo Mimic v2
https://antgroup.github.io/ai/echomimic_v2/
开放权重系统,使用参考图像和音频输入来为部分人体制作动画。它使用姿势特定的 VAE 来结合来自各个通道的信息和参考图像来制作动画。
Gwern Branwen - 一位匿名研究人员如何预测人工智能的发展轨迹
https://www.dwarkeshpatel.com/p/gwern-branwen
在这篇文章中,LLM 扩展的早期观察者 Gwern Branwen 讨论了人工智能的进展及其对 AGI 发展的影响,强调了扩展和计算相对于传统算法突破的重要性。他反思了人类智能与人工智能的潜在作用,以及即将到来的减肥药等技术进步对人类行为的影响。Branwen 还分享了他的写作过程以及人工智能对创造性工作的更广泛影响的见解。
苦涩的宗教:人工智能对缩放定律的圣战
https://www.generalist.com/briefing/the-bitter-religion
人工智能社区对“苦涩的宗教”及其将缩放计算作为人工智能性能的主要驱动力的关注存在分歧。包括 OpenAI 领导者在内的一些人认为 AGI 可以通过持续扩展很快实现,而另一些人则认为需要其他科学进步。这场争论影响了人工智能和邻近领域的投资和发展战略,因为缩放定律可能无法长期持续。
LTX-Video
https://github.com/Lightricks/LTX-Video
第一个生成视频的速度比观看速度快的视频模型。
Documind
https://github.com/DocumindHQ/documind
Documind 利用 AI 从 PDF 中提取结构化数据,方法是将 PDF 转换为图像并利用 OpenAI 的 API。
为什么软件开发中的 LLM 可能是死胡同
https://thenewstack.io/why-llms-within-software-development-may-be-a-dead-end/
软件开发中的 LLM 因缺乏可分解性和可解释性而面临挑战。