头条

用 AI Agent 模拟 Altman 的董事会纷争

https://venturebeat.com/games/can-sam-altman-win-the-openai-board-fight-in-an-ai-agent-simulation/

游戏和 AI 模拟公司 Fable 使用名为 SIM-1 的 AI 决策框架构建了一个模拟，以探索涉及 Sam Altman 的 OpenAI 董事会纠纷。该模拟利用了多代理竞争和 GPT4o，强调了 Altman 在 20 个场景中只有 4 个不太可能重返 CEO 职位。该研究强调了 AI 在模拟复杂决策环境中的潜力。

Ai2 的 OpenScholar

https://allenai.org/blog/openscholar

Ai2 推出了 OpenScholar，这是一种检索增强语言模型，可搜索相关论文并生成基于这些来源的答案。它将使科学家更容易找到和综合知识。

Anthropic x AWS trainium 合作

https://www.anthropic.com/news/anthropic-amazon-trainium

作为最近一项投资的一部分，Anthropic 正在与 AWS 合作，以提高 trainium 推理和工具的质量。

研究

修复 AI 生成图像中的人体伪影

https://arxiv.org/abs/2411.13842v1

本研究通过引入人体伪影数据集 (HAD) 解决了文本转图像模型中人体扭曲的难题，该数据集是一个包含超过 37,000 张带注释图像的大型数据集。

提升 LLM 中的低资源语言

https://arxiv.org/abs/2411.14343v1

UnifiedCrawl 提供了一种新方法，可以使用最少的计算能力从 Common Crawl 中收集低资源语言的大规模文本数据。

一种新的图像到视频模型

https://arxiv.org/abs/2411.13975v1

研究人员开发了图像到视频扩散模型，可以从静态图像生成逼真的运动变换，解决了仿射变换等传统方法的局限性。

工程

AIMv2：新视觉模型

https://github.com/apple/ml-aim

AIMv2 系列视觉模型利用多模态自回归训练方法，在各个任务中表现出色。

用于训练 LLM 的新注意力机制

https://github.com/haonan3/anchorcontext

AnchorAttention 是一种新的注意力机制，旨在增强长上下文场景中大型语言模型的训练。它解决了使用 BFloat16 精度时与旋转位置嵌入 (RoPE) 相关的数值挑战。

结合卷积和自注意力实现高效视觉模型

https://github.com/rayleizhu/glmix

GLMix 是一种在视觉任务中以不同粒度集成卷积和多头自注意力 (MHSA) 的新方法。卷积处理细粒度局部特征，而 MHSA 则在粗粒度语义槽上运行以获得全局洞察。

杂七杂八

Echo Mimic v2

https://antgroup.github.io/ai/echomimic_v2/

开放权重系统，使用参考图像和音频输入来为部分人体制作动画。它使用姿势特定的 VAE 来结合来自各个通道的信息和参考图像来制作动画。

Gwern Branwen - 一位匿名研究人员如何预测人工智能的发展轨迹

https://www.dwarkeshpatel.com/p/gwern-branwen

在这篇文章中，LLM 扩展的早期观察者 Gwern Branwen 讨论了人工智能的进展及其对 AGI 发展的影响，强调了扩展和计算相对于传统算法突破的重要性。他反思了人类智能与人工智能的潜在作用，以及即将到来的减肥药等技术进步对人类行为的影响。Branwen 还分享了他的写作过程以及人工智能对创造性工作的更广泛影响的见解。