头条
世界上最大的开源模型
Near Protocol 宣布计划创建一个拥有 1.4 万亿参数的庞大开源 AI 模型。它旨在超越 Meta 的 Llama 等现有模型。
Modal 收购 Tidbyt
https://modal.com/blog/tidbyt-is-joining-modal
这是弹性扩展 GPU 公司首次收购。Modal 收购了位于纽约的硬件公司 Tidbyt,以吸引该团队在基础设施和容器化方面的内部人才。
OpenAI 面临 AI 改进放缓
据报道,OpenAI 的下一个主要模型代号为“Orion”,与之前的模型相比改进较少,这表明 AI 进步放缓。为了解决这个问题,OpenAI 成立了一个基础团队,专注于使用替代方法(例如合成数据训练和训练后调整)来增强模型,因为新数据的可用性已经减少。
研究
Frontier Math Benchmark
Epoch AI 发布了一项新的具有挑战性的数学基准。大多数前沿模型无法解决超过 2% 的问题。
BitNet a4.8:1 位 LLM 的 4 位激活
https://arxiv.org/abs/2411.04965
1.58 位 LLM 面临的一个关键挑战是缺乏硬件加速支持。这项工作提出了 4.8 位激活,以利用新硬件中的 INT4/FP4 内核。它没有运行时成本。
使用 LLM 增强 CLIP
https://microsoft.github.io/LLM2CLIP/
LLM2CLIP 将 CLIP 的视觉和文本对齐与 LLM 的高级语言理解相结合。
工程
Torch 兼容 Muon 优化器
https://github.com/KellerJordan/Muon
Muon 是用于 GPT-2 训练记录的优化器。它是一种动量适应的 SGD 样式方法。此存储库包含一个可以放入 AdamW 的实现。
具有优化推理的 Mochi 视频模型
https://github.com/xdit-project/mochi-xdit
Mochi 是最好的开源文本转视频模型。在发布时,它需要 8 个 H100 才能运行。现在,感谢社区,它可以在单个 48GB L40 上运行,不会损失质量。
可训练的 AlphaFold3 PyTorch 复刻版
https://github.com/bytedance/Protenix
Protenix 是 DeepMind 蛋白质折叠项目 AlphaFold3 的可运行、可训练复刻版。它由字节跳动的“AI for Science”团队编写。
杂七杂八
LlamaPReview
https://github.com/marketplace/llamapreview
LlamaPReview 是 GitHub 的 AI 助手,提供一键安装和自动审查拉取请求的功能,并具有上下文感知分析功能。它支持多种编程语言,并与 GitHub Actions 集成,可直接在 PR 上提供有见地的反馈。它目前免费提供,通过识别问题和建议优化来提高代码质量。
SmolLM2
https://simonwillison.net/2024/Nov/2/smollm2/
Hugging Face 的 SmolLM2 是一个紧凑的语言模型系列,其参数大小从 135M 到 1.7B 不等,在 11 万亿个 token 上进行训练。这些模型可在设备上高效运行并支持各种任务,权重可在 Apache 2 许可下使用。量化模型(如 1.7GB 和 138MB 版本)为不同的计算需求提供了不同的灵活性。
嵌入被低估了
https://technicalwriting.dev/data/embeddings.html
机器学习嵌入可以通过对任意文本进行数学比较来改变技术写作,从而改进具有语义相似性的推荐系统等功能。它们将文本置于多维空间中,提供直观的语义关系,这对于识别相关内容等任务很有用。为其内容提供嵌入的文档站点所有者可以从他们的社区中培养创新应用程序。
三星推出人工智能“下一代 Bixby”,但目前还不能使用
https://9to5google.com/2024/11/06/samsung-next-generation-bixby-china/
三星在中国的 Galaxy W25 和 W25 Flip 上推出了具有增强人工智能功能的“下一代 Bixby”。
现在就连微软记事本也开始使用人工智能文本编辑
https://www.theverge.com/2024/11/6/24289707/microsoft-notepad-ai-text-editing-rewrite
微软正在将人工智能文本编辑功能集成到记事本中,使用户能够通过一项名为“重写”的功能重新措辞、调整语气和修改文本长度。
用于实时聚变等离子体行为预测和操控的人工智能
https://control.princeton.edu/machine-learning-for-rt-profile-control-in-tokamaks/
一种新的多模态机器学习方法增强了超分辨率数据,以便更好地分析复杂的聚变等离子体现象,例如边缘局部模式 (ELM),从而有助于稳定未来的聚变反应堆。