头条
Anthropic 的批处理 API
https://www.anthropic.com/news/message-batches-api
Anthropic 宣布了一个新的批处理 API,使开发人员能够每批发送最多 10,000 个查询。每个批次的处理时间不到 24 小时,成本比标准 API 调用低 50%。这使得处理非时间敏感任务更加高效和具有成本效益。
Hopfield 和 Hinton 获得诺贝尔物理学奖
https://www.nytimes.com/2024/10/08/science/nobel-prize-physics.html
参与创建神经网络的两位科学家获得了诺贝尔物理学奖。
Reflection-70B 的更新
https://glaive.ai/blog/post/reflection-postmortem
对备受欢迎的 Reflection-70B 模型发生的事情进行深入分析。它的基准代码中有错误。其团队已修复这些问题,并且性能仍然令人印象深刻,但尚未达到他们声称的水平。
研究
大规模模型合并的重要性
https://arxiv.org/abs/2410.03617
模型合并是一种将两个模型结合起来并获得每个模型性能的方法。但是,它并不总是能随着模型大小而适当扩展。本文探讨了如何使其与非常大的模型配合良好。
超球面上的规范化表示
https://arxiv.org/abs/2410.01131
规范化语言模型的内部表示是许多资源活动的目标。这项工作表明,如果将每个内部向量放在超球面上,它会大大减少合理大小模型的收敛时间。
CodeMMLU
https://arxiv.org/abs/2410.01999
语言模型在编写代码方面变得如此出色,以至于许多基准测试都已饱和。本文提出了一个更难的基准测试,旨在确定模型在推理和代码生成任务中的表现。
工程
终端中的彩色 logit 打印
https://github.com/swairshah/Intensify
intensify 包是一种很好的方式,可以根据终端的颜色显示 logprobs 或其他实数调制文本。
测量 AI 中的视频质量
https://oooolga.github.io/JEDi.github.io/
JEDi 是一种基于联合嵌入预测架构 (JEPA) 的新指标。它提高了评估准确性,同时需要更少的样本并且更好地与人类评估保持一致,为 FVD 提供了更强大的替代方案。
机器人的位置识别
https://arxiv.org/abs/2410.04939v1
PRFusion 和 PRFusion++ 是多模态模型,旨在提高机器人和计算机视觉中的位置识别能力。
杂七杂八
四足机器人学会爬梯子
https://techcrunch.com/2024/10/02/four-legged-robot-learns-to-climb-ladders/
苏黎世联邦理工学院使用强化学习使 ANYMal 机器人能够以 90% 的成功率爬上梯子。该系统增强了四足机器人在工业环境中的能力,与现有方法相比,爬梯速度提高了 232 倍。这项研究强调了机器人形态和高级控制策略的整合。
数据泄露的三个微妙示例
https://www.lesswrong.com/posts/rzyHbLZHuqHq6KM65/three-subtle-examples-of-data-leakage
本文探讨了机器学习中数据泄露的陷阱,重点介绍了两种因数据处理不当导致模型性能误导的情况。一家公司在建模之前犯了一个错误,根据价格上限过滤数据,而另一家公司则因不遵守严格的时间顺序而面临问题。关键要点包括检测泄漏和了解其对模型准确性的影响的重要性。
真正的数据墙是数十亿年的进化
https://dynomight.substack.com/p/data-wall
随着语言模型对所有可用文本进行训练,人工智能开发面临着“数据墙”带来的潜在挑战。本文反对依赖人类类比来克服数据限制,强调了有助于人类智能的海量数据和进化过程。虽然人类的学习策略可能不直接适用于人工智能,但这并不排除其他模式或算法进步来提高人工智能能力。
Braintrust 筹集 3600 万美元 A 轮融资
https://threadreaderapp.com/thread/1843653246612873701.html
Braintrust 帮助 Airtable、Brex、Notion 和 Stripe 构建 AI 产品,在由 a16z 领投的 A 轮融资中筹集了 3600 万美元。
Hamming
Hamming AI 为 AI 语音代理带来信任。
Clout Kitchen 为模仿内容创作者的 AI 游戏伙伴筹集 445 万美元
Clout Kitchen 筹集了 445 万美元的种子资金,用于为英雄联盟开发由 AI 驱动的“后座 AI”伙伴,以流行创作者的声音提供游戏技巧和评论。