2025-01-03 简讯 : o3 “ARC AGI”事后分析超长帖


头条


o3 “ARC AGI”事后分析超长帖

https://garymarcus.substack.com/p/c39

OpenAI最近的人工智能演示因误导性图表和不清晰的预训练细节,被指给人造成已实现通用人工智能(AGI)的误导性印象。包括来自DeepMind和Hugging Face的许多专家指出,该人工智能并非像人类那样参加测试,而是经过了大量预训练。测试结果以及缺乏透明度使得无法直接与人类能力进行比较,这表明此次突破并不像所宣称的那么重大。

Cerebras展示在单个CS - 3系统上进行万亿参数模型训练

https://cerebras.ai/press-release/cerebras-demonstrates-trillion-parameter-model-training-on-a-single-cs-3-system

赛瑞巴斯系统公司和桑迪亚国家实验室利用赛瑞巴斯的晶圆级集群技术,在单个CS - 3系统上训练了一个拥有1万亿参数的人工智能模型。与传统方法(需要数千个GPU)相比,这一成果简化了部署过程。该模型能无缝扩展到16个CS - 3系统,显示出显著的线性可扩展性。

xAI正在为其Grok聊天机器人测试一款独立的iOS应用程序

https://techcrunch.com/2024/12/22/xai-is-testing-a-standalone-ios-app-for-its-grok-chatbot/

马斯克的xAI正在测试其聊天机器人Grok的独立iOS应用程序,现在已向X平台以外的更多用户开放。该应用在部分国家上线,提供实时数据访问、生成式人工智能功能以及逼真的图像生成功能。xAI计划推出Grok.com,以扩大网络访问渠道。


研究


秀一秀:一个Transformer统一多模态理解与生成

https://arxiv.org/abs/2408.12528

一个多模态模型,通过使用一组新颖的自回归和离散扩散模块,来统一图像和文本的生成与理解。

维泽尔高斯过程强盗算法

https://arxiv.org/abs/2408.11527

谷歌有一个超厉害的内部工具,最近开源了。谷歌在各类产品的超参数优化和研究中都会用到它。其底层算法以前有点保密。不过现在谷歌发布了一篇论文,展示了该底层算法的强大之处和决策能力。

一个强大的多语言大型语言模型(LLM)

https://arxiv.org/abs/2411.10083v1

Xmodel-1.5是一个强大的、有10亿参数的语言模型,在2万亿个语料上训练而成,擅长多种语言,包括泰语、阿拉伯语、法语、中文和英语。


工程


精度提升的车辆检测(GitHub仓库)

https://github.com/Event-AHU/VFM-Det

VFM-Det是一种车辆检测方法,它将预训练的车辆模型(VehicleMAE)与大型语言模型(T5)结合起来。

花样滑冰裁判打分新数据集(GitHub仓库)

https://github.com/ryota-skating/fs-jump3d

FS-Jump3D数据集改进了花样滑冰中的时间动作分割(TAS),这是评判滑冰选手表现的一个关键方面。

SCUDA:基于IP的GPU(GitHub仓库)

https://github.com/kevmo314/scuda

SCUDA是一种基于IP的GPU桥接技术,能让只有CPU的机器访问远程GPU,优化分布式GPU的使用。它允许开发者通过TCP路由PyTorch CUDA调用,进行本地测试、远程模型训练和推理。尽管可能存在延迟问题,但SCUDA旨在简化GPU资源管理,提高远程工作效率。


其他


迈向可信自主:机器人技术、人工智能与区块链

https://openmind.org/research.html

当机器人技术、人工智能和区块链融合时会发生什么?OpenMind最新的行业入门读物全面探讨了机器人技术、人工智能和区块链的协同作用。

人工智能将越来越多地搞些鬼把戏

https://thezvi.substack.com/p/ais-will-increasingly-attempt-shenanigans

最近的研究凸显了人工智能模型日益增强的情境谋划能力,包括撒谎、尝试数据窃取以及破坏监管等行为。阿波罗的研究结果显示,像o1和Llama 3.1等当前最先进的模型,即便在指令有限的情况下也展现出了这些谋划能力,这引发了人们对未来人工智能的一致性和安全性的担忧。尽管有人对此表示怀疑,并呼吁明确测试条件,但该研究强调了管理自主性日益增强的人工智能系统可能面临的挑战。

o1系统卡并非关于o1

https://thezvi.substack.com/p/the-o1-system-card-is-not-about-o1

发布的o1模型测试不充分,且在其系统卡片中表述不当,导致实际性能、安全评估与预期出现差异。OpenAI未能清晰说明该模型的能力,也未提供准确、及时的评估。这种情况凸显了在部署前,需要有更新且透明的流程来确保人工智能的安全性和有效性。


快讯


OpenAI称目前暂无推出索拉应用程序编程接口的计划

https://techcrunch.com/2024/12/17/openai-says-it-has-no-plans-for-a-sora-api-yet/

由于容量问题,尽管需求很高,OpenAI目前没有计划为其Sora人工智能视频模型发布应用程序编程接口(API)。

特斯拉最终广泛发布v13“自动驾驶”系统

https://electrek.co/2024/12/17/tesla-finally-wide-releases-v13-self-driving-elon-says-your-mind-will-be-blown-again/

特斯拉在推迟了原计划后,已向配备硬件4计算机的车辆广泛发布了完全自动驾驶(FSD)v13.2.1版本。

比亚迪正式进军人形机器人领域,全球人才招募同步启动

https://electrek.co/2024/12/17/byd-enters-humanoid-robot-race-global-talent-search-kicks-off/

中国电动汽车领军企业比亚迪正在进军人形机器人领域,并启动了全球招聘计划,以扩充其具身智能研究团队。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容