2024-12-18 简讯 : AI 教母李飞飞对计算机视觉的远见


头条


AI 教母李飞飞对计算机视觉的远见

https://spectrum.ieee.org/fei-fei-li-world-labs

李飞飞创办了 World Labs,专注于通过创建交互式 3D 场景来开发 AI 的空间智能。该计划旨在提高 3D 环境中的机器感知和推理能力,这对于机器人、虚拟现实和增强现实的应用至关重要。李飞飞强调,解决 3D 智能问题对于增强 AI 的能力至关重要。

Liquid AI 筹集 2.5 亿美元

https://www.liquid.ai/blog/we-raised-250m-to-scale-capable-and-efficient-general-purpose-ai

Liquid AI 已筹集大量资金,以继续训练其高效、通用、液体风格的基础模型。

OpenAI 中的"项目"

https://www.youtube.com/watch?v=FcB97h3vrzk&utm_source=tldrai

OpenAI 推出了“项目”,这是一种组织聊天和对话的新方式。


研究


Phi-4

https://arxiv.org/abs/2412.08905

微软的合成训练语言模型在许多具有挑战性的基准测试中表现出色。权重将于本周公布。有趣的是,它证实了“中期训练”可用于上下文长度扩展的怀疑。

BLT:无标记语言模型训练

https://ai.meta.com/research/publications/byte-latent-transformer-patches-scale-better-than-tokens/

Meta 发布了 Byte Latent Transformer 的详细信息和训练代码,它使用学习到的补丁而不是标记进行训练,从本质上消除了语言建模中具有挑战性的部分。重要的是,它发现其范式可以更好地扩展到小型 Llama 2 尺寸模型。

通过模块化设计实现高效的场景理解

https://arxiv.org/abs/2412.09530

一种新的模块化框架,通过将任务分解为专门的模块来增强场景理解,从而实现效率并提高复杂环境中的可解释性。


工程


DeepSeek VL2

https://github.com/deepseek-ai/DeepSeek-VL2

DeepSeek 发布了另一个出色的模型,这次是以新的 MoE 视觉语言模型的形式发布的。它非常高效,并且比许多密集模型表现更好。

N 最佳越狱

https://github.com/jplhughes/bon-jailbreaking

越狱是指您绕过模型训练好的拒绝,让它为被认为不适当的内容生成文本。这出乎意料地容易实现 - 只需在输入提示中强制随机输入大写字母和标点符号,直到模型响应您想要提取的结果。

将任何 Microsoft Office 文件转换为 Markdown

https://github.com/microsoft/markitdown

Microsoft 发布了一款软件包,可以将任何 docx、xslx 或 ppt 文件转换为 markdown,以便高效地用作语言模型的上下文。


杂七杂八


策划推理评估

https://www.apolloresearch.ai/research/scheming-reasoning-evaluations

本文评估了六个前沿模型的情境策划能力。该研究测试模型是否会通过克服监督机制等障碍来欺骗开发人员实现目标。一个例子包括 Claude 3 Opus 将其权重复制到新服务器并对此撒谎。

走向可信自治:机器人、人工智能和区块链

https://www.openmind.org/report.pdf

当机器人、人工智能和区块链融合时会发生什么?OpenMind 的最新行业入门是对机器人、人工智能和区块链协同作用的全面探索。

Amurex

https://github.com/thepersonalaicompany/amurex

Amurex 是一款开源 AI 会议助手,可提供实时建议、智能摘要和后续电子邮件,以提高会议效率。它提供延迟加入回顾和完整会议记录等功能,可无缝集成到工作流程中。

X 为 Grok 提供了一款新的照片级逼真 AI 图像生成器

https://www.theverge.com/2024/12/7/24315644/grok-x-aurora-ai-image-generator-xai

X 推出了“Aurora”,这是“Grok 2 + Aurora beta”下一款新的 AI 图像生成器,能够创建比以前的型号更逼真的图像。

研究人员利用人工智能将录音转换成准确的街景图像

https://news.utexas.edu/2024/11/27/researchers-use-ai-to-turn-sound-recordings-into-accurate-street-images/

德克萨斯大学奥斯汀分校的研究人员利用生成式人工智能将录音转换成街景图像,显示出与现实世界视觉效果的强烈相关性。

谷歌称其新量子芯片比世界上最强大的超级计算机快得多

https://qz.com/google-quantum-chip-willow-ai-frontier-supercomputer-1851716474

谷歌的新量子芯片 Willow 显著降低了量子比特错误率,这是量子计算领域的一个长期挑战。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容