头条
SAKANA称其人工智能生成的论文通过同行评审
日本人工智能初创公司Sakana用其AI Scientist - v2生成了一篇被ICLR研讨会接受的论文,但因透明度问题在初步评审后撤回。尽管Sakana强调了人工智能的潜力,但批评者称人类判断力至关重要,且研讨会较高的接受率促成了论文被接受。怀疑论者仍持谨慎态度,强调人工智能的技术缺陷,以及制定规范以防止科学评审过程受影响的必要性。
谷歌助手将被Gemini取代。
https://blog.google/products/gemini/google-assistant-gemini-mobile/
谷歌助手正过渡到Gemini,这是一款更个性化、由人工智能驱动的助手,旨在与应用程序和服务集成,同时利用生成式人工智能。
谷歌对美国人工智能政策的回应
https://blog.google/outreach-initiatives/public-policy/google-us-ai-action-plan-comments/
谷歌勾勒出其对美国人工智能政策的愿景,主张对人工智能基础设施进行投资,简化政府采用流程,并制定利于创新的国际标准,以维持其在人工智能领域的领先地位。
研究
无需归一化的Transformer
https://arxiv.org/abs/2503.10622
大多数Transformer模型都通过层归一化进行归一化处理。这可以看作是将模型归一化到一个球体上。不过,如果你精心设置双曲正切函数,就可以在保持稳定性的同时省去层归一化。这现在就相当于归一化到一个超立方体上。
DILOCO的规模定律
https://arxiv.org/abs/2503.09799
DeepMind发表了一篇论文,详细介绍了强大的跨数据中心训练算法DiLoCo的扩展定律。这些定律显示了即使跨大洲同步梯度,模型训练也能有多稳定。
用Whisper进行说话者识别
https://arxiv.org/abs/2503.10446v1
WSI利用联合损失优化,将Whisper ASR编码器重新用于多语言说话人识别。在识别不同语言和环境中的说话人方面,它的表现优于Pyannote、ECAPA TDNN和Xvector。
工程
视觉推理模型(GitHub 仓库)
https://github.com/groundlight/r1_vlm
用于训练视觉语言模型(VLMs)以提升基础能力和推理能力的工具包。
优化劳动力学习智能体(GitHub 仓库)
https://github.com/camel-ai/owl
OWL是一个智能体框架,看似合理且性能不错。它能实现简单的组合,甚至能复制一些闭源智能体的功能。
用于大语言模型(LLM)检索的分层检索增强生成(RAG)(GitHub 仓库)
https://github.com/hhy-huang/HiRAG
HiRAG引入了一种基于分层知识的检索增强生成(RAG)方法,可提高特定领域任务中的语义理解和索引能力。
其他
LUMA用于多模态模型的全新预训练方法
https://lumalabs.ai/news/inductive-moment-matching
Luma首席科学家宋佳明(他创建了最早的扩散模型加速算法)推出了归纳矩匹配(IMM)——一种新的多模态预训练方法,该方法样本质量更高,效率提高了10倍,超越了扩散模型。
Thunder Kittens
https://hazyresearch.stanford.edu/blog/2025-03-15-tk-blackwell
ThunderKittens是用于编写高效能CUDA内核的强大且简单的抽象工具。本文探讨如何将该框架用于英伟达最新的布莱克韦尔系列GPU。主要区别在于从数据流的角度去思考。
开放模型真的开放吗?
https://techcrunch.com/2025/03/14/open-ai-model-licenses-often-carry-concerning-restrictions/
许多被标注为“开源”的人工智能模型都有严格的许可条款。谷歌新推出的Gemma 3模型以及Meta类似的发布产品引发了对商业限制的担忧,这可能会影响依赖这些技术的小公司。
亚马逊通用人工智能负责人称,亚马逊没有任何部门能“不受”人工智能影响
https://techcrunch.com/2025/03/03/no-part-of-amazon-is-unaffected-by-ai-says-its-head-of-agi/
亚马逊通用人工智能副总裁维沙尔·沙玛证实,人工智能已融入亚马逊网络服务(AWS)、机器人技术和Alexa中,凸显了该公司广泛的人工智能部署。
癌症检测全景挑战
https://links.tldrnewsletter.com/BjcMaW
PANORAMA研究是一项国际项目,旨在评估人工智能模型和放射科医生在通过CT增强扫描检测胰腺癌方面的表现。
人工智能公司效仿DeepSeek,用“蒸馏”技术打造更便宜的模型
像OpenAI、微软和Meta这样的领先人工智能公司,正通过用 “教师” 大语言模型(LLM)训练较小系统的方式,利用 “蒸馏” 来创建更具成本效益的模型。