头条
Stability ai 为AI 驱动的内容业务获得投资
Stability AI宣布与WPP建立战略合作伙伴关系并获得其投资,旨在将生成式AI融入广告和媒体制作中。
美国陆军正用“Camogpt”从训练材料中清除“多元化、公平与包容”(DEI)相关内容
https://www.wired.com/story/the-us-army-is-using-camogpt-to-purge-dei-from-training-materials/
美国陆军训练与条令司令部(TRADOC)正根据特朗普总统的一项行政命令,使用人工智能工具CamoGPT来识别并删除训练材料中有关DEIA的内容。CamoGPT由陆军人工智能整合中心开发,能扫描文档中的特定关键词,约有4000名用户。这一举措是政府更广泛消除DEIA内容行动的一部分,利用人工智能提高与国家安全目标保持一致的效率 。
OpenAI前政策负责人批评该公司“改写”其人工智能安全历史
前OpenAI研究员迈尔斯·布伦戴奇批评该公司淡化了在GPT-2上的谨慎做法,他称这一做法与如今的部署策略一致。OpenAI近期的文件勾勒出通用人工智能(AGI)开发的连贯路径,但布伦戴奇警告,这可能导致忽视合理的安全担忧。竞争压力可能诱使OpenAI把更快发布产品置于安全之上,这引发了对长期风险的质疑。
研究
产生渺子
https://jeremybernste.in/writing/deriving-muon
多年来,Adam一直是深度学习领域占主导地位的优化器。不过,最近业内发现,Muon可能是一个可行的替代方案。它无需对模型进行修改,就能实现许多与muP相同的功能。这篇文章介绍了该优化器背后的一些理论依据。
大语言模型预训练中的最优超参数缩放定律
https://arxiv.org/abs/2503.04715
步长定律是一种统一的最优超参数缩放定律,适用于各种模型形状、架构和数据分布。这意味着,利用这些结果,人们可以在训练前预测模型的可能表现。
时间序列预测
https://arxiv.org/abs/2503.02836v1
SeqFusion是一个用于零样本预测的框架,能按顺序选择并融合预训练模型。与传统方法不同,它在尽量少用数据以增强隐私性的同时,在各种时间模式上仍能保持颇具竞争力的准确率。
工程
干扰感知SAM(GitHub代码库)
https://github.com/jovanavidenovic/DAM4SAM/
“分割一切”(SAM)是视觉分析与分割领域的行业领先模型。不过,视频中若有两个外观相似的物体,它就可能会混淆。这项新研究通过额外的内存增强和训练来解决这些“干扰因素”。
适用于任何大语言模型(LLM)的自回归流式文本转语音模型(GitHub代码库)
https://github.com/mbzuai-oryx/LLMVoX
一个轻量级的3亿参数模型,可用于增强任何语言模型,使其能理解并生成语音,以回应通用查询。关键是,它无需对基础模型进行调整,因此能轻松在不同模型间迁移。
用于神经前馈控制的联邦学习(GitHub 仓库)
https://github.com/j-cap/FL-based-neural-FF-control
该项目引入了一种基于联邦学习的神经前馈控制方法,能让多智能体系统在保护数据隐私的同时提升追踪性能。
其他
Gemini嵌入模型
https://developers.googleblog.com/en/gemini-embedding-text-model-now-available-gemini-api/
Gemini 团队训练并发布了一款出色的文本嵌入模型。它在基准测试中排名第一,价格合理,速度也非常快。
面向多模态大语言模型(LLM)的令牌高效长视频理解
https://research.nvidia.com/labs/lpr/storm/
大多数视频理解模型每次处理一帧画面,这让涉及时间的问题有点难解决。采用Mamba适配器的STORM模型增加了时间注意力操作。这篇文章将它和通义千问模型做了比较。
五角大楼将让人工智能代理参与规划和行动
https://www.theregister.com/2025/03/05/dod_taps_scale_to_bring/
美国军方已向Scale AI及包括Anduril和微软在内的合作伙伴授予一份重要合同,将人工智能智能体集成到军事工作流程的决策行动中。“雷霆锻造”项目旨在提高战略规划的速度和准确性,同时保持人类的监督。五角大楼计划最终在其所有作战司令部部署这一人工智能系统。
案例研究:部署由1024块英伟达Hopper GPU组成的集群
https://www.cirrascale.com/ai2-case-study
了解Ai2如何借助英伟达加速的Cirrascale云服务,大幅提升英伟达Hopper GPU的计算能力和性能,以支持开源创新。查看案例研究[19]
AMD与Tiny Grad合作
https://geohot.github.io//blog/jekyll/update/2025/03/08/AMD-YOLO.html
AMD已送去一些配备MI300X GPU的大型计算机,供这个小规模研究生团队用来测试其驱动程序。
谷歌推出能源领域人工智能加速器
https://blog.google/outreach-initiatives/sustainability/google-for-startups-accelerator-ai-energy/
谷歌已开启“AI for Energy加速器”项目的申请。该项目为期10周,不涉及股权,旨在支持将人工智能融入能源解决方案的初创企业。
针对Meta的人工智能版权诉讼
一名联邦法官裁定,作家们可以继续对Meta提起版权诉讼,该诉讼称Meta未经授权使用他们的书籍来训练人工智能模型。