
头条
OpenAI 改进图像生成技术
https://links.tldrnewsletter.com/KsWq7r
OpenAI的GPT-4o在图像生成方面有改进,能精准呈现文本、遵循指令,还支持多轮编辑。
DeepSeek V3-0324 发布,遵循 MIT 许可
https://api-docs.deepseek.com/news/news250325
DeepSeek发布了新的V3-0324模型,该模型在大多数基准测试中表现优于GPT 4.5,性能有重大提升。
通义千问2.5 320亿参数视觉语言模型
https://qwenlm.github.io/blog/qwen2.5-vl-32b/
通义千问发布了一款强大的视觉语言模型,它是开源的,且能在消费级硬件上较好运行。
研究
调整大语言模型的后期训练以实现多样化创意写作
https://arxiv.org/abs/2503.17126
Midjourney发布了一些成果,旨在提升创意写作模型的多样性。该公司能够对一个小型7B模型进行后期训练,这个模型在创意写作方面的表现优于许多更大的开源和闭源模型。
视频T1
https://liuff19.github.io/Video-T1/
测试时计算用于处理视频,该视频使用引导模型剔除不符合物理规律或用户指定提示的帧路径。在这项任务中使用测试时计算可显著提升基准测试性能。
3D面部编辑
https://arxiv.org/abs/2503.17095v1
FFaceNeRF克服了基于NeRF方法中固定蒙版的限制,提升了3D面部编辑效果。
工程
视觉几何基础Transformer(GitHub代码库)
https://github.com/facebookresearch/vggt
VGGT是一种前馈神经网络,能在数秒内,从一个、几个或数百个场景视图中,直接推断出场景所有关键的3D属性,包括相机的外部和内部参数、点图、深度图以及3D点轨迹。
消除任何图像的反射
https://abuuu122.github.io/DAI.github.io/
去反射任意图像(DAI)引入了一种全新的基于扩散的去反射方法,利用了高质量数据集和渐进式训练。
带FastCurl的慢思考推理模型(GitHub代码库)
https://github.com/nick7nlp/FastCuRL
FastCuRL-1.5B-Preview通过课程强化学习推动慢思考推理模型发展,用更少训练步骤取得了顶尖成果。
其他
单图像迭代主体驱动生成与编辑
SISO是一种推理时优化方法,无需训练就能根据单张主体图像定制图像。它可以定制给定图像的主体,或者生成带有该主体的新图像。
曼尼·梅迪纳的新初创公司:PAID
Outreach创始人曼尼·梅迪纳推出了Paid平台,该平台旨在帮助人工智能智能体初创企业管理定价和盈利能力。在顶级投资者的支持下,Paid旨在重新定义在新兴的智能体经济中,人工智能智能体如何计费和估值。
DeepMind一位关键的机器人研究员离开谷歌,英伟达已对他的秘密初创公司进行投资
皮特·弗洛伦斯此前是DeepMind的资深研究科学家,如今离职创立了通用人工智能公司(Generalist AI),这是一家获英伟达风投部门NVentures支持的机器人初创企业。该公司旨在打造通用机器人,弗洛伦斯强调其愿景是将体力劳动的边际成本降至零。在英伟达于人工智能领域影响力日增之际,弗洛伦斯和其他前DeepMind科学家一同投身科技创业。
克劳德现在可以搜索网络了
https://links.tldrnewsletter.com/MRRtx3
Claude现在具备网络搜索功能,可提供实时见解和最新回复,还带有来源引用。
在 API 中推出下一代音频模型
https://links.tldrnewsletter.com/xD3bfz
OpenAI推出了新的音频模型,包括语音引擎,它能根据简短样本生成逼真的语音。
据报道,Perplexity正在洽谈融资事宜,计划以180亿美元的估值筹集至多10亿美元。
人工智能搜索初创公司Perplexity正洽谈以180亿美元估值筹集10亿美元。