2025-03-28 简讯 : OpenAI 改进图像生成技术


头条


OpenAI 改进图像生成技术

https://links.tldrnewsletter.com/KsWq7r

OpenAI的GPT-4o在图像生成方面有改进,能精准呈现文本、遵循指令,还支持多轮编辑。

DeepSeek V3-0324 发布,遵循 MIT 许可

https://api-docs.deepseek.com/news/news250325

DeepSeek发布了新的V3-0324模型,该模型在大多数基准测试中表现优于GPT 4.5,性能有重大提升。

通义千问2.5 320亿参数视觉语言模型

https://qwenlm.github.io/blog/qwen2.5-vl-32b/

通义千问发布了一款强大的视觉语言模型,它是开源的,且能在消费级硬件上较好运行。


研究


调整大语言模型的后期训练以实现多样化创意写作

https://arxiv.org/abs/2503.17126

Midjourney发布了一些成果,旨在提升创意写作模型的多样性。该公司能够对一个小型7B模型进行后期训练,这个模型在创意写作方面的表现优于许多更大的开源和闭源模型。

视频T1

https://liuff19.github.io/Video-T1/

测试时计算用于处理视频,该视频使用引导模型剔除不符合物理规律或用户指定提示的帧路径。在这项任务中使用测试时计算可显著提升基准测试性能。

3D面部编辑

https://arxiv.org/abs/2503.17095v1

FFaceNeRF克服了基于NeRF方法中固定蒙版的限制,提升了3D面部编辑效果。


工程


视觉几何基础Transformer(GitHub代码库)

https://github.com/facebookresearch/vggt

VGGT是一种前馈神经网络,能在数秒内,从一个、几个或数百个场景视图中,直接推断出场景所有关键的3D属性,包括相机的外部和内部参数、点图、深度图以及3D点轨迹。

消除任何图像的反射

https://abuuu122.github.io/DAI.github.io/

去反射任意图像(DAI)引入了一种全新的基于扩散的去反射方法,利用了高质量数据集和渐进式训练。

带FastCurl的慢思考推理模型(GitHub代码库)

https://github.com/nick7nlp/FastCuRL

FastCuRL-1.5B-Preview通过课程强化学习推动慢思考推理模型发展,用更少训练步骤取得了顶尖成果。


其他


单图像迭代主体驱动生成与编辑

https://siso-paper.github.io/

SISO是一种推理时优化方法,无需训练就能根据单张主体图像定制图像。它可以定制给定图像的主体,或者生成带有该主体的新图像。

曼尼·梅迪纳的新初创公司:PAID

https://techcrunch.com/2025/03/25/outreach-founder-manny-medina-has-a-new-startup-that-helps-ai-agents-get-paid/

Outreach创始人曼尼·梅迪纳推出了Paid平台,该平台旨在帮助人工智能智能体初创企业管理定价和盈利能力。在顶级投资者的支持下,Paid旨在重新定义在新兴的智能体经济中,人工智能智能体如何计费和估值。

DeepMind一位关键的机器人研究员离开谷歌,英伟达已对他的秘密初创公司进行投资

https://techcrunch.com/2025/03/19/a-key-deepmind-robotics-researcher-left-google-and-nvidia-has-already-backed-his-stealth-startup/

皮特·弗洛伦斯此前是DeepMind的资深研究科学家,如今离职创立了通用人工智能公司(Generalist AI),这是一家获英伟达风投部门NVentures支持的机器人初创企业。该公司旨在打造通用机器人,弗洛伦斯强调其愿景是将体力劳动的边际成本降至零。在英伟达于人工智能领域影响力日增之际,弗洛伦斯和其他前DeepMind科学家一同投身科技创业。

克劳德现在可以搜索网络了

https://links.tldrnewsletter.com/MRRtx3

Claude现在具备网络搜索功能,可提供实时见解和最新回复,还带有来源引用。

在 API 中推出下一代音频模型

https://links.tldrnewsletter.com/xD3bfz

OpenAI推出了新的音频模型,包括语音引擎,它能根据简短样本生成逼真的语音。

据报道,Perplexity正在洽谈融资事宜,计划以180亿美元的估值筹集至多10亿美元。

https://techcrunch.com/2025/03/20/perplexity-is-reportedly-in-talks-to-raise-up-to-1b-at-an-18b-valuation/

人工智能搜索初创公司Perplexity正洽谈以180亿美元估值筹集10亿美元。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容