登录注册写文章

2025-03-28 简讯 : OpenAI 改进图像生成技术

2025-03-28 简讯 : OpenAI 改进图像生成技术

头条

OpenAI 改进图像生成技术

https://links.tldrnewsletter.com/KsWq7r

OpenAI的GPT-4o在图像生成方面有改进，能精准呈现文本、遵循指令，还支持多轮编辑。

DeepSeek V3-0324 发布，遵循 MIT 许可

https://api-docs.deepseek.com/news/news250325

DeepSeek发布了新的V3-0324模型，该模型在大多数基准测试中表现优于GPT 4.5，性能有重大提升。

通义千问2.5 320亿参数视觉语言模型

https://qwenlm.github.io/blog/qwen2.5-vl-32b/

通义千问发布了一款强大的视觉语言模型，它是开源的，且能在消费级硬件上较好运行。

研究

调整大语言模型的后期训练以实现多样化创意写作

https://arxiv.org/abs/2503.17126

Midjourney发布了一些成果，旨在提升创意写作模型的多样性。该公司能够对一个小型7B模型进行后期训练，这个模型在创意写作方面的表现优于许多更大的开源和闭源模型。

视频T1

https://liuff19.github.io/Video-T1/

测试时计算用于处理视频，该视频使用引导模型剔除不符合物理规律或用户指定提示的帧路径。在这项任务中使用测试时计算可显著提升基准测试性能。

3D面部编辑

https://arxiv.org/abs/2503.17095v1

FFaceNeRF克服了基于NeRF方法中固定蒙版的限制，提升了3D面部编辑效果。

工程

视觉几何基础Transformer（GitHub代码库）

https://github.com/facebookresearch/vggt

VGGT是一种前馈神经网络，能在数秒内，从一个、几个或数百个场景视图中，直接推断出场景所有关键的3D属性，包括相机的外部和内部参数、点图、深度图以及3D点轨迹。

消除任何图像的反射

https://abuuu122.github.io/DAI.github.io/

去反射任意图像（DAI）引入了一种全新的基于扩散的去反射方法，利用了高质量数据集和渐进式训练。

带FastCurl的慢思考推理模型（GitHub代码库）

https://github.com/nick7nlp/FastCuRL

FastCuRL-1.5B-Preview通过课程强化学习推动慢思考推理模型发展，用更少训练步骤取得了顶尖成果。

其他

单图像迭代主体驱动生成与编辑

https://siso-paper.github.io/

SISO是一种推理时优化方法，无需训练就能根据单张主体图像定制图像。它可以定制给定图像的主体，或者生成带有该主体的新图像。

曼尼·梅迪纳的新初创公司：PAID

https://techcrunch.com/2025/03/25/outreach-founder-manny-medina-has-a-new-startup-that-helps-ai-agents-get-paid/

Outreach创始人曼尼·梅迪纳推出了Paid平台，该平台旨在帮助人工智能智能体初创企业管理定价和盈利能力。在顶级投资者的支持下，Paid旨在重新定义在新兴的智能体经济中，人工智能智能体如何计费和估值。

DeepMind一位关键的机器人研究员离开谷歌，英伟达已对他的秘密初创公司进行投资

https://techcrunch.com/2025/03/19/a-key-deepmind-robotics-researcher-left-google-and-nvidia-has-already-backed-his-stealth-startup/

皮特·弗洛伦斯此前是DeepMind的资深研究科学家，如今离职创立了通用人工智能公司（Generalist AI），这是一家获英伟达风投部门NVentures支持的机器人初创企业。该公司旨在打造通用机器人，弗洛伦斯强调其愿景是将体力劳动的边际成本降至零。在英伟达于人工智能领域影响力日增之际，弗洛伦斯和其他前DeepMind科学家一同投身科技创业。

克劳德现在可以搜索网络了

https://links.tldrnewsletter.com/MRRtx3

Claude现在具备网络搜索功能，可提供实时见解和最新回复，还带有来源引用。

在 API 中推出下一代音频模型

https://links.tldrnewsletter.com/xD3bfz

OpenAI推出了新的音频模型，包括语音引擎，它能根据简短样本生成逼真的语音。

据报道，Perplexity正在洽谈融资事宜，计划以180亿美元的估值筹集至多10亿美元。

https://techcrunch.com/2025/03/20/perplexity-is-reportedly-in-talks-to-raise-up-to-1b-at-an-18b-valuation/

人工智能搜索初创公司Perplexity正洽谈以180亿美元估值筹集10亿美元。

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

2025-01-22 简讯 : Perplexity AI 出价欲与抖音合并
头条 Perplexity AI 出价欲与抖音合并 [https://techcrunch.com/2025/0...
数科每日阅读 741评论 0赞 0
2025-03-18 简讯 : OpenAI在特朗普执政下推动更宽松的人工智能监管
头条 OpenAI在特朗普执政下推动更宽松的人工智能监管 [https://www.cnbc.com/2025/0...
数科每日阅读 656评论 0赞 0

2024-12-09 简讯 : OpenAI o1 Card
头条 OpenAI o1 Card[https://openai.com/index/openai-o1-syst...
数科每日阅读 832评论 0赞 0
2025-03-13 简讯 : CoreWeave与OpenAI达成119亿美元合同
头条 CoreWeave与OpenAI达成119亿美元合同[https://links.tldrnewslette...
数科每日阅读 48评论 0赞 0
2025-03-19 简讯 : SAKANA称其人工智能生成的论文通过同行评审
头条 SAKANA称其人工智能生成的论文通过同行评审 [https://techcrunch.com/2025/...
数科每日阅读 806评论 0赞 0

赞1赞

赞赏

手机看全文