头条
通义千问2.5 推出 1M上下文版本
https://qwenlm.github.io/blog/qwen2.5-1m/
来自通义团队功能强大的本地1M上下文模型。它们展示了该团队在整个训练过程中是如何逐步扩展上下文能力的。此外,通义团队还发布了基于vLLM构建的推理框架,速度提升了7倍之多。
ElevenLabs以30亿美元估值融资2.5亿美元
https://www.cosmico.org/elevenlabs-raises-250m-at-3b-valuation-for-ai-voice/
ElevenLabs获得大量资金,用于拓展其人工智能语音技术平台,重点开发在娱乐、无障碍服务和虚拟助手领域的新应用。
DeepSeek 推理 模型在某些基准测试中击败了OpenAI的O1
DeepSeek的DeepSeek-R1推理模型在AIME和MATH-500等基准测试中与OpenAI的o1不相上下。它有6710亿个参数,能以较低成本提供有竞争力的性能。该模型已在Hugging Face上发布。
研究
高斯曲面跟踪与重建
https://eth-ait.github.io/GSTAR/
这项研究提出的GSTAR方法展示了一种既能重建动态网格,又能在三维空间中追踪每个点的绝妙方式。虽然它确实需要经过精心校准的多视角摄像头,但这朝着单视角应用迈出了一大步。
训练语音合成器
https://blog.aqnichol.com/2025/01/22/training-a-speech-synthesizer/
OpenAI的亚历克斯·尼科尔发布了一篇很棒的博文,介绍如何训练语音合成器。这种使用VQVAEs和自回归模型的方法,在多模态理解与生成中很常见。
基础模型的参数高效微调
https://arxiv.org/abs/2501.13787v1
这项调查回顾了基础模型的参数高效微调技术,深入探讨了在不同任务中保持性能的同时降低计算成本的方法。
工程
关于 Llama 的推理(GitHub Repo)
https://gist.github.com/willccbb/4676755236bb08cab5f4e54a0475d6fb
这是目前OpenAI最初提出、DeepSeek发布的推理模型的最小可行复现。它在数学问题中使用了格式和正确性奖励。这段特定代码片段还展示了训练足够长时间时的 “顿悟” 时刻 。
Prompt1Story
https://byliutao.github.io/1Prompt1Story.github.io/
Prompt1Story是一种无需训练的方法,通过一个拼接提示就能实现连贯的文本到图像生成。
借助思维链进行图像生成(GitHub 仓库)
https://github.com/ziyuguo99/image-generation-cot
该项目探究思维链推理(CoT reasoning)在增强自回归图像生成方面的潜力。
其他
教育领域的人工智能初创企业
谷歌重点介绍了一些新兴初创公司,它们利用人工智能打造创新工具,用于个性化学习、内容生成以及提高学生在教育中的参与度。
3D肿瘤数据集
https://www.zongweiz.com/dataset
AbdomenAtlas 3.0是首个包含高质量腹部CT及配套放射科报告的公开数据集。该数据库有9000多份带放射科报告的CT扫描,还有肝脏、肾脏和胰腺肿瘤的逐像素标注。
自我构建智能体的悖论:教人工智能自学
https://foundationcapital.com/the-paradox-of-self-building-agents-teaching-ai-to-teach-itself/
人工智能智能体正从被动工具转变为主动系统,有望通过整合传统软件栈重新定义企业软件。中岛洋平概述了智能体的四个自主程度,强调了从固定功能到可预测自我构建的进展。尽管前景可期,但这些智能体需要保障措施以防被滥用,精心设计和监管对平衡创新与安全至关重要。
轻熊猫浏览器(GitHub 仓库)
https://github.com/lightpanda-io/browser
专为人工智能和自动化设计的无界面轻量级浏览器。
面向零售商的人工智能创新
https://blog.google/products/google-cloud/google-cloud-ai-retailers-nrf-2025/
谷歌云为零售商推出新人工智能工具,聚焦个性化购物体验、实时库存管理和预测分析。