头条
英伟达的全新世界模型
https://research.nvidia.com/publication/2025-01_cosmos-world-foundation-model-platform-physical-ai
英伟达发布了一套基于其Cosmos标记化方案的全新世界模型。这些模型对物理的理解能力极强,且已上线Hugging Face平台。它们似乎主要在机器人技术和工业应用领域有用,但也能在其他领域创作视频。
微软30亿美元的人工智能投资
https://techcrunch.com/2025/01/07/microsoft-to-pump-3-billion-into-cloud-and-ai-push-in-india/
微软计划投资30亿美元,在印度拓展其人工智能和云服务业务。
研究
DMesh++
https://sonsang.github.io/dmesh2-project/
全可微几何网格表示的下一版本现已推出。它有多项改进,使其适用于学习和形状表示。
智能体
https://huyenchip.com//2025/01/07/agents.html
这篇文章探讨了智能体的用途、不足之处以及有望成功的领域。还谈到了规划和执行流程。
大型多模态模型的可解释性
https://jayneelparekh.github.io/LMM_Concept_Explainability/
这个项目通过将概念可视化并将其与输入输出行为联系起来,提高了大型多模态模型的可解释性。
工程
Picotron分布式训练教程(GitHub仓库)
https://github.com/huggingface/picotron_tutorial
来自Hugging Face团队的这个教程有视频课程,会一步步教你从头构建分布式训练代码库的过程。教程还有练习和实用的代码文档。
量化归纳偏差(GitHub仓库)
https://github.com/facebookresearch/qinco
Meta发布了用于测量和分析机器学习模型中归纳偏差的工具,这些工具能让人们深入了解模型的泛化能力和稳健性。
具备实时交互功能的视频大语言模型(GitHub代码库)
https://github.com/mark12ding/dispider
Dispider 能实现与流媒体视频的实时互动,这和传统离线视频大语言模型不同,后者要在处理完整个视频后才做出回应 。
其他
人工智能将在五年内消亡。
https://erikgahner.dk/2024/ai-will-be-dead-in-five-years/
人工智能的成功可能会让它在五年后不再那么受关注,因为它将成为日常技术和商业解决方案的一个组成部分。这个术语可能会演变,当前的人工智能会被重新定义,就像大数据已经变得无处不在一样。随着人工智能转变为标准功能,机器学习将成为主要关注点。
你一定要看看人工智能视频发展到什么程度了
https://www.thealgorithmicbridge.com/p/you-must-see-how-far-ai-video-has
谷歌DeepMind的Veo 2在人工智能视频生成方面设立了新标杆,其质量、连贯性和提示准确性均超越了竞争对手。深度伪造技术的兴起模糊了现实,激发了创造力,但也削弱了人们对视觉内容的信任。随着技术进步加速,人们担心会失去文化连续性以及辨别现实的能力。
超越炒作:2025年的人工智能、创新与理性投资
https://news.crunchbase.com/ai/prediction-innovation-rational-investment-2025-biederman-asymmetric/
预计2024年,有价值的人工智能公司将强劲增长,而许多被炒作的企业可能会步履蹒跚。垂直整合和 “收购并建设” 战略有望兴起,充分利用需要技术简化的市场。向新兴的、能力受限的管理者转变,这将与2020年至2021年资金过剩的成长型公司的衰落形成对比。
快讯
实验性的双子座思维模型(GitHub文件)
谷歌已悄悄将一种新的思维模型(可能类似于o1风格推理)推送到其人工智能工作室。
Instagram将用人工智能生成的视频取代增强现实滤镜
https://9to5mac.com/2024/12/20/instagram-video-ai-filters/
Meta将于2025年1月停用Instagram的Spark AR滤镜,将重点转向名为Movie Gen的人工智能滤镜。
一种新的、无审查的人工智能视频模型可能会引发新一轮人工智能爱好者运动
腾讯的开源人工智能模型混元视频(HunyuanVideo)可实现本地无审查的视频合成,有望成为像Stable Diffusion那样具有变革性的工具。