头条
Mistral CEO 确认新开源 AI 模型接近 GPT-4 性能
AI 社区因被泄露的名为“miqu-1-70b”的大型语言模型而热闹非凡,该模型在 HuggingFace 和 4chan 上共享。 该模型的性能可与 OpenAI 的 GPT-4 相媲美,并与 Mistral 的 Mixtral 8x7b 相关。 Mistral 的首席执行官承认这一事件是一位热心客户的泄密,凸显了开源人工智能不断增长的能力。
Microsoft LASER 消除 LLM 错误
https://www.theverge.com/2024/1/31/24057362/microsoft-llm-accuracy-laser-research-ai
Dipendra Misra 在 1 月份的 Microsoft 研究论坛上提出了层选择性排名缩减 (LASER),这是一种通过用较小的近似值替换权重矩阵来提高大型语言模型 (LLM) 准确性的技术。
研究
Llava 1.6
https://llava-vl.github.io/blog/2024-01-30-llava-1-6/
最新版本的 Llava(一种视觉语言模型)改进了 OCR、推理和世界知识。 在某些任务上它与Gemini很匹配。 Llava 团队计划发布数据、代码和模型。
Weaver: 讲故事的基础模型
https://arxiv.org/abs/2401.17268
Weaver 是一系列专门训练来讲故事的模型。 最大的模型(34B 参数)在讲故事基准上优于 GPT-4。
基于文本的图像修复
https://arxiv.org/abs/2401.14832v1
本文介绍了场景和手写文本的基准和两个数据集。 新颖的全局结构引导扩散模型 (GSDM) 以原始图像、损坏图像和辅助图像为特色,利用文本结构有效地恢复干净的文本。 它显示出识别精度和图像质量的显着提高。
工程
具有最佳传输的长视频理解
https://lin-yijie.github.io/projects/Norton/
Norton 是一种通过解决视频语言研究中的多粒度噪声对应问题来提高长期视频理解的新方法。
基于 LiDAR 的自动驾驶移动物体分割 (GitHub Repo)
https://github.com/scnu-rislab/mf-mos
MF-MOS是一种利用激光雷达技术更好地检测自动驾驶中移动物体的新模型。 它独特地分离了运动和语义信息,使用残差图进行运动捕捉,使用范围图像进行语义指导。
Jax 中的 MCTS 实现 (GitHub Repo)
https://github.com/google-deepmind/mctx
蒙特卡洛树搜索 (MCTS) 是一种最先进的搜索算法。 它被用于 AlphaGo,研究人员现在正在努力将其与语言模型集成。 众所周知,MCTS 的实施非常困难。
杂七杂八
59秒能做什么
https://www.oneusefulthing.org/p/what-can-be-done-in-59-seconds-an
人工智能已经足够好,可以在一分钟内完成多项任务,这意味着组织和员工必须强调使用人工智能是为了做好事,而不是做坏事。
商业授权的 Llava 模型
https://fireworks.ai/blog/firellava-the-first-commercially-permissive-oss-llava-model
FireLlava 是一种新的开放式视觉模型,经过数据训练,可用于商业任务。 它与原始 Llava 的性能相匹配,但尚未达到 Llava 1.5 的水平。
ServiceNow 关于 AI 的声明
https://www.linkedin.com/posts/tomasztunguz_servicenow-a-150b-market-cap-company-made-activity-7156752212608618496-R7Yy/
ServiceNow 是一家市值 1500 亿美元的公司,上周宣布,其新一代 AI 产品为其有史以来发布的所有新产品系列(包括其原始 Pro SKU)的第一个完整季度贡献了最大的净新 ACV 贡献。 我们已经看到企业级人工智能应用程序推动了有意义的收入增长。
uAgents (GitHub Repo)
https://github.com/fetchai/uAgents
一个允许在 Python 中创建自主 AI 代理的库。
3D头部头像重建
https://xg-chu.github.io/project_gpavatar/
GPAvatar 引入了一种从图像创建 3D 头部头像的新方法,该方法使用基于动态点的表达场和多三平面注意力模块。