image.png

头条

阿里新模型 Qwen2-VL，可分析 20 分钟以上的视频

https://venturebeat.com/ai/alibaba-releases-new-ai-model-qwen2-vl-that-can-analyze-videos-more-than-20-minutes-long/

阿里云发布了 Qwen2-VL，这是一种新的视觉语言模型，具有增强的视觉理解、视频理解和多语言文本图像处理功能。Qwen2-VL 的性能优于 Meta 的 Llama 3.1 和 OpenAI 的 GPT-4o 等模型，并支持各种应用，包括实时视频分析和技术支持。这些模型有三种尺寸（7B、2B 和即将推出的 72B），较小版本在 Apache 2.0 下开源。

OpenAI 考虑为新 LLM 收取每月 2,000 美元的订阅费

https://www.pymnts.com/artificial-intelligence-2/2024/report-openai-considers-2000-monthly-subscription-prices-for-new-llms/

据报道，OpenAI 正在考虑为该公司即将推出的大型语言模型（如 Strawberry 和 Orion）收取高达每月 2,000 美元的订阅费。

Google 的 AI 驱动的 Ask Photos 功能开始在美国推出

https://techcrunch.com/2024/09/05/googles-ai-powered-ask-photos-feature-begins-u-s-rollout/

Google Photos 的新 AI 驱动搜索功能“Ask Photos”正在向美国的部分用户推出，允许他们使用更复杂的自然语言查询搜索照片。

研究

SGLang 0.3

https://lmsys.org/blog/2024-09-04-sglang-v0-3/
最新版本的 SGLang 推理改进包括 7 倍更快的 DeepSeek MLA、1.5 倍更快的 torch.compile、多图像/视频 LLaVA-OneVision 等等。

OLmo MoE

https://arxiv.org/abs/2409.02060

一款出色的开放式 MoE，在 1B 激活参数方面具有一流的性能。

在图像生成中对齐样式和文本

https://arxiv.org/abs/2409.02543v1

本文介绍了 StyleTokenizer，这是一种通过将样式表示与文本提示对齐来改进文本到图像生成中的样式控制的方法。

工程

康奈尔大学的应用 ML 课程

https://github.com/kuleshov/cornell-cs5785-2024-applied-ml

康奈尔大学 2024 年秋季应用 ML 课程的开放资源。

Laminar

https://github.com/lmnr-ai/lmnr

针对复杂 LLM 应用程序的开源可观察性、分析、评估和提示链。

使用 LongLLaVA 进行长上下文理解

https://github.com/freedomintelligence/longllava?tab=readme-ov-file&utm_source=tldrai

LongLLaVA 是一种多模式模型，旨在处理视频和高分辨率图像理解等长上下文任务。

杂七杂八

成熟的企业 AI 基础设施

https://www.heavybit.com/library/article/enterprise-ai-infrastructure-privacy-maturity-resources

与 BentoML 首席执行官的有趣访谈，讨论了如何改进企业工具，确保您能够扩展，但一开始不要过度设计。

基于 LLM 的嵌入模型

https://github.com/yixuantt/poolingandattn
本研究调查了基于 LLM 的嵌入模型的各种设计，比较了不同的池化和注意力策略。

直接在 GPU 中进行光学连接

https://www.techspot.com/news/104495-broadcom-working-integrate-optical-connectivity-directly-gpus.html
GPU 互连带宽是当今训练大型模型的主要瓶颈之一。Broadcom 正在努力将光学传输直接集成到 GPU 中，这将大大缓解这一问题。