头条
Runway 发布 Gen-2
Runway 宣布推出 Gen-2,这是一种多模态 AI 系统,可以从文本生成逼真的视频。您可以使用 Gen-2 的 4 种不同模式:文本到视频、图像到视频、文本 + 图像到视频(使用驱动图像和文本提示生成视频)、风格化(视频到视频)和故事板(将模型变成完全风格化和动画渲染)。查看网站上的示例,例如“山脉的空中无人机镜头”和“傍晚的阳光透过纽约市阁楼的窗户窥视”。
300亿 指令调谐的 model
遵循与llama 相同的公式,我们可以使用参数高效微调和来自斯坦福的指令数据集的清理版本来调整 300 亿参数的llama ,使其更好地遵循指令。
稳定的扩散重新构想
Stability AI 宣布推出 Stable Diffusion Reimagine,这是一种新的 Clipdrop 工具,允许用户无限制地生成单个图像的多个变体。无需复杂的提示——用户只需将图像上传到算法中,即可根据需要创建尽可能多的变体。
研究
CoDEPS:全景分割在线学习
该论文通过引入 CoDEPS 提出了一种应对新环境中机器人导航挑战的解决方案,CoDEPS 是一种持续学习方法,利用经验回放和域混合来减轻灾难性遗忘并适应不断变化的条件。所提出的方法实现了最先进的结果,并解决了机器人系统有限的存储容量问题。
LION:内隐视觉提示调优
该论文提出了 LION,这是一种高效的视觉模型,通过使用具有稳定内存成本的深度隐式模型来解决视觉 Transformers 的繁重计算成本。 LION 仅在预训练主干中插入两个平衡隐式层,并根据彩票假设修剪参数,减少高达 11.5% 的训练参数数量,同时在广泛的范围内实现比最先进的基线 VPT 更高的性能数据集,尤其是在具有挑战性的场景下。
DiffusionRet:使用扩散模型生成文本视频检索
本文介绍了 DiffusionRet,这是一种基于扩散的文本视频检索框架,从生成的角度将文本和视频之间的相关性建模为它们的联合概率 p(candidates, query)。 DiffusionRet 通过生成损失优化生成器,通过对比损失优化特征提取器,利用生成和判别方法在五种常用的文本-视频检索基准上实现卓越的性能,即使在域外检索设置中,并为相关领域带来基本见解领域。
工程
Transformer 强化学习 v0.4.1 发布(GitHub Repo)
现在,有了 Pytorch 2.0 支持、参数高效微调和其他生活质量改进,TRL 正在成为语言模型 RL(*)F 类型调优任务的顶级竞争对手。
哪些数据使我的模型更智能?
如果我们不使用附加标量分数来确定数据实例对最终模型性能的影响有多大,如果我们使用完整的训练模拟器会怎么样?这使得围绕数据集构建和长期训练性能的反事实探索成为可能。这种方法往往会低估性能,但可以很好地捕获大型语言模型训练运行的一般动态。
LangFlow (GitHub Repo)
在浏览器中运行的 LangChain 基于可视化图形的编辑器。
杂七杂八
GPT 如何影响劳动力市场
虽然 GPT 模型可能会影响劳动力市场,但对不同工作的影响并不相同。初步观察表明,身体活跃和脑力创造性的工作不太可能受到大型语言模型的影响。这不是最有说服力的方法,但在这个早期阶段了解我们的经济未来可能会是什么样子是一个很好的步骤。
Duolingo and OpenAI
Duolingo 在一个名为 Duolingo Max 的新订阅层中引入了两项由 OpenAI 的 GPT-4 提供支持的新功能:角色扮演,一个人工智能对话伙伴,以及解释我的答案,它提供错误的上下文反馈。在发现 GPT-3 无法自信地处理聊天的复杂自动化方面后,Duolingo 转向了 GPT-4。该团队看到了 GPT-4 提供比以往任何时候都更有效和更具吸引力的学习体验的潜力,这应该会改善学习成果,并且它简化了整个工程流程,从而可以更快地为用户带来新功能。
OpenAI 首席执行官、首席技术官谈风险以及人工智能将如何重塑社会
Sam Altman(OpenAI CEO)和 Mira Murati(CTO)在接受 ABC 采访时谈到了 AI 和 AGI 将对社会产生的影响。 Altman 说,重要的是他们要通过真实用户手中的产品来测试他们的人工智能,并在风险很小的时候犯错误。
斯坦福以不到 600 美元的价格复制 ChatGPT AI
斯坦福大学的研究人员创造了 Alpaca,以不到 600 美元的价格整合了与 ChatGPT 类似的功能。
Bloop (GitHub Repo)
Bloop 是一个代码搜索引擎,它使用 GPT-4 来回答有关您的代码的问题。
Semantic Kernel (GitHub Repo)
语义内核 (SK) 是一种轻量级 SDK,可将 AI LLM 与传统编程语言集成。