头条
谷歌的通用语音模型
谷歌 1000 种语言计划的第一个成果,Universal Speech Model 是一个在 1200 万小时的语音和 280 亿个文本句子上训练的 2B 参数模型。它目前翻译 300 多种语言。该模型已在 YouTube 上使用。该模型是编码器-解码器架构;解码器是时变 Transformer,编码器是 Conformer 模型。输入以 log-mel 频谱图的形式给出。它在 18 种语言上的表现优于 OpenAI 的 whisper large-v2 模式。
人工智能正被用于检测乳腺癌
人工智能的进步开始通过检测医生遗漏的体征在乳腺癌筛查方面取得突破。根据早期结果和放射科医生的说法,到目前为止,这项技术在发现癌症方面表现出令人印象深刻的能力,至少与人类放射科医生一样,这是迄今为止人工智能如何改善公众健康的最明显迹象之一。匈牙利已成为人工智能软件发现癌症的主要试验场,因为医生们争论该技术是否会在医疗工作中取代他们。
微软推出副驾驶
微软在与谷歌的搜索竞争中引入了人工智能,现在正转向最新的人工智能技术,以追赶企业应用程序市场上的竞争对手,如甲骨文、Salesforce 和 SAP。微软新的人工智能“副驾驶”将帮助接听客户电话、总结销售会议并制定营销宣传。
研究
人体运动扩散作为生成先验
本文提出了一种方法,通过使用预训练的基于扩散的模型作为生成先验来解决运动生成任务中数据可用性低的问题。该方法包括生成具有受控过渡的长动画的零镜头设置、生成两人交互的少镜头设置,以及支持细粒度控制和编辑的微调设置。在用户研究中,所提出的方法在质量得分和交互水平方面优于最先进的方法。
情境教学
本文提出了一种新的指令学习方法,称为上下文指令学习 (ICIL),可显着提高大型语言模型 (LLM) 的零样本任务泛化性能。虽然以前的指令学习方法主要基于微调,但 ICIL 使用单个固定提示来评估所有任务,从而使最强大的指令微调基线的性能提高了 9.3%。 ICIL 被证明是对基于指令的微调的补充,使其成为改进 LLM 零样本任务泛化的有前途的方法。
只需一次即可风格化您的脸
该论文介绍了 StyO,这是一种用于一次性人脸风格化的新模型,它使用分离和重组策略将输入图像的内容和风格属性结合起来。该模型使用潜在扩散模型,由两个模块组成:Identifier Disentanglement Learner (IDL) 和 Fine-grained Content Controller (FCC)。评估结果表明,StyO 在生成高质量程式化人脸图像方面优于当前最先进的方法。
工程
GPU 上更快的模型初始化
将语言模型加载到 GPU 可能会非常慢,可能长达几分钟。这是因为他们倾向于在将所有权重传输到 GPU 之前将它们加载到 CPU 上。除了这个过程,您可以编写一个初始化上下文管理器,将权重直接放在 GPU 上——从而带来相当大的节省。
用于上下文学习的开源框架 (Github Repo)
作者介绍了 OpenICL,这是一种开源工具包,可促进上下文学习 (ICL) 和大型语言模型 (LLM) 评估。 ICL 是 LLM 评估的新范例,它使预训练模型适应未见任务而无需参数更新。 OpenICL 提供了一种灵活的架构,用户可以轻松地将不同的组件结合起来以满足他们的要求。该工具包还包括各种最先进的检索和推理方法,使其成为 LLM 评估各种自然语言处理 (NLP) 任务的高效而强大的工具。
文字即图像 - 语义排版
语义排版是单词中字母的形状以反映单词含义的方式。所以巴黎的 A 可能看起来像埃菲尔铁塔。这通常是一个非常劳动密集型的过程。然而,使用可区分的渲染器和强大的文本到图像先验,现在可以自动化其中的一些过程。包含有趣的视觉示例的令人愉快的作品。
杂七杂八
瓦路易吉效应 -- The Waluigi Effect
在你训练一个 LLM 来满足一个理想的属性 P 之后,就更容易引出 LLM 来满足 P 的完全相反的属性。这意味着模型通常很容易模仿一个强大的负面代理人,即使当期望的性能是强阳性剂。这篇文章概述了为什么会这样,并探讨了 LLM 中遇到的其他有趣问题。
重建火烈鸟——回顾展
这篇文章的要点是探索在大型多模态语料库上训练时,即使在小模型规模(1-20 亿个参数)下如何克服损失分歧。关于训练这些模型的实用归一化和正则化方案,有很多有趣的花絮。
Deep Learning Course (Online Course)
这个 GitHub 存储库是列日大学 2023 年春季深度学习的完整课程。
数千人被 AI 语音骗了
2022 年,坏人通过使用 AI 生成的声音在紧急情况下冒充亲人窃取了 1100 万美元。
深入了解 AI Objective Institute
受数字隐私先驱彼得埃克斯利的启发,AI Objective Institute 正致力于引导 AI 走向“人类繁荣”
LLaMA int8 (GitHub Repo)
LLaMA int8 是 LLaMA 代码的一个分支,它可以在 24 GiB 的 RAM 内轻松运行 LLaMA-13B。