头条

谷歌的通用语音模型

谷歌 1000 种语言计划的第一个成果，Universal Speech Model 是一个在 1200 万小时的语音和 280 亿个文本句子上训练的 2B 参数模型。它目前翻译 300 多种语言。该模型已在 YouTube 上使用。该模型是编码器-解码器架构；解码器是时变 Transformer，编码器是 Conformer 模型。输入以 log-mel 频谱图的形式给出。它在 18 种语言上的表现优于 OpenAI 的 whisper large-v2 模式。

人工智能正被用于检测乳腺癌

人工智能的进步开始通过检测医生遗漏的体征在乳腺癌筛查方面取得突破。根据早期结果和放射科医生的说法，到目前为止，这项技术在发现癌症方面表现出令人印象深刻的能力，至少与人类放射科医生一样，这是迄今为止人工智能如何改善公众健康的最明显迹象之一。匈牙利已成为人工智能软件发现癌症的主要试验场，因为医生们争论该技术是否会在医疗工作中取代他们。

微软推出副驾驶

微软在与谷歌的搜索竞争中引入了人工智能，现在正转向最新的人工智能技术，以追赶企业应用程序市场上的竞争对手，如甲骨文、Salesforce 和 SAP。微软新的人工智能“副驾驶”将帮助接听客户电话、总结销售会议并制定营销宣传。

研究

人体运动扩散作为生成先验

本文提出了一种方法，通过使用预训练的基于扩散的模型作为生成先验来解决运动生成任务中数据可用性低的问题。该方法包括生成具有受控过渡的长动画的零镜头设置、生成两人交互的少镜头设置，以及支持细粒度控制和编辑的微调设置。在用户研究中，所提出的方法在质量得分和交互水平方面优于最先进的方法。

情境教学

本文提出了一种新的指令学习方法，称为上下文指令学习 (ICIL)，可显着提高大型语言模型 (LLM) 的零样本任务泛化性能。虽然以前的指令学习方法主要基于微调，但 ICIL 使用单个固定提示来评估所有任务，从而使最强大的指令微调基线的性能提高了 9.3%。 ICIL 被证明是对基于指令的微调的补充，使其成为改进 LLM 零样本任务泛化的有前途的方法。

只需一次即可风格化您的脸

该论文介绍了 StyO，这是一种用于一次性人脸风格化的新模型，它使用分离和重组策略将输入图像的内容和风格属性结合起来。该模型使用潜在扩散模型，由两个模块组成：Identifier Disentanglement Learner (IDL) 和 Fine-grained Content Controller (FCC)。评估结果表明，StyO 在生成高质量程式化人脸图像方面优于当前最先进的方法。

工程

GPU 上更快的模型初始化

将语言模型加载到 GPU 可能会非常慢，可能长达几分钟。这是因为他们倾向于在将所有权重传输到 GPU 之前将它们加载到 CPU 上。除了这个过程，您可以编写一个初始化上下文管理器，将权重直接放在 GPU 上——从而带来相当大的节省。

用于上下文学习的开源框架 (Github Repo)

作者介绍了 OpenICL，这是一种开源工具包，可促进上下文学习 (ICL) 和大型语言模型 (LLM) 评估。 ICL 是 LLM 评估的新范例，它使预训练模型适应未见任务而无需参数更新。 OpenICL 提供了一种灵活的架构，用户可以轻松地将不同的组件结合起来以满足他们的要求。该工具包还包括各种最先进的检索和推理方法，使其成为 LLM 评估各种自然语言处理 (NLP) 任务的高效而强大的工具。

文字即图像 - 语义排版

语义排版是单词中字母的形状以反映单词含义的方式。所以巴黎的 A 可能看起来像埃菲尔铁塔。这通常是一个非常劳动密集型的过程。然而，使用可区分的渲染器和强大的文本到图像先验，现在可以自动化其中的一些过程。包含有趣的视觉示例的令人愉快的作品。

数据科学简讯 2023-03-08

数据科学简讯 2023-03-08

头条

谷歌的通用语音模型

人工智能正被用于检测乳腺癌

微软推出副驾驶

研究

人体运动扩散作为生成先验

情境教学

只需一次即可风格化您的脸

工程

GPU 上更快的模型初始化

用于上下文学习的开源框架 (Github Repo)

文字即图像 - 语义排版

杂七杂八

瓦路易吉效应 -- The Waluigi Effect

重建火烈鸟——回顾展

Deep Learning Course (Online Course)

数千人被 AI 语音骗了

深入了解 AI Objective Institute

LLaMA int8 (GitHub Repo)

相关阅读更多精彩内容

友情链接更多精彩内容