头条
GPT-4写了一本115页的书
这个项目的目标是让 GPT-4 从头开始生成整部小说,包括标题、类型、故事、人物、设置和所有写作,无需人工输入。目前不可能使用单个提示来执行此操作,但可以提供一系列提示,这些提示为流程提供结构并允许它一次一个步骤地完成这项大型任务。但是,为了确保所有的创意工作都是由 GPT-4 完成的,提示不允许具体引用本书的内容,只能引用本书的结构。目的是该过程应该简单、机械并且可以(原则上)完全自动化。你可以免费阅读这本书,它不会赢得任何奖项,但它是对人工智能生成内容的创造性未来的迷人一瞥。
Sourcegraph的开源代码模式
每个平台都在玩 AI,随着 Codex 的衰落,有一个强大的模型可用于代码生成是件好事。目前尚不清楚权重在哪里,但代码是从一个大型开源友好组织开放的,这是语言模型可用性的一个好兆头。该模型具有围绕问题回答和根据贵公司的编码标准生成代码的附加功能。
专访 Nvidia CEO 黄仁勋谈 AI 的 iPhone Moment
作者本·汤普森 (Ben Thompson) 采访了英伟达 (Nvidia) 首席执行官黄仁勋 (Jensen Huang),谈到了他称之为 AI 的 iPhone 时刻——ChatGPT——以及这对英伟达 (Nvidia) 业务的影响。当被问及英伟达在 ChatGPT 之后的做法有何不同时,Huang 说:“推理。毫无疑问,推理业务的规模经历了一个阶跃函数,以及现在正在进行的推理类型,你知道视频将添加生成 AI 来增强视频或增强背景,增强主题,重新照亮脸部,做眼睛休息,增加有趣的图形等等。所有这些生成性 AI 工作都是在云端完成的,因此视频具有生成性 AI。”
研究
LLM 不是一个好的 uncertain agent
“幻觉问题” (“The hallucination problem”)实际上是一个不确定性估计和校准问题。语言模型非常擅长模拟代理,但通常这些代理(在网上写东西的人)可以访问 LLM 没有的特权信息。这意味着语言模型正在模拟没有完整信息的代理,这会导致不确定性。有很多方法可以解决这个问题,但它可能是语言建模中下一个大的开放问题。
Make-It-3D:使用扩散先验从单个图像创建高保真 3D
“Make-It-3D”是一种新方法,它通过利用来自训练有素的 2D 扩散模型的先验知识充当 3D 感知监督,从单个图像创建高质量的 3D 内容。该方法优于先前的工作,并支持各种应用程序,例如文本到 3D 创建和纹理编辑。
工程
BlenderGPT (GitHub Repo)
Blender 是一款流行的免费开源 3D 建模软件。它非常强大,并且有一个方便的 Python 接口。您可以将此接口连接到 GPT-4 等语言模型,并让它们为您编写代码来自动执行不同的 3D 建模任务。自述文件中包含一段视频,展示了如何使用它。
PRESTO——用于解析现实的面向任务的对话的多语言数据集
PRESTO 是一个新的多语言数据集,旨在推进虚拟助理交互的自然语言处理研究。通过对各种语音现象(包括用户修改和不流畅)以及周围结构化上下文的显式标记,PRESTO 提供了更全面的模型训练和模型性能分析,用于现实的面向任务的对话。
Plugins for Anthropic (GitHub Gist)
语言模型的插件已与下一个操作系统进行了比较。事实证明,在不同语言模型之间移植功能很容易,因为一切都是文本。
杂七杂八
Lex Fridman 与 Sam Altman (OpenAI CEO)的播客
OpenAI 首席执行官 Sam Altman 在其播客中接受 Lex Fridman 采访时讨论了 AI 的未来和 GPT-4 语言模型
Pix2Struct (3 minute read)
视觉问答是多模式 AI 令人兴奋的新前沿。这个出色的模型(包括权重)可以从图像中解码结构并将其用于各种自动化任务。一些有用的例子是 OCR 免费网络问答、图像字幕和为语言模型预训练收集额外数据。
FTC 正在监控人工智能领域的竞争
联邦贸易委员会正在密切关注人工智能的发展,以确保该领域不被大型科技公司所主导。
Apple 收购 WaveOne
Apple 收购了 WaveOne,这是一家开发用于压缩视频的 AI 算法的初创公司。
MiniLLM (GitHub Repo)
MiniLLM 是用于在消费级 CPU 上运行现代 LLM 的最小系统。
Cursor (GitHub Repo)
Cursor 是一款专为 AI 编程而生的编辑器。