头条
Kaggle 模型 (Product Launch)
我们都知道 Kaggle 的人工智能和数据科学竞赛。 现在,他们推出了 Kaggle 模型,这是一个通过与 Kaggle 平台的其余部分深度集成来发现和使用预训练模型的中心。 Kaggle 正在与 TensorFlow Hub (tfhub.dev) 合作,在该平台上本地提供一组近 2,000 个公共 Google、DeepMind 和其他模型。
Anthropic 对 AI 安全和进步的看法
紧随 OpenAI 最近关于 AGI 的帖子 - Anthropic 的帖子更加审慎地看待当前的研究状态以及它如何符合他们组织的目标。 一般来说,他们对安全感兴趣,因为它与能力和政策有关。 他们将他们的研究结构化为能力、调整能力和调整科学研究。 总之,他们构建健壮系统的可扩展方法似乎非常有效。
Chat by Copy.ai (Product Launch)
Copy.ai Chat 是更智能的 ChatGPT,可帮助您完成更多工作。 为公共数据抓取网站,生成个性化副本,将 YouTube 视频总结为关键要点,以及更多与下一代 AI 聊天。
研究
Magic Prompt (HuggingFace Space)
自动提示工程 - 输入一个简单的描述,Magic Prompt 将为您提供几个示例,这些示例在提供给 Stable Diffusion 时看起来很棒。
Video-P2P: 使用交叉注意力控制进行视频编辑
该项目展示了 Video-P2P,这是一个使用交叉注意力控制的现实世界视频编辑框架。 它采用图像生成扩散模型并提出文本到集 (T2S) 模型以进行精确的视频反演。 该框架结合了用于详细编辑的解耦指导策略,并支持文本驱动的编辑应用程序。 Video-P2P 优于以前的方法并保留了原始姿势和场景。
文本到图像扩散模型的全景分割
该论文介绍了 ODISE,它使用预训练的文本图像扩散和判别模型来执行开放式词汇全景分割。 所提出的方法利用两种模型的表示在开放词汇全景和语义分割任务中优于以前的最新技术。 仅通过 COCO 训练,ODISE 在 ADE20K 数据集上实现了 23.4 PQ 和 30.0 mIoU,比之前的最先进方法提高了 8.3 PQ 和 7.9 mIoU。
工程
4 bit 量化 llama (GitHub Repo)
使用 GPTQ 对 llama 进行 4 位量化 - 最先进的零样本权重量化。 使用这些技术,您可以在 GPU 内存使用量上节省一个数量级,同时性能略有下降,这可能允许一些大型模型在消费类硬件上运行。 然而,量化技术需要相当大量的 CPU 内存来生成减少的模型权重。
具有大量新功能的新 Accelerate 版本
您现在可以将 Pytorch 2.0 与 Accelerate 结合使用。 鉴于新 Pytorch 版本的加速,这是一个很好的好处。 此外,Accelerate 现在具有 fp8 支持和实验性 TPU 训练支持。
可视化 ChatGPT (GitHub Repo)
这是将多个强大模型链接在一起的绝佳示例。 这也是 Tool 使用的第一个公开且有些复杂的示例。 自述文件中有一个很好的功能 GIF。
杂七杂八
ChatGPT API 又好又便宜,你不需要其他任何东西
在保持质量的同时显着降低成本使得其他文本生成系统难以证明其合理性。 这可能是亏损的领导者,或者是对竞争的反应,但无论如何,这种模型的强大功能使大多数希望在其产品中添加文本生成的公司不费吹灰之力。 目前尚不清楚这种情况会持续多久,但就目前而言,这是一种有趣的状态。
使用 AI 将 Web 变成数据库
人工智能的进步正在使以前不可能的产品成为现实。 现在是重新审视一些失败的最初想法的最佳时机。 语义网最激动人心的想法之一是创建“语义网代理”,它可以在网络中导航并代表您执行任务。 语义网将为网页的有意义的内容带来结构,创建一个环境,在这个环境中,从一个页面漫游到另一个页面的软件代理可以很容易地为用户执行复杂的任务。
Grammarly 正在添加 AI 功能
语法检查工具 Grammarly 添加了一个 AI 工具,可以按照您的个人写作风格编写内容。
The Office lines 数据集
50k+ 台词,包含来自美国热门电视节目的剧季、剧集、场景、演讲者和文字。 可能是一个有趣的数据集,可用于副项目。
超级简单的 ChatGPT 包装器 (GitHub Repo)
一个简单的包装器来处理 gpt-3.5-turbo 的稍微奇怪的格式。 它设置系统的角色并解开响应,同时保持一些聊天历史的外观。
ML Papers Explained (GitHub Repo)
这个 GitHub 库解释了机器学习中的关键概念。