头条
微软的 Bing 即将登陆第三方浏览器
https://techcrunch.com/2023/08/07/microsofts-bing-chat-is-coming-to-third-party-browsers-including-on-mobile-devices
微软宣布 Bing Chat 很快将在桌面和移动设备的第三方浏览器中提供。
Salesforce Einstein Studio 可让人们从 Amazon SageMaker 开始引入自己的模型
https://techcrunch.com/2023/08/04/salesforce-einstein-studio-lets-you-bring-your-own-model-starting-with-amazon-sagemaker
Salesforce 宣布发布 Einstein Studio,这是一个管理控制台,允许客户将自己的模型导入到 Data Cloud,而无需进行数据提取、转换和加载。此功能针对的是拥有复杂数据团队的公司,这些公司已经在 SageMaker 等其他平台上构建了模型。
人工智能数据中心有望快速增长
https://www.wsj.com/articles/ai-ready-data-centers-are-poised-for-fast-growth-fadae952
公司正在大力投资人工智能专用数据中心,以满足人工智能应用不断增长的需求。预计到 2029 年,人工智能基础设施市场将增长至 4225.5 亿美元。值得注意的是,数据中心初创公司 CoreWeave 获得了 23 亿美元的资金,用于扩大其人工智能就绪数据中心建设。 Meta Platforms 等其他行业巨头正在重新考虑他们的人工智能数据中心项目。
研究
改进LLM评估以实现更公平的评估
https://arxiv.org/abs/2308.01862v1
研究人员提出了一种评估LLM的新方法,该方法使用模仿学术论文评审流程的深度网络。使用代表不同观点的多层和神经元可以产生更全面的评估。
人工智能-人类视觉对齐的数据集
https://arxiv.org/abs/2308.01525v1
本文介绍了一个数据集来观察人工智能是否像人类一样“看到”图像。该数据集分为三个主要组——必须采取行动、必须放弃和不确定——旨在测试人工智能对清晰、不清晰或模糊图像的决策。
MiniChain (GitHub Repo)
https://github.com/srush/MiniChain
这个链接工具可能是第一个真正对原型设计和生产都有用的工具。它以巧妙而强大的方式使用函数装饰器和 YAML 模板来启用链接。示例表明人们只需 20 行即可编写聊天机器人、矢量数据库等。
工程
LanceDB - 开源、无服务器矢量数据库 2.0 (Github Repo)
https://github.com/lancedb/lancedb
LanceDB 是一款适用于人工智能应用程序的新型开发人员友好型无服务器矢量数据库。它可以嵌入到应用程序中,无需管理服务器,并且可以在磁盘上而不是内存上进行扩展,延迟较低。 LanceDB 支持向量搜索、全文搜索和 SQL,并针对多模态数据进行了优化。
HF Transformers 的无分类器引导(GitHub Pull Request)
https://github.com/huggingface/transformers/pull/24654
无分类器引导是一种引导模型生成的方法。它在图像生成中大量使用。它也适用于文本,并且现在在 Hugging Face 模型的“.generate()”方法中得到支持。
测试多模式LLM的新方法 (GitHub Repo)
https://github.com/yuweihao/mm-vet
MM-Vet 是一款新工具,用于测试LLM处理涉及图像和文字的任务的能力,例如从照片中找出数学问题或解释图片中的笑话。
杂七杂八
人工智能语言模型充满政治偏见
https://www.technologyreview.com/2023/08/07/1077324/ai-language-models-are-rife-with-political-biases/
新研究表明,根据人们使用的LLM,人们会得到带有不同政治偏见的答案,其中 GPT-4 是最左翼的自由主义者,LLaMA 是最右翼的独裁主义者。
我如何为 WebGPU 重新实现 PyTorchhttps://praeclarum.org/2023/05/19/webgpu-torch.html
WebGPU-Torch 是一个 TypeScript 库,可以在浏览器中以与 Linux 工作站相当的速度运行神经网络。该库旨在匹配 PyTorch 的 API,使用 WebGPU 实现,并提供优化的推理和自动分级功能。作者重新实现了 WebGPU 的基本操作,并利用代码生成器来优化内存布局和内核。
Geoffrey Hinton 认为人工智能拥有或将会拥有情感
https://the-decoder.com/ai-researcher-geoffrey-hinton-thinks-ai-has-or-will-have-emotions/
人工智能研究员 Geoffrey Hinton 认为,人工智能系统未来将能够感受到沮丧和愤怒等情绪,因为它们可以讲述与情绪相关的假设行为。
Artie (Product)
https://www.artie.so/
Artie 是数据库到数据仓库的实时数据流解决方案。它利用变更数据捕获和流处理以更有效的方式执行数据传输,从而实现亚分钟级延迟并降低数据仓库网络成本。
TorchScale (GitHub Repo)
https://www.jianshu.com/writer#/notebooks/53696430/notes/114174206
TorchScale 是一个 PyTorch 库,允许研究人员和开发人员高效地扩展 Transformer。
人们可以阻止 OpenAI 的网络爬虫
https://www.theverge.com/2023/8/7/23823046/openai-data-scrape-block-ai
OpenAI 现在允许人们阻止其网络爬虫抓取网站的数据,以帮助训练 GPT 模型。