头条
库克将在 iPad 发布会上“暗示”苹果人工智能功能
苹果首席执行官蒂姆·库克预计将在下周的“Let Loose”活动中透露新的人工智能功能,并预计在 6 月的 WWDC 上提供更多细节。新款 iPad Pro 型号可能会配备 M4 芯片,这暗示苹果即将推出的产品可能具有先进的人工智能功能。
美国各大报纸起诉OpenAI、微软侵犯版权
投资巨头 Alden Global Capital 旗下的八家美国知名报纸周二在纽约南区提起诉讼,起诉 OpenAI 和微软侵犯版权。除了《纽约时报》对两家公司提起的类似诉讼之外,这些新诉讼还增加了出版商索赔的分量。到目前为止,《泰晤士报》是唯一一家对人工智能公司侵犯版权采取法律行动的主要报纸。
老朋友在大型科技公司的AI领域成为竞争对手
DeepMind 联合创始人 Mustafa Suleyman 被任命为微软 AI 首席执行官。他将为微软向人工智能消费产品领域的扩张做出贡献,而他的前同事、DeepMind 的另一位联合创始人 Demis Hassabis 将领导谷歌的人工智能研究。这两位有影响力的人物的旅程反映了推动开发下一个主要计算平台的竞赛的个人和竞争暗流。
研究
优化 Vision Transformer 以实现高效部署
本研究讨论了如何将算法调整与定制硬件相结合来提高 ViT 的效率,特别是通过模型量化。
通过自我监督学习推进尖峰神经网络
Spikformer V2 将自注意力机制与尖峰神经网络 (SNN) 的生物效率相结合。这种创新模型使用尖峰自注意力机制和卷积茎,增强其处理视觉特征的能力,同时提高能源效率。
声音事件检测
全频动态卷积 (FFDConv) 是一种增强声音事件检测的 2D 卷积的新方法。通过为每个频段生成独特的频率内核,FFDConv 提高了检测声音事件的准确性,特别是在其频率特性方面。
工程
具有对抗性调整的图像分割
Meta AI 的分段任意模型 (SAM) 是计算机视觉领域著名的基础模型,擅长图像分割,但在某些特定领域表现不佳。该项目展示了 ASAM,这是 SAM 的一项进步,它使用对抗性调整来提高其性能。
高效、高质量的3D渲染
该项目引入了 SUNDAE,这是一种通过频谱修剪和神经补偿来提高记忆效率的新方法。
视觉文档理解 (GitHub Repo)
InstructDr 是一个模型,旨在擅长执行各种视觉文档理解任务,例如问答和信息提取。 InstructDr 可以通过将文档图像与大型语言模型相结合来适应新的任务和数据集,从而超越现有模型。
杂七杂八
将 LLM 扩展到 128K 上下文长度 (GitHub Repo)
这项研究揭示了一种将语言模型的上下文长度显着扩展至 128K 的方法,强调了训练数据的数量和种类的重要性。
巨大的人才红利和纽约市的人工智能机遇
纽约市在人工智能领域的优势凸显了该市强大的人才库和作为人工智能中心的发展。纽约科技场景吸引了人工智能独角兽和科技工作者。它由精英大学和 4 亿美元的人工智能研究联盟基金等资源推动。
人工智能应用程序如何赚钱
近年来,大多数人工智能应用程序都采用传统的基于订阅的定价模式,重点是按用户收费,反映了它们作为数字助理而不是人类工作者替代品的角色。创新的定价策略,例如基于结果的模型,正在新兴的人工智能公司中出现,通过只对成功的结果收费,有可能提高客户的采用率和收入。
微软禁止美国警察部门使用企业人工智能工具进行面部识别
微软更新了 Azure OpenAI 服务的条款,禁止美国警方使用其生成式 AI 进行面部识别,明确了全球执法应用程序的限制。
Meta 计划耗资 8 亿美元在蒙哥马利建设下一代数据中心
这笔 8 亿美元的投资旨在创造 100 多个就业岗位,预计将于 2026 年底投入运营。
实时交互式图像创建 (GitHub Repo)
Stream Multi Diffusion 是一个能够实现基于区域的实时文本到图像生成的框架。