头条
Meta发布庞大的第一人称视频数据集
https://ai.meta.com/blog/ego-exo4d-video-learning-perception/
视频理解是一个古老的领域,现在才开始取得成功。成功的主要驱动力是高质量的数据集。Meta的这项工作包括许多传感器数据源和手势姿态。它为现有方法提供了基准性能。
Snapchat+ 订阅者现在可以创建并发送AI生成的图片
https://techcrunch.com/2023/12/12/snapchat-subscribers-can-now-create-and-send-ai-generated-images/
Snapchat为其Snapchat+订阅者引入了新的AI驱动功能,包括一个AI图像生成器,它可以根据文本提示创建图像,以及一个梦幻自拍特性,可以与朋友一起创建奇幻图像。一个新的AI扩展工具允许用户自动扩展和填充照片的背景。这些功能正在向超过700万Snapchat+订阅者逐步推出。
Google将Gemini Pro引入Vertex AI
https://techcrunch.com/2023/12/13/google-brings-gemini-pro-to-vertex-ai/
Google推出了Gemini Pro,这是其先进AI模型Gemini Ultra的轻量级版本,用于Vertex AI的公共预览,提供文本和图像处理能力,以及可定制的上下文,适用于各种用例。
研究
通过防止熵崩溃的稳定训练
https://github.com/apple/ml-sigma-reparam
Transformer 虽然令人惊叹,但经常难以训练,存在许多不稳定性。其中一个主要问题是注意力矩阵的熵崩溃。这项工作是一种通过简单的重参数化来防止这种情况的方法。
使用扩散模型估计图像中的光照
https://diffusionlight.github.io/
该项目引入了一种估计图像中光照的新技术,克服了当前依赖HDR全景数据集的方法的局限性。通过使用扩散模型将铬球渲染到标准图像中,该技术揭示了铬球和扩散噪声之间独特的关系。
自动驾驶的语言模型
https://arxiv.org/abs/2312.09245v1
DriveMLM是一个新框架,使用大型语言模型增强自动驾驶。这个系统不仅可以与现有的自动驾驶系统集成,而且在模拟中表现更好,它将语言决策与车辆控制相结合。
工程
Coframe Coffee (GitHub Repo)
https://github.com/Coframe/coffee
上周发布的Coffee帮助通过AI简化前端开发,可以插入现有代码库。该项目特别专注于基于Coframe团队从使用AI生成80%以上的前端的经验中学到的第一类DX。
LLM应用评估框架 (GitHub Repo)
https://github.com/confident-ai/deepeval
DeepEval是一个一体化的LLM应用评估框架,允许用户轻松识别并迭代不满意的LLM输出。它目前提供14种以上的评估指标,如幻觉、总结、G-Eval、RAGAS等,让用户以类似Pytest或基于组件的方式评估整个数据集。
解决Pytorch内存问题
https://pytorch.org/blog/understanding-gpu-memory-1/
对于使用Pytorch的实践者来说,最大的挑战之一是弄清楚为什么会出现内存不足。Pytorch 2.1中的一些新工具可以深入了解内存使用情况。。
杂七杂八
AMD社区性能基准测试
https://community.amd.com/t5/instinct-accelerators/competitive-performance-claims-and-industry-leading-inference/ba-p/652304
MI300X是AMD的旗舰AI加速器,现在在ROCm 6的支持下,其推理性能接近NVIDIA。这对社区来说是个好消息,因为它为新兴的AI公司提供了替代芯片。
在Magic The Gathering草稿上微调Mistral 7B
https://generallyintelligent.substack.com/p/fine-tuning-mistral-7b-on-magic-the
使用Magic: The Gathering草稿作为测试案例的微调实验,使GPT-4的能力得到了增强,产生了一个与人类性能密切匹配的微调7B参数模型。
AI的何时、何地以及如何
https://www.saastr.com/the-where-when-and-how-of-ai-with-theory-ventures-open-ai-motherduck-and-lamini/
领先的创始人和风险投资者讨论了AI的最新动态,从LLM在企业创新中的应用到其他领域。如果你对“关于AI你应该知道的事情”的步伐感到有些不知所措,这是一个很好的快速回顾。
MMLU提示模板
https://github.com/microsoft/promptbase/blob/main/src/promptbase/mmlu/prompt_templates.py
Microsoft的Medprompt+目前是MMLU的最佳提示方法。微软已经发布了这个模板,以及许多其他在评估社区标准的思路链式样式模板。
Agility使用LLM与其人形机器人沟通
https://techcrunch.com/2023/12/14/agility-is-using-large-language-models-to-communicate-with-its-humanoid-robots/
生成式AI和大型语言模型正在改变机器人技术。Agility 的双足机器人Digit现在可以根据自然语言命令执行复杂任务,标志着向更人性化、直观的机器人交互的转变。