头条
谷歌最新的人工智能创新成果
https://blog.google/technology/ai/google-ai-updates-december-2024/
谷歌强调了人工智能领域的最新进展,包括对话式人工智能的强化模型、负责任人工智能实践的更新,以及面向开发者的新工具。
OpenAI的O3
https://www.youtube.com/watch
在OpenAI发布消息的最后一天,OpenAI宣布了O3,这是其最强大的推理模型。
OpenAI的新对齐方法
https://openai.com/index/deliberative-alignment/
OpenAI开发了一种针对推理模型的新对齐技术,能让模型思考基于实际行为目标(比如安全指南里的那些目标)并做出相应回应。这是在对齐方面的一个进步,避免了同时内置对齐和偏好。
研究
医疗思维链
https://arxiv.org/abs/2412.13736v1
一种新的推理框架,能提高医学视觉问答的准确性和可解释性。
多语句标注数据集
https://zzzbbbzzz.github.io/MulSen_AD/index.html
一个新数据集,用于在多句理解和标注任务上训练和评估人工智能模型,强调基于语境的分析。
行动规划框架
https://kakituken.github.io/affordance-any.github.io/
这个框架能让机器人根据物体的可供性来规划行动,提高在动态环境中的泛化能力和效率。
工程
多模态人工智能工具包(GitHub仓库)
https://github.com/taco-group/openemma
一个用于开发多模态人工智能应用的综合工具包,带有用于视觉、语言和音频集成的预制模块。
利用Levitor实现无人机导航
https://ppetrichor.github.io/levitor.github.io/
Levitor是一个用于无人机自主导航的平台,配有先进的避障和高效寻路算法。
微软的大型语言模型基准测试(GitHub仓库)
https://github.com/microsoft/mmlu-cf
微软的MMLU-CF是一个评估语言模型在多种任务上表现的基准,重点关注事实一致性和多语言能力。
其他
如何打造一款真正有用的人工智能产品
https://every.to/thesis/how-to-build-a-truly-useful-ai-product
打造人工智能初创公司,需要快速适应大型语言模型(LLMs)的快速发展,避免那些即将推出的模型就能解决的问题,还要利用尖端技术的高成本来获得竞争优势。要专注于特定用例,与通用人工智能竞争,同时强调产品体验的无缝性。尽管生成式人工智能发展迅速,但打造受欢迎产品的核心原则并未改变。
有用和没用的特定任务大语言模型评估
https://eugeneyan.com/writing/evals/
现成的评估方法往往无法有效衡量大型语言模型(LLM)在特定任务中的表现。用于分类的有用指标包括召回率、精确率、ROC - AUC,而总结和翻译任务则可分别采用基于自然语言推理(NLI)的一致性检查以及chrF或BLEURT指标。要考虑模型中可能存在的缺陷,比如版权抄袭和有害内容等,可使用RealToxicityPrompts这类测试进行全面评估。
o1 转为专业版
https://thezvi.substack.com/p/o1-turns-pro
OpenAI的o1和o1 Pro进行了更新,在编码、数学和复杂问题解决能力方面有显著提升,在深度推理和事实回忆方面表现尤为突出。每月200美元的o1 Pro服务通过增加计算能力进一步强化了这些功能,对处理专业或挑战性任务的人来说特别有用。总体反应积极,多数用户若没有高级需求,每月20美元的服务就够了。
快讯
一次性Python工具
https://simonwillison.net/2024/Dec/19/one-shot-python-tools/
一篇不错的博客,介绍了一种提示策略,用于通过Claude制作自包含、兼容UV的Python脚本。
谷歌推出“水手计划”:人工智能助手可为你使用网络
https://techcrunch.com/2024/12/11/google-unveils-project-mariner-ai-agents-to-use-the-web-for-you/
谷歌的DeepMind推出了“水手计划”,这是一个能通过Chrome浏览器自主浏览网站并与之互动的人工智能代理。
谷歌正在测试能在视频游戏中帮到你的双子座(Gemini)人工智能智能体
https://www.theverge.com/2024/12/11/24318530/google-gemini-2-0-understand-rules-video-games-genie
谷歌发布了Gemini 2.0,展示了能理解游戏规则并提供实时建议的人工智能代理,这些代理专门在《部落冲突》等游戏上进行了测试。