2024-12-25 简讯 : 谷歌最新的人工智能创新成果

头条

谷歌最新的人工智能创新成果

https://blog.google/technology/ai/google-ai-updates-december-2024/
谷歌强调了人工智能领域的最新进展，包括对话式人工智能的强化模型、负责任人工智能实践的更新，以及面向开发者的新工具。

OpenAI的O3

https://www.youtube.com/watch
在OpenAI发布消息的最后一天，OpenAI宣布了O3，这是其最强大的推理模型。

OpenAI的新对齐方法

https://openai.com/index/deliberative-alignment/
OpenAI开发了一种针对推理模型的新对齐技术，能让模型思考基于实际行为目标（比如安全指南里的那些目标）并做出相应回应。这是在对齐方面的一个进步，避免了同时内置对齐和偏好。

研究

医疗思维链

https://arxiv.org/abs/2412.13736v1
一种新的推理框架，能提高医学视觉问答的准确性和可解释性。

多语句标注数据集

https://zzzbbbzzz.github.io/MulSen_AD/index.html
一个新数据集，用于在多句理解和标注任务上训练和评估人工智能模型，强调基于语境的分析。

行动规划框架

https://kakituken.github.io/affordance-any.github.io/
这个框架能让机器人根据物体的可供性来规划行动，提高在动态环境中的泛化能力和效率。

工程

多模态人工智能工具包（GitHub仓库）

https://github.com/taco-group/openemma
一个用于开发多模态人工智能应用的综合工具包，带有用于视觉、语言和音频集成的预制模块。

利用Levitor实现无人机导航

https://ppetrichor.github.io/levitor.github.io/
Levitor是一个用于无人机自主导航的平台，配有先进的避障和高效寻路算法。

微软的大型语言模型基准测试（GitHub仓库）

https://github.com/microsoft/mmlu-cf
微软的MMLU-CF是一个评估语言模型在多种任务上表现的基准，重点关注事实一致性和多语言能力。

其他

https://every.to/thesis/how-to-build-a-truly-useful-ai-product
打造人工智能初创公司，需要快速适应大型语言模型（LLMs）的快速发展，避免那些即将推出的模型就能解决的问题，还要利用尖端技术的高成本来获得竞争优势。要专注于特定用例，与通用人工智能竞争，同时强调产品体验的无缝性。尽管生成式人工智能发展迅速，但打造受欢迎产品的核心原则并未改变。

有用和没用的特定任务大语言模型评估

https://eugeneyan.com/writing/evals/
现成的评估方法往往无法有效衡量大型语言模型（LLM）在特定任务中的表现。用于分类的有用指标包括召回率、精确率、ROC - AUC，而总结和翻译任务则可分别采用基于自然语言推理（NLI）的一致性检查以及chrF或BLEURT指标。要考虑模型中可能存在的缺陷，比如版权抄袭和有害内容等，可使用RealToxicityPrompts这类测试进行全面评估。

o1 转为专业版

https://thezvi.substack.com/p/o1-turns-pro
OpenAI的o1和o1 Pro进行了更新，在编码、数学和复杂问题解决能力方面有显著提升，在深度推理和事实回忆方面表现尤为突出。每月200美元的o1 Pro服务通过增加计算能力进一步强化了这些功能，对处理专业或挑战性任务的人来说特别有用。总体反应积极，多数用户若没有高级需求，每月20美元的服务就够了。

2024-12-25 简讯 : 谷歌最新的人工智能创新成果