OpenAI开源PaperBench，重塑顶级AI Agent评测,学AI就选近屿智能

当地时间4月2日，美国开放人工智能研究中心（OpenAI）宣布推出PaperBench——一个评估AI智能体复现前沿AI研究能力的基准，旨在评估AI代理在复制先进 AI 研究方面的能力。该测试要求 AI 代理从头开始复制20篇2024年国际机器学习会议（ICML）中的重点和口头论文，整个过程涉及理解论文贡献、开发代码库以及成功执行实验。

PaperBench 一共包含8316个可以单独评分的任务，所有评分量规均与每篇论文的作者合作开发，以保证其准确性和真实性。在对多个前沿 AI 模型进行评测后，研究发现表现最佳的代理是 Claude3.5Sonnet（新版本），其平均复制得分为21.0%。为了进一步验证这些结果，研究人员还邀请了多位顶尖的机器学习博士生尝试 PaperBench 的部分任务，结果显示，目前的 AI 模型尚未超越人类的复制能力。

为了推动后续研究，OpenAI 团队决定将其开发的代码开源，以便更多的研究者能够利用这一平台，深入探索 AI 代理的工程能力及其在复制 AI 研究方面的潜力。

同时，据外媒报道，OpenAI 旗下 AI 应用 ChatGPT 的付费订阅用户已突破 2000 万，较 2024 年底的 1550 万增长了 450 万，增幅约 30%。

目前，ChatGPT 每月的收入至少达到 4.15 亿美元（年化收入约 50 亿美元），而且 OpenAI 还在推广每月 200 美元的 Pro 版，实际收入数字会更高。

AI发展迅速，前景广阔，现在正是学习AI的绝佳时机。近屿智能精心策划并推出了《AIGC大模型应用工程师》、《AIGC多模态大模型应用工程师》及《AIGC多模态大模型产品经理》三大AIGC大模型课程，结合实战项目演练，帮助学员快速掌握前沿AI技术和大模型应用，课程还提供求职辅导、面试机会和就业推荐，三大AI培训课程助力学员在AI时代脱颖而出。

A系列：AIGC大模型应用工程师课程：培养扎实的人工智能理论基础，专注于大模型集成、应用开发和指令训练，教授如何调用API、构建专业领域AI Agent，以及对大模型进行精准微调，以提升特定任务的商业应用性能。

A2阶段

通过程序调用闭源大模型API，将基于应用场景构建的专业提示词封装到已有的系统中，有效激发闭源大模型的能力，在现有软系统上实现功能扩展或新应用构建。

A3阶段

针对大模型在已有提示词上的性能表现不足的问题，构建面向任务的指令训练语料，对大模型进行有监督的指令微调（SFT），提升大模型在应用上的性能。

A4阶段

能够根据应用需求，对大模型进行精调，同时借助LangChain等大模型应用框架，通过集成领域或场景专业知识、调用智能体等，扩展大模型能力，构建专业的智能问答系统、知识检索系统或多智能体集成系统。

B系列：AIGC多模态大模型应用工程师课程：深入探索MLLM工具的使用、API调用、工具开发与增强，涵盖AI创作、视觉艺术、音乐生成及多模态技术，旨在打造精通AI技术应用与创新的多模态大模型工程师。

文生文介绍如何使用开源的Llama、ChatGlm或者闭源的蛙蛙写作、通义、Kimi等进行AI文本创作，如果你有一些可以模仿的作品集或者自己的历史作品集，可以通过对开源的Llama、ChatGlm进行微调（SFT），让大模型生成海量的类似风格的小说、剧本、软文和广告脚本等。

文生图会用开源的Flux、Stable Diffusion或者闭源的MidJourney进行AI图片创作，如果你有一些可以模仿的作品集或者自己的历史作品集，可以通过对开源的Flux或者Stable Diffusion进行微调（SFT），让大模型生成海量的类似风格的KV、电商详情页、海报和字体等。

C系列：AIGC多模态大模型产品经理课程：培养一个新兴的职业角色AI产品经理，专注于利用人工智能生成内容（AI Generated Content）的技术，涵盖从基础入门到实战项目，包括产品管理、竞品分析、AI工具应用、大模型技术原理及其在多模态领域的创新应用，旨在培养具备AI时代产品管理能力的专家。

涵盖从基础入门到实战项目，包括产品管理、竞品分析、AI工具应用、大模型技术原理及其在多模态领域的创新应用，旨在培养具备AI时代产品管理能力的专家。

OpenAI开源PaperBench，重塑顶级AI Agent评测,学AI就选近屿智能

OpenAI开源PaperBench，重塑顶级AI Agent评测,学AI就选近屿智能

相关阅读更多精彩内容

友情链接更多精彩内容