OpenAI开源PaperBench,重塑顶级AI Agent评测,学AI就选近屿智能

当地时间4月2日,美国开放人工智能研究中心(OpenAI)宣布推出PaperBench——一个评估AI智能体复现前沿AI研究能力的基准,旨在评估AI代理在复制先进 AI 研究方面的能力。该测试要求 AI 代理从头开始复制20篇2024年国际机器学习会议(ICML)中的重点和口头论文,整个过程涉及理解论文贡献、开发代码库以及成功执行实验。

PaperBench 一共包含8316个可以单独评分的任务,所有评分量规均与每篇论文的作者合作开发,以保证其准确性和真实性。在对多个前沿 AI 模型进行评测后,研究发现表现最佳的代理是 Claude3.5Sonnet(新版本),其平均复制得分为21.0%。为了进一步验证这些结果,研究人员还邀请了多位顶尖的机器学习博士生尝试 PaperBench 的部分任务,结果显示,目前的 AI 模型尚未超越人类的复制能力

为了推动后续研究,OpenAI 团队决定将其开发的代码开源,以便更多的研究者能够利用这一平台,深入探索 AI 代理的工程能力及其在复制 AI 研究方面的潜力。

同时,据外媒报道,OpenAI 旗下 AI 应用 ChatGPT 的付费订阅用户已突破 2000 万,较 2024 年底的 1550 万增长了 450 万,增幅约 30%

目前,ChatGPT 每月的收入至少达到 4.15 亿美元(年化收入约 50 亿美元),而且 OpenAI 还在推广每月 200 美元的 Pro 版,实际收入数字会更高。

AI发展迅速,前景广阔,现在正是学习AI的绝佳时机。近屿智能精心策划并推出了《AIGC大模型应用工程师》、《AIGC多模态大模型应用工程师》及《AIGC多模态大模型产品经理》三大AIGC大模型课程,结合实战项目演练,帮助学员快速掌握前沿AI技术和大模型应用,课程还提供求职辅导、面试机会和就业推荐,三大AI培训课程助力学员在AI时代脱颖而出。

A系列:AIGC大模型应用工程师课程:培养扎实的人工智能理论基础,专注于大模型集成、应用开发和指令训练,教授如何调用API、构建专业领域AI Agent,以及对大模型进行精准微调,以提升特定任务的商业应用性能。

A2阶段

通过程序调用闭源大模型API,将基于应用场景构建的专业提示词封装到已有的系统中,有效激发闭源大模型的能力,在现有软系统上实现功能扩展或新应用构建。

A3阶段

针对大模型在已有提示词上的性能表现不足的问题,构建面向任务的指令训练语料,对大模型进行有监督的指令微调(SFT),提升大模型在应用上的性能。

A4阶段

能够根据应用需求,对大模型进行精调,同时借助LangChain等大模型应用框架,通过集成领域或场景专业知识、调用智能体等,扩展大模型能力,构建专业的智能问答系统、知识检索系统或多智能体集成系统。

B系列:AIGC多模态大模型应用工程师课程:深入探索MLLM工具的使用、API调用、工具开发与增强,涵盖AI创作、视觉艺术、音乐生成及多模态技术,旨在打造精通AI技术应用与创新的多模态大模型工程师。

文生文介绍如何使用开源的Llama、ChatGlm或者闭源的蛙蛙写作、通义、Kimi等进行AI文本创作,如果你有一些可以模仿的作品集或者自己的历史作品集,可以通过对开源的Llama、ChatGlm进行微调(SFT),让大模型生成海量的类似风格的小说、剧本、软文和广告脚本等。

文生图会用开源的Flux、Stable Diffusion或者闭源的MidJourney进行AI图片创作,如果你有一些可以模仿的作品集或者自己的历史作品集,可以通过对开源的Flux或者Stable Diffusion进行微调(SFT),让大模型生成海量的类似风格的KV、电商详情页、海报和字体等。

C系列:AIGC多模态大模型产品经理课程:培养一个新兴的职业角色AI产品经理,专注于利用人工智能生成内容(AI Generated Content)的技术,涵盖从基础入门到实战项目,包括产品管理、竞品分析、AI工具应用、大模型技术原理及其在多模态领域的创新应用,旨在培养具备AI时代产品管理能力的专家。

涵盖从基础入门到实战项目,包括产品管理、竞品分析、AI工具应用、大模型技术原理及其在多模态领域的创新应用,旨在培养具备AI时代产品管理能力的专家。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容