碾压GPT-4！Claude3到底有多强？

2024年3月4日，官方宣布推出 Claude 3 模型系列，它在广泛的认知任务中树立了新的行业基准。该系列包括三个按能力递增排序的最先进模型：Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。每个后续模型都提供越来越强大的性能，允许用户为其特定应用选择智能、速度和成本之间的最佳平衡。

Opus 和 Sonnet 现在已经可以在 claude.ai 和目前在 159个国家普遍可用的 Claude API 中使用。Haiku 很快也会上市。

Claude 3 模型系列

[图片上传失败...(image-9ddda5-1710226209208)]

智能新标准

Opus， Claude最智能的模型，在大部分常用的 AI 系统评估基准上表现优于同行，包括本科水平专家知识（MMLU）、研究生水平专家推理（GPQA）、基础数学（GSM8K）等。它在复杂任务上展示了接近人类的理解和流利程度，引领了通用智能的前沿。

所有 Claude 3 模型在分析和预测、细腻的内容创作、代码生成以及使用西班牙语、日语和法语等非英语语言对话方面的能力都有所提升。

下面是 Claude 3 模型与 Claude同行在多个能力基准测试比较：

[图片上传失败...(image-b6709a-1710226209208)]

近乎即时的结果

Claude 3 模型可以为实时客户聊天、自动补全和数据提取任务提供动力，这些响应必须是即时和实时的。

Haiku 是市场上智能范畴性价比最高的模型。它可以在不到三秒的时间内读懂一个信息和数据密集的 arXiv 上的研究论文（约10k 个 Token），包括图表和图形。上市后， Claude预计性能会进一步提高。

对于大多数工作负载，Sonnet 的速度是 Claude 2 和 Claude 2.1 的两倍，智能水平也更高。它擅长迅速响应的任务，如知识检索或销售自动化。Opus 以与 Claude 2 和 2.1 相似的速度交付，但智能水平更高。

强大的视觉能力

Claude 3 模型拥有与其他领先模型相当的复杂视觉能力。它们可以处理包括照片、图表、图形和技术图纸在内的广泛视觉格式。 Claude特别高兴为 Claude的企业客户提供这种新的方式，其中一些客户的知识库有多达50%以多种格式编码，如PDF、流程图或演示幻灯片。

[图片上传失败...(image-4503c2-1710226209208)]

更少的拒绝

先前的 Claude 模型经常做出不必要的拒绝，这表明缺乏上下文理解。 Claude在这一领域取得了有意义的进展：与上一代模型相比，Opus、Sonnet 和 Haiku 大大减少了拒绝回应那些触及系统保护边界的提示。如下所示，Claude 3 模型对请求有更微妙的理解，识别真正的危害，并且更少地拒绝回答无害的提示。

[图片上传失败...(image-f572f-1710226209208)]

提高准确率

各种规模的企业都依赖 Claude的模型为他们的客户服务，因此对于模型输出来说，保持高准确率是至关重要的。为了评估这一点， Claude使用了一套复杂的、真实的问题，这些问题针对目前模型的已知弱点。 Claude将回应分为正确答案、错误答案（或幻觉）以及不确定性声明，即模型表示它不知道答案，而不是提供错误信息。与 Claude 2.1 相比，Opus 在这些具挑战性的开放式问题上的准确度（或正确答案）表现出了两倍的提升，同时还展现出降低了错误答案的水平。

除了产生更值得信赖的回应外， Claude很快还将在 Claude 3 模型中启用引用功能，从而使它们能够指向参考材料中的精确句子以验证它们的答案。

[图片上传失败...(image-376408-1710226209208)]

长上下文和近乎完美的回忆

Claude 3 模型系列在发布之初将提供 200K 上下文窗口。然而，所有三个模型都能够接受超过 100 万个 Token 的输入， Claude可能会向需要增强处理能力的选定客户提供这一点。

为了有效处理长上下文提示，模型需要强大的回忆能力。'大海捞针' (NIAH) 评估衡量模型从大量数据中准确回忆信息的能力。 Claude通过使用每个提示中的 30 个随机针/问题对之一，并在多样化的众包文档语料上进行测试，增强了这一基准测试的稳健性。Claude 3 Opus 不仅实现了近乎完美的回忆，准确率超过了 99%，在某些情况下，它甚至识别出评估自身的局限性，识别出“针”句似乎是人为插入到原文中的。

[图片上传失败...(image-8d92f1-1710226209208)]

负责任的设计

Claude开发 Claude 3 模型系列，旨在让它们像它们的能力一样值得信赖。 Claude有几个专门的团队跟踪和减轻广泛的风险，范围从错误信息和CSAM到生物滥用、选举干预和自主复制技能。 Claude继续开发诸如 Constitutional AI 这样的方法来提高 Claude模型的安全性和透明度，并已调整 Claude的模型以减轻可能由新模式引发的隐私问题。

在日益复杂的模型中解决偏见问题是一项持续的努力，而 Claude在这次新发布中取得了进步。如模型卡所示，Claude 3 根据 Bias Benchmark for Question Answering (BBQ) 的评估显示出比 Claude以前的模型更少的偏见。 Claude仍然致力于推进减少偏见并促进 Claude模型中更大中立性的技术，确保它们不会倾向于任何特定的党派立场。

尽管 Claude 3 模型系列在生物学知识、网络相关知识和自主性方面相比以前的模型取得了进步，但它仍然符合 Claude Responsible Scaling Policy 中的 AI 安全等级 2 (ASL-2)。

最后编辑于：2024.03.12 14:50:14

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 215,012评论 6赞 497
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 91,628评论 3赞 389
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 160,653评论 0赞 350
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,485评论 1赞 288
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,574评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,590评论 1赞 293
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,596评论 3赞 414
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,340评论 0赞 270
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,794评论 1赞 307
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,102评论 2赞 330
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,276评论 1赞 344
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,940评论 5赞 339
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,583评论 3赞 322
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,201评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,441评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,173评论 2赞 366
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,136评论 2赞 352