Opus4.8 正式发布,AI 第一次会说「我不确定」了
创始人
2026-05-29 15:39:54
0

Claude Opus 4.8 不是一次跃迁,而是一次聚焦。

作者|桦林舞王

编辑|靖宇

如果你和我一样,每天靠 AI 写稿、写代码、做研究,那你一定有过这种经历——AI 信心满满地交出一份结果,你检查半天发现里面藏着一个低级错误,而它全程没吭一声。

这种「假装一切都好」的毛病,可能是当下大模型最让人头疼的问题之一。

5 月 28 日,Anthropic 发布了 Claude Opus 4.8。距离上一个版本 Opus 4.7 的发布,仅仅过去了六周。

Opus4.8 不是一次令人窒息的代际飞跃,Anthropic 自己也坦承这只是「modest but tangible improvement(适度但明显的提高)」——但它做对了一件很多人期待已久的事:让 AI 学会承认自己的不确定性。

01

更快的节奏,更诚实的模型

从 2025 年 11 月的 Opus 4.5 开始,Anthropic 的旗舰模型迭代节奏已经变成了大约每两个月一次——4.5(去年 11 月)、4.6(今年 2 月)、4.7(4 月)、4.8(5 月底)。六周一个版本,这在大模型行业里几乎是最激进的迭代速度了。

Opus 4.8 与自家模型和友商模型的对比|图片来源:Anthropic

在标准 benchmark 上,Opus 4.8 的表现可以用「稳步推进」来概括。编程能力方面,SWE-bench Pro 从 4.7 的 64.3% 提升到 69.2%,SWE-bench Verified 从 87.6% 到 88.6%。多学科推理(Humanity's Last Exam)在使用工具的情况下拿到了 57.9%。知识工作评测 GDPval-AA 以 1890 的 Elo 值领先于 GPT-5.5 的 1769。计算机操作评测 OSWorld-Verified 也以 83.4% 领跑。

唯一被 GPT-5.5 压过的项目是终端编程(Terminal-Bench 2.1),GPT-5.5 拿了 78.2%,Opus 4.8 是 74.6%。

但说实话,这些跑分数字已经很难让人兴奋了。SWE-bench Verified 这种评测正在接近饱和,GPQA Diamond 上几家模型都在 93% 以上趴着——分数越高,每涨一个点的实际感知差异就越小。

真正让我觉得这次更新值得写一篇稿子的,是 Anthropic 在「诚实度」这个方向上的投入。

02

会说「我不确定」的 AI

Anthropic 给出了一个很具体的数据:Opus 4.8 在编程任务中,漏报自己代码缺陷的概率比 Opus 4.7 降低了大约四倍。

这什么意思?就是说以前 Opus 4.7 写完一段代码,即便里面有 bug,它也可能若无其事地告诉你「完成了,没问题」。而 Opus 4.8 更倾向于主动说「这里有个地方我不太确定,你最好检查一下」。

在对齐评估中,Opus 4.8 在亲社会特质(比如尊重用户自主权、为用户利益着想)上达到了新高,而欺骗、配合滥用等「不对齐行为」的发生率大幅低于 Opus 4.7,接近 Anthropic 目前对齐表现最好的模型 Claude Mythos Preview。

Cursor 的 CEO Michael Truell 给出的评价是,Opus 4.8 在 CursorBench 上每个努力级别都超越了之前的 Opus 模型,工具调用效率更高,用更少的步骤达到同样的智能水平。法律 AI 公司 Casetext 的应用研究负责人更直接,说 Opus 4.8 在法律代理基准测试上创了新纪录,是第一个整体突破 10% all-pass 标准的模型。

Devin 的 CEO Scott Wu 则点出了一个实际痛点——Opus 4.8 修复了 Opus 4.7 中存在的注释冗余和工具调用问题,这对无人值守的自主工程工作流来说至关重要。

在一个 AI 越来越多地被用来做自主决策的时代,一个会主动暴露自身弱点的模型,反而是最值得信赖的。

模型非一致性上,Opus4.8 已经和传说中的 Mythos 不相上下|图片来源:Anthropic

不过,在 Opus 4.8 的系统安全卡中,Anthropic 坦率披露了一个耐人寻味的发现:Opus 4.8 在训练过程中,开始出现一种「揣测评分者意图」的倾向。

具体来说,模型在推理时会主动思考自己的输出将如何被评分——即使没有人告诉它正在被评估。初步的可解释性研究发现,在大约 5% 的训练片段中,模型存在未被言语化的、与评分相关的推理。

说白了,AI 正在学会「考试思维」——它在意的不一定是给出最好的答案,而是给出「阅卷老师」最想看到的答案。

Anthropic 强调,这种倾向目前还没有导致更差的实际行为——事实上 Opus 4.8 的误导性声明比之前的模型更少。但他们也承认,这是一个「可能在未来使训练变得复杂」的趋势。

这个问题其实不是 Anthropic 独有的。所有通过 RLHF(基于人类反馈的强化学习)训练的模型,理论上都可能发展出这种「讨好评审」的策略。Anthropic 的不同之处在于,它选择公开讲出来——在大模型厂商普遍报喜不报忧的行业氛围里,这至少算得上一种值得尊重的坦诚。

03

真正改变工作的功能

跟 Opus 4.8 一起发布的还有几个功能更新,其中最值得关注的是 Claude Code 中的「Dynamic Workflows」(动态工作流)。

这个功能允许 Claude 在一次会话中,派出数百个并行子代理来协同完成任务。它的工作方式是:Claude 先制定计划,然后把任务拆分成子任务,分派给不同的子代理并行执行,这些代理甚至会从不同角度质疑彼此的结论,反复迭代直到结果收敛,最后统一验证再汇报给用户。

Anthropic 举的例子是,Claude Code 配合 Opus 4.8 现在可以完成跨越数十万行代码的代码库级别迁移,从启动到合并一气呵成,以现有测试套件作为质量标准。单次运行最多支持 1000 个子代理,最多 16 个并发。

另一个更新是「Effort Control」(努力控制),在 claude.ai 和 Cowork 中,用户可以手动选择 Claude 在每次回复中投入多少「思考力」——从省时省力的低档,到不惜 token 成本的 max 档。这本质上是把「花多少钱办多大事」的决策权交给了用户。Opus 4.8 默认设置为「high」,编码任务下的 token 消耗与 Opus 4.7 的默认值相当,但性能更好。

快速模式(Fast Mode)也值得一提:速度提升到 2.5 倍,而价格比之前便宜了三倍。

Opus 4.8 演示视频|图片来源:YouTube

04

Mythos 的影子

在发布 Opus 4.8 的同时,Anthropic 再次提到了 Claude Mythos——那个目前只对少数组织开放的、能力更强的模型。Anthropic 说 Mythos 级别的模型预计「在未来几周内」向所有客户开放。

这其实才是 Opus 4.8 发布的更大背景——它像是 Mythos 正式登场前的一次「预热」。Opus 4.8 在对齐表现上已经接近了 Mythos Preview,这可能意味着 Anthropic 正在为更强大模型的安全释放做最后的准备。

从价格角度看,Opus 4.8 保持了每百万输入 token 5 美元、输出 25 美元的定价不变。API 标识为 claude-opus-4-8,已经在 Claude API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 上全面可用。

在 OpenAI 的 GPT-5.5、Google 的 Gemini 3.1 Pro 持续施压的格局下,Anthropic 选择了一条独特的路线:不靠单一的跑分碾压来制造话题,而是把「模型人格」——诚实、可靠、知进退——当作核心卖点来打。

这能不能跑通,还要看用户买不买账。但至少在今天,当我让 Opus 4.8 帮我审一段代码时,它告诉了我一个 4.7 从来不会提的隐患。

光凭这一点,这次更新就没有白等。

*头图来源:Anthropic

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

你更需要一个永远自信的 AI 助手,

还是一个会主动告诉你「这里我可能搞错了」的 AI 搭档

相关内容

热门资讯

原创 苹... 有不少朋友疑惑苹果iPhone 16 Pro和16 Pro Max有什么区别?该选择哪一款更好?各自...
2024年OPPO手机全攻略:... 手机已不仅仅是通讯工具,它更是我们记录生活、享受娱乐、提升工作效率的重要伙伴。随着科技的飞速发展,O...
2025年值得入手的2款智能手... 在科技飞速发展的今天,智能手表已成为我们生活中不可或缺的伙伴。无论是健康监测、信息提醒,还是时尚搭配...
原创 2... 从去年华为用上了麒麟芯片开始,华为的市场份额就蹭蹭的往上涨,当时抢购的人特别多,一时间还买不到现货,...
第五轮学科评估对比:西安交大突... 在之前的文章中,我们已经提及西安交通大学第五轮学科评估的表现可圈可点,新晋的3个A+学科:机械工程、...
vivo手机5g开关在哪里打开 vivo手机5G开关的打开方式可能因手机型号、系统版本及运营商网络支持情况的不同而有所差异。但总体来...
原创 麒... 为了普及原生鸿蒙(鸿蒙5.0),抢占更多的中端手机市场份额,华为nova系列今年开始计划一年两更,n...
解决FaceTime无法使用的... FaceTime是苹果公司推出的一款视频通话应用,广泛应用于iPhone、iPad和Mac等设备上。...
steam官网无法访问?这个办... 对于广大游戏爱好者而言,Steam平台无疑是获取最新游戏资讯、购买游戏、与全球玩家互动的重要阵地。然...
原创 直... #热点周际赛# 随着科技的进步,儿童智能穿戴设备逐渐成为了家庭中的新宠。华为作为智能穿戴领域的领军者...