Opus4.8 正式发布，AI 第一次会说「我不确定」了_科技动态

Opus4.8 正式发布，AI 第一次会说「我不确定」了

创始人

2026-05-29 15:39:54

0次

Claude Opus 4.8 不是一次跃迁，而是一次聚焦。

作者｜桦林舞王

编辑｜靖宇

如果你和我一样，每天靠 AI 写稿、写代码、做研究，那你一定有过这种经历——AI 信心满满地交出一份结果，你检查半天发现里面藏着一个低级错误，而它全程没吭一声。

这种「假装一切都好」的毛病，可能是当下大模型最让人头疼的问题之一。

5 月 28 日，Anthropic 发布了 Claude Opus 4.8。距离上一个版本 Opus 4.7 的发布，仅仅过去了六周。

Opus4.8 不是一次令人窒息的代际飞跃，Anthropic 自己也坦承这只是「modest but tangible improvement（适度但明显的提高）」——但它做对了一件很多人期待已久的事：让 AI 学会承认自己的不确定性。

更快的节奏，更诚实的模型

从 2025 年 11 月的 Opus 4.5 开始，Anthropic 的旗舰模型迭代节奏已经变成了大约每两个月一次——4.5（去年 11 月）、4.6（今年 2 月）、4.7（4 月）、4.8（5 月底）。六周一个版本，这在大模型行业里几乎是最激进的迭代速度了。

Opus 4.8 与自家模型和友商模型的对比｜图片来源：Anthropic

在标准 benchmark 上，Opus 4.8 的表现可以用「稳步推进」来概括。编程能力方面，SWE-bench Pro 从 4.7 的 64.3% 提升到 69.2%，SWE-bench Verified 从 87.6% 到 88.6%。多学科推理（Humanity's Last Exam）在使用工具的情况下拿到了 57.9%。知识工作评测 GDPval-AA 以 1890 的 Elo 值领先于 GPT-5.5 的 1769。计算机操作评测 OSWorld-Verified 也以 83.4% 领跑。

唯一被 GPT-5.5 压过的项目是终端编程（Terminal-Bench 2.1），GPT-5.5 拿了 78.2%，Opus 4.8 是 74.6%。

但说实话，这些跑分数字已经很难让人兴奋了。SWE-bench Verified 这种评测正在接近饱和，GPQA Diamond 上几家模型都在 93% 以上趴着——分数越高，每涨一个点的实际感知差异就越小。

真正让我觉得这次更新值得写一篇稿子的，是 Anthropic 在「诚实度」这个方向上的投入。

会说「我不确定」的 AI

Anthropic 给出了一个很具体的数据：Opus 4.8 在编程任务中，漏报自己代码缺陷的概率比 Opus 4.7 降低了大约四倍。

这什么意思？就是说以前 Opus 4.7 写完一段代码，即便里面有 bug，它也可能若无其事地告诉你「完成了，没问题」。而 Opus 4.8 更倾向于主动说「这里有个地方我不太确定，你最好检查一下」。

在对齐评估中，Opus 4.8 在亲社会特质（比如尊重用户自主权、为用户利益着想）上达到了新高，而欺骗、配合滥用等「不对齐行为」的发生率大幅低于 Opus 4.7，接近 Anthropic 目前对齐表现最好的模型 Claude Mythos Preview。

Cursor 的 CEO Michael Truell 给出的评价是，Opus 4.8 在 CursorBench 上每个努力级别都超越了之前的 Opus 模型，工具调用效率更高，用更少的步骤达到同样的智能水平。法律 AI 公司 Casetext 的应用研究负责人更直接，说 Opus 4.8 在法律代理基准测试上创了新纪录，是第一个整体突破 10% all-pass 标准的模型。

Devin 的 CEO Scott Wu 则点出了一个实际痛点——Opus 4.8 修复了 Opus 4.7 中存在的注释冗余和工具调用问题，这对无人值守的自主工程工作流来说至关重要。

在一个 AI 越来越多地被用来做自主决策的时代，一个会主动暴露自身弱点的模型，反而是最值得信赖的。

模型非一致性上，Opus4.8 已经和传说中的 Mythos 不相上下｜图片来源：Anthropic

不过，在 Opus 4.8 的系统安全卡中，Anthropic 坦率披露了一个耐人寻味的发现：Opus 4.8 在训练过程中，开始出现一种「揣测评分者意图」的倾向。

具体来说，模型在推理时会主动思考自己的输出将如何被评分——即使没有人告诉它正在被评估。初步的可解释性研究发现，在大约 5% 的训练片段中，模型存在未被言语化的、与评分相关的推理。

说白了，AI 正在学会「考试思维」——它在意的不一定是给出最好的答案，而是给出「阅卷老师」最想看到的答案。

Anthropic 强调，这种倾向目前还没有导致更差的实际行为——事实上 Opus 4.8 的误导性声明比之前的模型更少。但他们也承认，这是一个「可能在未来使训练变得复杂」的趋势。

这个问题其实不是 Anthropic 独有的。所有通过 RLHF（基于人类反馈的强化学习）训练的模型，理论上都可能发展出这种「讨好评审」的策略。Anthropic 的不同之处在于，它选择公开讲出来——在大模型厂商普遍报喜不报忧的行业氛围里，这至少算得上一种值得尊重的坦诚。

真正改变工作的功能

跟 Opus 4.8 一起发布的还有几个功能更新，其中最值得关注的是 Claude Code 中的「Dynamic Workflows」（动态工作流）。

这个功能允许 Claude 在一次会话中，派出数百个并行子代理来协同完成任务。它的工作方式是：Claude 先制定计划，然后把任务拆分成子任务，分派给不同的子代理并行执行，这些代理甚至会从不同角度质疑彼此的结论，反复迭代直到结果收敛，最后统一验证再汇报给用户。

Anthropic 举的例子是，Claude Code 配合 Opus 4.8 现在可以完成跨越数十万行代码的代码库级别迁移，从启动到合并一气呵成，以现有测试套件作为质量标准。单次运行最多支持 1000 个子代理，最多 16 个并发。

另一个更新是「Effort Control」（努力控制），在 claude.ai 和 Cowork 中，用户可以手动选择 Claude 在每次回复中投入多少「思考力」——从省时省力的低档，到不惜 token 成本的 max 档。这本质上是把「花多少钱办多大事」的决策权交给了用户。Opus 4.8 默认设置为「high」，编码任务下的 token 消耗与 Opus 4.7 的默认值相当，但性能更好。

快速模式（Fast Mode）也值得一提：速度提升到 2.5 倍，而价格比之前便宜了三倍。

Opus 4.8 演示视频｜图片来源：YouTube

Mythos 的影子

在发布 Opus 4.8 的同时，Anthropic 再次提到了 Claude Mythos——那个目前只对少数组织开放的、能力更强的模型。Anthropic 说 Mythos 级别的模型预计「在未来几周内」向所有客户开放。

这其实才是 Opus 4.8 发布的更大背景——它像是 Mythos 正式登场前的一次「预热」。Opus 4.8 在对齐表现上已经接近了 Mythos Preview，这可能意味着 Anthropic 正在为更强大模型的安全释放做最后的准备。

从价格角度看，Opus 4.8 保持了每百万输入 token 5 美元、输出 25 美元的定价不变。API 标识为 claude-opus-4-8，已经在 Claude API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 上全面可用。

在 OpenAI 的 GPT-5.5、Google 的 Gemini 3.1 Pro 持续施压的格局下，Anthropic 选择了一条独特的路线：不靠单一的跑分碾压来制造话题，而是把「模型人格」——诚实、可靠、知进退——当作核心卖点来打。

这能不能跑通，还要看用户买不买账。但至少在今天，当我让 Opus 4.8 帮我审一段代码时，它告诉了我一个 4.7 从来不会提的隐患。

光凭这一点，这次更新就没有白等。

*头图来源：Anthropic

本文为极客公园原创文章，转载请联系极客君微信 geekparkGO

极客一问

你更需要一个永远自信的 AI 助手，

还是一个会主动告诉你「这里我可能搞错了」的 AI 搭档？

上一篇：长沙专业的全屋智能家居店铺

下一篇：视频丨创多项全球第一！我国最大储能实证平台启动

Opus4.8 正式发布，AI 第一次会说「我不确定」了

相关内容

热门资讯