Claude Opus 4.8 不是一次跃迁,而是一次聚焦。
作者|桦林舞王
编辑|靖宇
如果你和我一样,每天靠 AI 写稿、写代码、做研究,那你一定有过这种经历——AI 信心满满地交出一份结果,你检查半天发现里面藏着一个低级错误,而它全程没吭一声。
这种「假装一切都好」的毛病,可能是当下大模型最让人头疼的问题之一。
5 月 28 日,Anthropic 发布了 Claude Opus 4.8。距离上一个版本 Opus 4.7 的发布,仅仅过去了六周。
Opus4.8 不是一次令人窒息的代际飞跃,Anthropic 自己也坦承这只是「modest but tangible improvement(适度但明显的提高)」——但它做对了一件很多人期待已久的事:让 AI 学会承认自己的不确定性。
01
更快的节奏,更诚实的模型
从 2025 年 11 月的 Opus 4.5 开始,Anthropic 的旗舰模型迭代节奏已经变成了大约每两个月一次——4.5(去年 11 月)、4.6(今年 2 月)、4.7(4 月)、4.8(5 月底)。六周一个版本,这在大模型行业里几乎是最激进的迭代速度了。
Opus 4.8 与自家模型和友商模型的对比|图片来源:Anthropic
在标准 benchmark 上,Opus 4.8 的表现可以用「稳步推进」来概括。编程能力方面,SWE-bench Pro 从 4.7 的 64.3% 提升到 69.2%,SWE-bench Verified 从 87.6% 到 88.6%。多学科推理(Humanity's Last Exam)在使用工具的情况下拿到了 57.9%。知识工作评测 GDPval-AA 以 1890 的 Elo 值领先于 GPT-5.5 的 1769。计算机操作评测 OSWorld-Verified 也以 83.4% 领跑。
唯一被 GPT-5.5 压过的项目是终端编程(Terminal-Bench 2.1),GPT-5.5 拿了 78.2%,Opus 4.8 是 74.6%。
但说实话,这些跑分数字已经很难让人兴奋了。SWE-bench Verified 这种评测正在接近饱和,GPQA Diamond 上几家模型都在 93% 以上趴着——分数越高,每涨一个点的实际感知差异就越小。
真正让我觉得这次更新值得写一篇稿子的,是 Anthropic 在「诚实度」这个方向上的投入。
02
会说「我不确定」的 AI
Anthropic 给出了一个很具体的数据:Opus 4.8 在编程任务中,漏报自己代码缺陷的概率比 Opus 4.7 降低了大约四倍。
这什么意思?就是说以前 Opus 4.7 写完一段代码,即便里面有 bug,它也可能若无其事地告诉你「完成了,没问题」。而 Opus 4.8 更倾向于主动说「这里有个地方我不太确定,你最好检查一下」。
在对齐评估中,Opus 4.8 在亲社会特质(比如尊重用户自主权、为用户利益着想)上达到了新高,而欺骗、配合滥用等「不对齐行为」的发生率大幅低于 Opus 4.7,接近 Anthropic 目前对齐表现最好的模型 Claude Mythos Preview。
Cursor 的 CEO Michael Truell 给出的评价是,Opus 4.8 在 CursorBench 上每个努力级别都超越了之前的 Opus 模型,工具调用效率更高,用更少的步骤达到同样的智能水平。法律 AI 公司 Casetext 的应用研究负责人更直接,说 Opus 4.8 在法律代理基准测试上创了新纪录,是第一个整体突破 10% all-pass 标准的模型。
Devin 的 CEO Scott Wu 则点出了一个实际痛点——Opus 4.8 修复了 Opus 4.7 中存在的注释冗余和工具调用问题,这对无人值守的自主工程工作流来说至关重要。
在一个 AI 越来越多地被用来做自主决策的时代,一个会主动暴露自身弱点的模型,反而是最值得信赖的。
模型非一致性上,Opus4.8 已经和传说中的 Mythos 不相上下|图片来源:Anthropic
不过,在 Opus 4.8 的系统安全卡中,Anthropic 坦率披露了一个耐人寻味的发现:Opus 4.8 在训练过程中,开始出现一种「揣测评分者意图」的倾向。
具体来说,模型在推理时会主动思考自己的输出将如何被评分——即使没有人告诉它正在被评估。初步的可解释性研究发现,在大约 5% 的训练片段中,模型存在未被言语化的、与评分相关的推理。
说白了,AI 正在学会「考试思维」——它在意的不一定是给出最好的答案,而是给出「阅卷老师」最想看到的答案。
Anthropic 强调,这种倾向目前还没有导致更差的实际行为——事实上 Opus 4.8 的误导性声明比之前的模型更少。但他们也承认,这是一个「可能在未来使训练变得复杂」的趋势。
这个问题其实不是 Anthropic 独有的。所有通过 RLHF(基于人类反馈的强化学习)训练的模型,理论上都可能发展出这种「讨好评审」的策略。Anthropic 的不同之处在于,它选择公开讲出来——在大模型厂商普遍报喜不报忧的行业氛围里,这至少算得上一种值得尊重的坦诚。
03
真正改变工作的功能
跟 Opus 4.8 一起发布的还有几个功能更新,其中最值得关注的是 Claude Code 中的「Dynamic Workflows」(动态工作流)。
这个功能允许 Claude 在一次会话中,派出数百个并行子代理来协同完成任务。它的工作方式是:Claude 先制定计划,然后把任务拆分成子任务,分派给不同的子代理并行执行,这些代理甚至会从不同角度质疑彼此的结论,反复迭代直到结果收敛,最后统一验证再汇报给用户。
Anthropic 举的例子是,Claude Code 配合 Opus 4.8 现在可以完成跨越数十万行代码的代码库级别迁移,从启动到合并一气呵成,以现有测试套件作为质量标准。单次运行最多支持 1000 个子代理,最多 16 个并发。
另一个更新是「Effort Control」(努力控制),在 claude.ai 和 Cowork 中,用户可以手动选择 Claude 在每次回复中投入多少「思考力」——从省时省力的低档,到不惜 token 成本的 max 档。这本质上是把「花多少钱办多大事」的决策权交给了用户。Opus 4.8 默认设置为「high」,编码任务下的 token 消耗与 Opus 4.7 的默认值相当,但性能更好。
快速模式(Fast Mode)也值得一提:速度提升到 2.5 倍,而价格比之前便宜了三倍。
Opus 4.8 演示视频|图片来源:YouTube
04
Mythos 的影子
在发布 Opus 4.8 的同时,Anthropic 再次提到了 Claude Mythos——那个目前只对少数组织开放的、能力更强的模型。Anthropic 说 Mythos 级别的模型预计「在未来几周内」向所有客户开放。
这其实才是 Opus 4.8 发布的更大背景——它像是 Mythos 正式登场前的一次「预热」。Opus 4.8 在对齐表现上已经接近了 Mythos Preview,这可能意味着 Anthropic 正在为更强大模型的安全释放做最后的准备。
从价格角度看,Opus 4.8 保持了每百万输入 token 5 美元、输出 25 美元的定价不变。API 标识为 claude-opus-4-8,已经在 Claude API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 上全面可用。
在 OpenAI 的 GPT-5.5、Google 的 Gemini 3.1 Pro 持续施压的格局下,Anthropic 选择了一条独特的路线:不靠单一的跑分碾压来制造话题,而是把「模型人格」——诚实、可靠、知进退——当作核心卖点来打。
这能不能跑通,还要看用户买不买账。但至少在今天,当我让 Opus 4.8 帮我审一段代码时,它告诉了我一个 4.7 从来不会提的隐患。
光凭这一点,这次更新就没有白等。
*头图来源:Anthropic
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO
极客一问
你更需要一个永远自信的 AI 助手,
还是一个会主动告诉你「这里我可能搞错了」的 AI 搭档?
上一篇:长沙专业的全屋智能家居店铺