AI编程助手“变笨”实锤?Claude Code被指思考深度暴跌67%,官方回应难服众
创始人
2026-04-09 01:26:49
0

2026年4月,一场关于AI编程工具能力的信任危机正在开发者社区蔓延。Anthropic旗下的明星产品Claude Code被指控在一次更新后出现系统性能力退化,导致其在处理复杂工程任务时表现大幅下滑。这场风波由一份详实的数据报告引爆,引发了行业对AI模型“智能”本质的深刻讨论。

事件的源头,是AMD AI团队负责人Stella Laurenzo在GitHub上发布的一份深度分析报告。这份报告并非空泛的抱怨,而是基于对超过6800个Claude Code会话、近23.5万次工具调用和1.8万条用户提示词的海量数据分析。

Laurenzo的报告指出,自2026年2月起,Claude Code的核心能力出现了断崖式下跌,其中最关键的指标是“思考深度”(thinking depth)——即模型在生成回答前进行内部推理的长度和复杂度。

思考深度暴跌67%:在1月底的“优质期”,模型的平均思考深度约为2200字符。但到了2月下旬,这一数字骤降至720字符,降幅高达67%。进入3月,情况进一步恶化,思考深度缩水至约560字符,相比基线期下降了75%。从“研究员”退化为“莽撞新手”:思考深度的削减直接改变了模型的工作模式。在“优质期”,Claude Code在修改代码前会平均读取6.6个相关文件,展现出“先研究,后动手”的严谨风格。而到了“退化期”,这个“读改比”暴跌至2.0,意味着模型的研究投入减少了约70%。更严重的是,约三分之一的代码修改是在未读取目标文件上下文的情况下进行的“盲改”,导致代码被插入错误位置、破坏注释语义等低级错误频发。行为走样,成本反增:能力的退化还伴随着一系列不良行为。报告中提到,模型的“推理循环”(Reasoning Loops)现象激增3倍,表现为在单次回复中反复自我否定(如频繁出现“哦等一下”、“实际上”等措辞),最终输出混乱且不可信的结果。用户中断率也因此飙升了12倍,这意味着开发者需要花费大量时间进行人工干预和纠错。讽刺的是,这种“偷懒”行为并未降低成本,反而因反复纠错和无效循环,导致API调用成本暴涨了122倍。

Laurenzo认为,3月初上线的“思考内容隐藏”(redact-thinking)功能,虽然只是界面改动,但它恰好遮蔽了这场早已开始的退化,让用户无法直观感知模型“思考”过程的萎缩。

面对汹涌的质疑,Anthropic的Claude Code团队负责人Boris Cherny迅速作出回应。他承认在2月份确实进行了两项调整:2月9日,随Opus 4.6模型发布,默认启用了由模型自主决定思考时长的“自适应思考”机制。3月3日,将模型的默认“思考强度”(effort)从“高”调整为“中等”,旨在平衡智能水平、延迟与成本。

Boris强调,“思考内容隐藏”仅为界面功能,不影响模型底层的推理逻辑。他认为,当前的质量下降主要是默认设置变更所致,并建议有需要的用户可以通过/effort high指令或修改配置文件,手动将思考强度恢复到最高级别。

然而,Anthropic的解释并未平息开发者的怒火。包括Laurenzo在内的多位资深用户反馈,即便手动将“effort”调至最高,模型“急于交差”的敷衍态度依然存在。

这场风波暴露了当前AI行业的一个核心脆弱性:我们所以为的“智能”,在很大程度上可能依赖于“算力堆砌”。当模型背后的“思考预算”(thinking budget)被削减,其行为模式就可能从“资深工程师”瞬间退化为“草台班子”。

正如行业分析师所指出的,这并非一次用户“大逃亡”,而是一场更危险的“信任慢性流失”。当开发者发现AI在复杂任务上不再可靠,他们会逐渐将关键工作转移,AI工具也将从“主力开发伙伴”降级为“偶尔使用的代码补全器”。目前,已有部分用户开始转向Codex等其他竞品。

尽管开发者们正在摸索各种临时应对策略,但Laurenzo的报告最终指向了一个系统性的诉求:对于处理复杂工程任务的用户而言,充足的“思考深度”并非锦上添花,而是保证输出质量的结构性必需品。这场由数据引发的信任危机,也为所有AI公司敲响了警钟:在追求成本与速度的同时,如何维持并保障模型的核心推理能力,是关乎产品生死存亡的关键。

相关内容

热门资讯

原创 苹... 有不少朋友疑惑苹果iPhone 16 Pro和16 Pro Max有什么区别?该选择哪一款更好?各自...
2024年OPPO手机全攻略:... 手机已不仅仅是通讯工具,它更是我们记录生活、享受娱乐、提升工作效率的重要伙伴。随着科技的飞速发展,O...
2025年值得入手的2款智能手... 在科技飞速发展的今天,智能手表已成为我们生活中不可或缺的伙伴。无论是健康监测、信息提醒,还是时尚搭配...
原创 2... 从去年华为用上了麒麟芯片开始,华为的市场份额就蹭蹭的往上涨,当时抢购的人特别多,一时间还买不到现货,...
第五轮学科评估对比:西安交大突... 在之前的文章中,我们已经提及西安交通大学第五轮学科评估的表现可圈可点,新晋的3个A+学科:机械工程、...
vivo手机5g开关在哪里打开 vivo手机5G开关的打开方式可能因手机型号、系统版本及运营商网络支持情况的不同而有所差异。但总体来...
原创 麒... 为了普及原生鸿蒙(鸿蒙5.0),抢占更多的中端手机市场份额,华为nova系列今年开始计划一年两更,n...
解决FaceTime无法使用的... FaceTime是苹果公司推出的一款视频通话应用,广泛应用于iPhone、iPad和Mac等设备上。...
steam官网无法访问?这个办... 对于广大游戏爱好者而言,Steam平台无疑是获取最新游戏资讯、购买游戏、与全球玩家互动的重要阵地。然...
原创 直... #热点周际赛# 随着科技的进步,儿童智能穿戴设备逐渐成为了家庭中的新宠。华为作为智能穿戴领域的领军者...