OpenAI 深夜发布 GPT-5.4,首次实现原生电脑操控能力,实测惊艳,几乎可以操作电脑上所有应用!
凌晨两点,OpenAI 毫无预兆地丢出了 GPT-5.4。这个模型,即将改变 2026 年整个AIAgent 格局!这一次,最核心的能力终于呼之欲出:原生操控电脑。
Agent 能力是 2026 年 AI 进化的主线任务,在实测后,一个深刻的感受:GPT-5.4 可能是 2026 年目前为止,最适合跑 OpenClaw 的模型。或许没有之一。
一手实测 GPT-5.4,打工人真的悬了
目前 GPT-5.4 已经在网页版和 Codex 中上线,在实测多种场景后,真的只有一个感受:打工人真的悬了。
这个模型几乎可以操作电脑上的一切:文件、程序、档案、终端等等,只要是打工人能做,它都可以做。
以 Macbook 为例,让 GPT-5.4 操作日历来定制提醒。
GPT-5.4 直接调起对应应用,并要求系统给予对应的权限。
然后日历中就出现了对应的提醒。
你还可以用 GPT-5.4 来操作电脑打开 APP,比如要求打开小宇宙 APP。
GPT-5.4 不仅可以找到 APP,还能播放对应的节目。
你甚至可以要求 GPT-5.4 直接操作计算器 APP,而且是在计算器 APP 内部来计算。
几乎你电脑上任何 APP,都可以被 GPT-5.4 所调用,比如打开微信读书。
这是真正的「原生电脑操控能力」。
你可以要求 GPT-5.4 更换电脑壁纸。
甚至,你可以要求 GPT-5.4 操作终端来打开 claude code。
我们都知道 OpenClaw 这只「龙虾」能够爆火,核心就是其 Agent 能力太过强大。
一个部署在 Macmini 上的 OpenClaw 几乎拥有和人类一样的操作能力和操作权限。
而这一次,GPT-5.4 直接在模型层面实现「原生操控电脑」能力。
OpenClaw 之父 Peter 评价 GPT-5.4 在编程能力提升不小外,在其他能力方面更加统一、更加智能。
HyperWriteAI、OthersideAI 首席执行官 Matt Shumer 认为 GPT-5.4 是目前世界上最好的模型,远超其他。
他对 GPT-5.4 的评价是:不可思议、超乎想象。
即便是标准模式下,GPT-5.4 的表现也超越了以往专业版的模型…… 这简直不可思议!
编程能力更是惊人…… 近乎完美无瑕。
在 Codex 内部,它的可靠性达到了极致。
编程问题基本上已被攻克。关于这点无需多言,它的优秀程度就是如此超乎想象。
OpenAI 的杰出科学家 Sebastien Bubeck 用一幅梗图来形容 GPT-5.4 编程能力提升。
Mercor AI 首席执行官 Brenda 则认为 GPT-5.4 即将超越顶尖咨询公司、顶尖投行和顶尖律所的专业能力。
也就是人类精英金领的所有工作,它都能做,甚至做的更好。
原生电脑操控能力,这是真正的分水岭
实测后,让我们来仔细想想,GPT-5.4 到底强在哪里?
GPT-5.4 是 OpenAI 发布的第一个具备「原生电脑使用能力」的通用模型。
它不需要借助外部框架或者专门的适配层,就能直接通过截图识别屏幕内容,发出鼠标点击和键盘输入指令,像人类一样在桌面环境中操作软件。
在 OSWorld-Verified 基准测试中(这个测试衡量 AI 在真实桌面环境中的导航能力),GPT-5.4 拿到了 75.0% 的成功率。
作为对比,GPT-5.2 只有 47.3%,而人类基准线是 72.4%。
也就是说,GPT-5.4 操控电脑的能力,已经超过了普通人类用户的平均水平。
这是第一次有通用 AI 模型做到这一点。
AI 操控电脑,第一次比人类自己操控得更好。
天作之合:GPT-5.4 精准命中 OpenClaw 每一个痛点
再说回 OpenClaw,为什么说 GPT-5.4 是 OpenClaw 的天选模型?
终于来到了最让人兴奋的部分。
如果你在今年年初关注过科技圈,你不可能不知道 OpenClaw。
这个由 PSPDFKit 创始人 Peter Steinberger 开发的开源个人 AI 助手项目,在 2026 年 1 月以 72 小时狂揽 6 万 GitHub Star 的速度一夜爆红,如今 Star 数已经突破 25 万,甚至一度带动 Mac Mini 全球卖断货、树莓派股价翻倍。
OpenClaw 的核心理念只有一句话:The AIthat actually does things。
不只是聊天,而是真的帮你干活。
它运行在你自己的电脑上,拥有对 Shell、文件系统、浏览器的完整访问权限。
你通过 WhatsApp、Telegram、飞书、钉钉发一条消息,它就能在后台帮你执行终端命令、编写脚本、管理邮件、抓取网页数据,甚至安装和调试软件。
它有持久记忆,能通过不断扩展技能变得越来越强大。
但是,OpenClaw 有一个公开的秘密:模型就是产品。
OpenClaw 创始人 Peter Steinberger 自己说过,推荐使用最强的最新一代模型。
社区的结论也一针见血:模型即产品,框架只是包装。
社区里广泛流传的经验是,如果你用的模型不够强,OpenClaw 的魔法就会消失。
有开发者做过详细测试,用低端模型运行 OpenClaw 和用 Claude Opus 4.5 运行,体验差距可以到 40% 到 95%。
OpenClaw 的创始人 Peter 推荐将 OpenClaw 的版本升级到 5.4 之后,再配合 GPT-5.4。
模型的推理能力、工具调用准确度、长程任务的上下文保持能力,直接决定了 OpenClaw 到底是赛博秘书还是昂贵的自动补全。
而 GPT-5.4 恰恰在 OpenClaw 最需要的每一个维度上,都踩中了甜蜜点。
原生电脑操控 —— 完美匹配。
OpenClaw 的核心价值就是让 AI 操作你的电脑。GPT-5.4 是第一个原生具备这一能力的通用模型,OSWorld 测试超越人类水平。这意味着接入 GPT-5.4 的 OpenClaw,不再需要通过复杂的适配和 Hack 来实现桌面自动化,而是像给赛车换上了涡轮发动机 —— 从底层就是为这个场景而生。
100 万 Token 上下文 —— 续航无忧。
OpenClaw 是一个持续运行的 Agent,需要维持长对话、记住复杂指令链、处理大量文件内容。以前用其他模型,跑着跑着就忘了前面的任务。100 万 Token 的上下文窗口,意味着 OpenClaw 终于有了足够大的工作台来铺开所有材料。
Tool Search——Agent 的效率革命。
OpenClaw 的强大之处在于它可以接入数十种 Skills 和工具。但工具越多,每次调用消耗的 Token 就越多,成本飙升。GPT-5.4 的 Tool Search 机制天然解决了这个问题 —— 不用把所有工具定义都塞进上下文,按需取用,Token 消耗直降 47%。对于 7×24 小时运行的 OpenClaw 来说,这可能意味着每月节省几十甚至上百美元的 API 费用。
推理能力跃升 —— 告别高级自动补全。
之前用低端模型运行 OpenClaw,遇到稍微复杂的任务就卡壳。GPT-5.4 在专业工作任务中超过 83% 的人类专家表现,配合其在数学、编程、文档处理等领域的全面提升,意味着 OpenClaw 可以胜任更复杂、更高价值的工作场景。从帮你写代码调 Bug,到帮你做财务分析写投资备忘录,想象空间瞬间拉满。
事实上,OpenClaw 的官方文档已经提供了 GPT-5.4 的接入配置方案,OpenAI 的 Responses API 也已全面支持。
社区里第一批吃螃蟹的人应该已经在配置了。
新时代的起点
让我们把视野拉远一点。
GPT-5.4 的发布,不仅是模型参数的又一次刷新,更标志着 AI 行业正在经历一次底层逻辑的切换:从对话式 AI 到智能体 AI 的跨越。
过去几年,我们一直在讨论 AI 有多聪明、能写什么、能回答什么。
但从 GPT-5.4 开始,话题变了 ——AI 能做什么、能完成什么、能替代什么。
当一个模型能独立操控电脑比普通人更熟练,能在 83% 的专业场景中匹敌行业专家 —— 这不是量变,这是质变。
而 OpenClaw 这样的开源 Agent 框架,正是把这种能力转化为实际生产力的桥梁。
GPT-5.4+OpenClaw 的组合,让我们第一次清晰地看到了个人 AI 员工从概念变为现实的路径。
对于一些人来说,奇点已经到了。
你,准备好了吗?
参考资料:
https://chatgpt.com/codex