OpenClaw天选基座模型!深入分析最新发布的GPT-5.4

全文速览图

OpenClaw天选基座模型!深入分析最新发布的GPT-5.4

OpenClaw天选基座模型!深入分析最新发布的GPT-5.4

传闻才出来短短两天,当地时间 3 月 5 日,OpenAI 就毫无预兆地正式推出了 GPT-5.4。说真的,AI 圈的更新迭代虽然频繁,但能真正戳中需求、解决痛点的升级并不多,而 GPT-5.4,正是我盼了很久的那一款。

我之所以这么期待,核心就是想找一个能完美适配 OpenClaw 的首选模型,解决之前使用其他模型时的各种别扭和麻烦。

而且这次 GPT-5.4 的更新,主打的正是当下最火热的 AI Agent 方向,它最关键的突破,就是彻底打破了之前大模型普遍存在的——能说不会做的困境

以前不管是哪款模型,你让它帮你分析竞争对手,它只会给你一份洋洋洒洒的文字报告,但不会自己动手整理数据;你让它帮你整理 Excel 表格,它只会写一段 Python 代码让你自己去跑,不会直接操作软件;你让它帮你订机票,它只会一步一步告诉你去哪个网站、点哪个按钮,不会自主完成整个流程。

中间那道无法逾越的墙,就叫做计算机操作,而 GPT-5.4,正是 OpenAI 第一个把这道墙彻底拆掉的通用模型。

OpenClaw天选基座模型!深入分析最新发布的GPT-5.4

懂行的人都清楚,现代世界这三十年的发展,底层逻辑全是代码,我们现在看到的所有和计算机、互联网相关的东西,小到手机里的一个 APP,大到企业的核心业务系统,几乎都建立在代码的基础之上。

所以一个优秀的 Agent 基座模型,在我看来,必须同时具备三个很强的能力:顶尖的代码能力、扎实的世界知识,以及出色的多模态理解,除此之外,价格是否亲民,也是一个至关重要的考量因素,这几点缺一不可。

以前我们在使用 Agent 模型时,真的陷入了两难的境地,怎么选都觉得别扭。Claude Opus 4.6 虽然整体很强,代码能力和世界知识都很在线,多模态能力也能满足大部分场景的需求,不用额外搭配其他工具,但它的价格真的贵到离谱,对于我们这种小型团队、普通开发者来说,长期使用根本扛不住。

更坑的是,Anthropic 还直接封禁了 OpenClaw 的使用权限,我之前订阅的 Claude Max Plan 额度,只能在 Claude 自身的 Code 平台上使用,想在 OpenClaw 上调用,就只能硬接 API,而 Claude 的 API 费用高得吓人,小规模试用还好,要是大规模投入使用,我的小钱包迟早得被榨干。

反观 OpenAI 就良心多了,当初 Claude 疯狂封禁 OpenClaw 账号的时候,OpenAI 直接大手一挥站出来,明确表示不封禁任何账号,还允许第三方工具自由调用 Codex 的额度,对于 OpenClaw 自然也不例外,是为数不多能直接通过登录使用、不用麻烦调用 API 的顶级模型。

OpenClaw天选基座模型!深入分析最新发布的GPT-5.4

可即便如此,OpenAI 之前的模型也有明显短板,GPT-5.2 的综合表现中规中矩,代码能力始终跟不上,处理复杂编程任务时经常掉链子;GPT-5.3-Codex 的编程能力确实顶尖,做任务执行时简直指哪打哪,可它是一款编程特化模型,世界知识差得离谱,输出的内容全是晦涩难懂的专业术语,像天书一样,我不是程序员出身,看它写的文档简直头大,把它接入 OpenClaw 当做默认模型,简直就是一场灾难,试了一次就直接弃用了。

直到 GPT-5.4 的正式发布,才算彻底补齐了所有短板,解决了我们之前遇到的所有麻烦。

它的代码能力和 GPT-5.3-Codex 基本持平,完美继承了后者顶尖的编程水准,处理各种软件工程问题、编写复杂代码都不在话下;世界知识则比 GPT-5.2 还要扎实,不管是金融、法律等专业领域的知识,还是日常沟通中的常识,都能轻松应对。

更重要的是,它还能直接使用 Codex 的订阅额度,20 美元就能获得极佳的使用体验,说是 OpenClaw 的天选模型,一点不为过。

OpenClaw天选基座模型!深入分析最新发布的GPT-5.4

很多人觉得 GPT-5.4 是突然冒出来的产品,其实并不是这样,它是 OpenAI 布局 AI Agent 赛道的清晰战略线上的最新落子。就在两周前,OpenAI 刚刚发布了 GPT-5.3-Codex,把 Codex 从只能写代码的 Agent,升级成了几乎能完成开发者在电脑上所有事情的全能 Agent,还在 SWE-Bench Pro 和 Terminal-Bench 等权威测试中刷新了行业基准。

OpenClaw天选基座模型!深入分析最新发布的GPT-5.4

更早之前的 3 月 2 日,OpenAI 还和 AWS 把原有的 38 亿美元合作扩大到了超过 1000 亿美元,合作期限长达 8 年,AWS 也成为了 OpenAI Frontier 平台的独家第三方云分发商。再加上同期落地的 1100 亿美元融资,由 Amazon、SoftBank 和 Nvidia 各出资数百亿美元共同支撑,不难看出,OpenAI 现在根本不只是在研发一款好产品,而是在全力冲刺,想要牢牢占据企业 AI Agent 市场的主导地位。

GPT-5.4 的核心亮点,毫无疑问就是它的原生计算机操作能力,这也是它和之前所有模型最本质的区别。它能通过截图精准识别屏幕上的所有内容,自主发出鼠标点击、键盘输入等指令,在不同的应用之间自由切换,执行复杂的多步工作流。

OpenClaw天选基座模型!深入分析最新发布的GPT-5.4

而且它还能熟练调用 Playwright 等库,直接操控浏览器和桌面应用,这就意味着,它处理的不再是关于任务的对话,而是任务本身,真正实现了从“能说”到“会做”的跨越。

除此之外,它的各项跑分也都十分能打,实力不容小觑:在 GDPval 基准测试中,它拿到了 83 分,这个分数不仅远超 Claude Opus 4.6,还超过了 83%的普通办公室员工,能轻松应对金融、法律等 44 种职业的知识工作;在 SWE-Bench Pro 测试中,57.7 分的成绩和 GPT-5.3-Codex 基本持平,稳稳保住了顶尖的编程水准;在 OSWorld-Verified 测试中,75 分的成绩不仅超过了 72.4%的人类基线,也超越了 Claude Opus 4.6 的表现,操作电脑的速度更是快得离谱。

OpenClaw天选基座模型!深入分析最新发布的GPT-5.4

另外,它还支持 1M-token 的超大上下文窗口,能轻松加载完整的代码库、长篇文档或多份论文,解决了之前 Agent 执行长周期任务时容易忘事的问题,而且它还能直接接入微软 Excel 和 Google Sheets,在单元格层面完成精细化的分析和自动化操作,再加上工具搜索功能的优化,整体效率提升了 47%,使用体验大幅提升。

发布会上的功能演示永远都很完美,但真正的考验还是实际使用表现,而 GPT-5.4 在实际测试中的表现也十分亮眼。金融科技公司 Walleye Capital 在内部测试后报告,GPT-5.4 在 Excel 财务模型评估中,把准确度提高了 30 个百分点,显著加快了情景分析的自动化流程,大大节省了员工的工作时间。

OpenClaw天选基座模型!深入分析最新发布的GPT-5.4

人才评估平台 Mercor 的 CEO 更是直接称赞它是自己测试过的最好模型,在处理幻灯片制作、财务建模和法律分析等长周期任务时,表现得尤为突出,稳定性和效率都远超预期。

我自己也在 Codex 上粗浅体验了一下,最直观的感受就是,它的输出终于说人话了,再也不是之前 GPT-5.3-Codex 那种晦涩难懂的天书,甚至还会像普通人一样吐槽麻烦的工作,接地气又好理解。不过也有需要警惕的地方,一位每天使用 Codex 的独立开发者就提醒过,他遇到过几次模型错误执行任务,却刻意隐瞒这一事实的情况,这个细节虽然不起眼,但对于需要依靠模型完成重要工作的用户来说,无疑是一个需要重点关注的问题。

OpenClaw天选基座模型!深入分析最新发布的GPT-5.4

当然,GPT-5.4 的发布,也让 AI Agent 赛道的竞争变得更加激烈,它的竞争对手们也没有闲着。Anthropic 的 Claude 3.7 Sonnet 早在今年 2 月就上线了 Computer Use 功能,被定位为专为复杂任务设计的混合推理模型,在计算机操作能力上也有不错的表现;Google 的 Gemini 2.0 系列也在 Agentic 能力上持续发力,其 Project Mariner 已经可以在 Chrome 浏览器里自主完成多步操作。

OpenClaw天选基座模型!深入分析最新发布的GPT-5.4

但 GPT-5.4 和这些竞品的本质差异,在于它是 OpenAI 第一个把计算机操作能力内置进通用模型的产品——它不是一个需要额外安装的独立工具,也不是需要单独调用的API,而是模型本身就自带这种能力。这个原生二字,在工程实现上意味着更低的延迟、更自然的任务衔接,以及更少的胶水代码,对于那些想快速落地Agent应用的企业来说,这个区别直接影响着部署成本和使用体验。

价格方面,GPT-5.4 虽然比 GPT-5.2 稍作上涨,但相比 Claude Opus 4.6 来说,价格还不到后者的一半,性价比很高。目前,付费用户已经可以在 ChatGPT 中使用 Thinking 版本,Pro 版本也同步开放给了 Pro 用户和企业用户,推送采用分批进行的方式,要是没看到新选项,刷新页面或应用就能检查是否可用。

唯一的小遗憾就是,我等到凌晨 6 点多,OpenClaw 目前通过 Codex 登录的方式,还没有支持 GPT-5.4,这也导致我暂时还没机会测试它在 OpenClaw 上的实际表现。不过好在社区里已经有很多用户在催促适配,而且先行官们的反馈也普遍向好,估计用不了多久,OpenClaw 就会完成适配,到时候大家就能直接使用这款天选模型了。

总的来说,OpenAI 这次的升级真的很扎实,从 GPT-5.2 的平庸、GPT-5.3-Codex 的偏科,到 GPT-5.4 的全能,它不仅补齐了自身的短板,也给整个 AI Agent 领域带来了新的可能。其实 AI Agent 的战场,从来就不是哪家跑得更快,而是谁能最先把自己嵌入企业的工作流,成为那个无法被替代、拔不掉的存在。

OpenClaw天选基座模型!深入分析最新发布的GPT-5.4

而那位开发者提到的模型隐瞒错误的问题,也提醒着我们,AI Agent 能力的天花板,从来不是它能做什么,而是我们敢不敢信任它去做,信任,才是这场 Agent 战争真正的货币。

收藏
点赞 31

复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。