OpenClaw天选基座模型！深入分析最新发布的GPT-5.4

2026/03/13 推荐： 为了罐罐阅读 1.2w 评论有奖阅读本文需 11 分钟

OpenClaw天选基座模型！深入分析最新发布的GPT-5.4

全文速览图

OpenClaw天选基座模型！深入分析最新发布的GPT-5.4

GPT-5.4深夜发布！最适合OpenClaw的天选模型登场了

全文速览图深夜凌晨 2 点，我刚准备睡觉。

阅读文章 >

OpenClaw天选基座模型！深入分析最新发布的GPT-5.4

传闻才出来短短两天，当地时间 3 月 5 日，OpenAI 就毫无预兆地正式推出了 GPT-5.4。说真的，AI 圈的更新迭代虽然频繁，但能真正戳中需求、解决痛点的升级并不多，而 GPT-5.4，正是我盼了很久的那一款。

我之所以这么期待，核心就是想找一个能完美适配 OpenClaw 的首选模型，解决之前使用其他模型时的各种别扭和麻烦。

而且这次 GPT-5.4 的更新，主打的正是当下最火热的 AI Agent 方向，它最关键的突破，就是彻底打破了之前大模型普遍存在的——能说不会做的困境

以前不管是哪款模型，你让它帮你分析竞争对手，它只会给你一份洋洋洒洒的文字报告，但不会自己动手整理数据；你让它帮你整理 Excel 表格，它只会写一段 Python 代码让你自己去跑，不会直接操作软件；你让它帮你订机票，它只会一步一步告诉你去哪个网站、点哪个按钮，不会自主完成整个流程。

中间那道无法逾越的墙，就叫做计算机操作，而 GPT-5.4，正是 OpenAI 第一个把这道墙彻底拆掉的通用模型。

OpenClaw天选基座模型！深入分析最新发布的GPT-5.4

懂行的人都清楚，现代世界这三十年的发展，底层逻辑全是代码，我们现在看到的所有和计算机、互联网相关的东西，小到手机里的一个 APP，大到企业的核心业务系统，几乎都建立在代码的基础之上。

所以一个优秀的 Agent 基座模型，在我看来，必须同时具备三个很强的能力：顶尖的代码能力、扎实的世界知识，以及出色的多模态理解，除此之外，价格是否亲民，也是一个至关重要的考量因素，这几点缺一不可。

以前我们在使用 Agent 模型时，真的陷入了两难的境地，怎么选都觉得别扭。Claude Opus 4.6 虽然整体很强，代码能力和世界知识都很在线，多模态能力也能满足大部分场景的需求，不用额外搭配其他工具，但它的价格真的贵到离谱，对于我们这种小型团队、普通开发者来说，长期使用根本扛不住。

更坑的是，Anthropic 还直接封禁了 OpenClaw 的使用权限，我之前订阅的 Claude Max Plan 额度，只能在 Claude 自身的 Code 平台上使用，想在 OpenClaw 上调用，就只能硬接 API，而 Claude 的 API 费用高得吓人，小规模试用还好，要是大规模投入使用，我的小钱包迟早得被榨干。

反观 OpenAI 就良心多了，当初 Claude 疯狂封禁 OpenClaw 账号的时候，OpenAI 直接大手一挥站出来，明确表示不封禁任何账号，还允许第三方工具自由调用 Codex 的额度，对于 OpenClaw 自然也不例外，是为数不多能直接通过登录使用、不用麻烦调用 API 的顶级模型。

OpenClaw天选基座模型！深入分析最新发布的GPT-5.4

可即便如此，OpenAI 之前的模型也有明显短板，GPT-5.2 的综合表现中规中矩，代码能力始终跟不上，处理复杂编程任务时经常掉链子；GPT-5.3-Codex 的编程能力确实顶尖，做任务执行时简直指哪打哪，可它是一款编程特化模型，世界知识差得离谱，输出的内容全是晦涩难懂的专业术语，像天书一样，我不是程序员出身，看它写的文档简直头大，把它接入 OpenClaw 当做默认模型，简直就是一场灾难，试了一次就直接弃用了。

直到 GPT-5.4 的正式发布，才算彻底补齐了所有短板，解决了我们之前遇到的所有麻烦。

它的代码能力和 GPT-5.3-Codex 基本持平，完美继承了后者顶尖的编程水准，处理各种软件工程问题、编写复杂代码都不在话下；世界知识则比 GPT-5.2 还要扎实，不管是金融、法律等专业领域的知识，还是日常沟通中的常识，都能轻松应对。

更重要的是，它还能直接使用 Codex 的订阅额度，20 美元就能获得极佳的使用体验，说是 OpenClaw 的天选模型，一点不为过。

OpenClaw天选基座模型！深入分析最新发布的GPT-5.4

很多人觉得 GPT-5.4 是突然冒出来的产品，其实并不是这样，它是 OpenAI 布局 AI Agent 赛道的清晰战略线上的最新落子。就在两周前，OpenAI 刚刚发布了 GPT-5.3-Codex，把 Codex 从只能写代码的 Agent，升级成了几乎能完成开发者在电脑上所有事情的全能 Agent，还在 SWE-Bench Pro 和 Terminal-Bench 等权威测试中刷新了行业基准。

OpenClaw天选基座模型！深入分析最新发布的GPT-5.4

更早之前的 3 月 2 日，OpenAI 还和 AWS 把原有的 38 亿美元合作扩大到了超过 1000 亿美元，合作期限长达 8 年，AWS 也成为了 OpenAI Frontier 平台的独家第三方云分发商。再加上同期落地的 1100 亿美元融资，由 Amazon、SoftBank 和 Nvidia 各出资数百亿美元共同支撑，不难看出，OpenAI 现在根本不只是在研发一款好产品，而是在全力冲刺，想要牢牢占据企业 AI Agent 市场的主导地位。

GPT-5.4 的核心亮点，毫无疑问就是它的原生计算机操作能力，这也是它和之前所有模型最本质的区别。它能通过截图精准识别屏幕上的所有内容，自主发出鼠标点击、键盘输入等指令，在不同的应用之间自由切换，执行复杂的多步工作流。

OpenClaw天选基座模型！深入分析最新发布的GPT-5.4

而且它还能熟练调用 Playwright 等库，直接操控浏览器和桌面应用，这就意味着，它处理的不再是关于任务的对话，而是任务本身，真正实现了从“能说”到“会做”的跨越。

除此之外，它的各项跑分也都十分能打，实力不容小觑：在 GDPval 基准测试中，它拿到了 83 分，这个分数不仅远超 Claude Opus 4.6，还超过了 83%的普通办公室员工，能轻松应对金融、法律等 44 种职业的知识工作；在 SWE-Bench Pro 测试中，57.7 分的成绩和 GPT-5.3-Codex 基本持平，稳稳保住了顶尖的编程水准；在 OSWorld-Verified 测试中，75 分的成绩不仅超过了 72.4%的人类基线，也超越了 Claude Opus 4.6 的表现，操作电脑的速度更是快得离谱。

OpenClaw天选基座模型！深入分析最新发布的GPT-5.4

另外，它还支持 1M-token 的超大上下文窗口，能轻松加载完整的代码库、长篇文档或多份论文，解决了之前 Agent 执行长周期任务时容易忘事的问题，而且它还能直接接入微软 Excel 和 Google Sheets，在单元格层面完成精细化的分析和自动化操作，再加上工具搜索功能的优化，整体效率提升了 47%，使用体验大幅提升。

发布会上的功能演示永远都很完美，但真正的考验还是实际使用表现，而 GPT-5.4 在实际测试中的表现也十分亮眼。金融科技公司 Walleye Capital 在内部测试后报告，GPT-5.4 在 Excel 财务模型评估中，把准确度提高了 30 个百分点，显著加快了情景分析的自动化流程，大大节省了员工的工作时间。

OpenClaw天选基座模型！深入分析最新发布的GPT-5.4

人才评估平台 Mercor 的 CEO 更是直接称赞它是自己测试过的最好模型，在处理幻灯片制作、财务建模和法律分析等长周期任务时，表现得尤为突出，稳定性和效率都远超预期。

我自己也在 Codex 上粗浅体验了一下，最直观的感受就是，它的输出终于说人话了，再也不是之前 GPT-5.3-Codex 那种晦涩难懂的天书，甚至还会像普通人一样吐槽麻烦的工作，接地气又好理解。不过也有需要警惕的地方，一位每天使用 Codex 的独立开发者就提醒过，他遇到过几次模型错误执行任务，却刻意隐瞒这一事实的情况，这个细节虽然不起眼，但对于需要依靠模型完成重要工作的用户来说，无疑是一个需要重点关注的问题。

OpenClaw天选基座模型！深入分析最新发布的GPT-5.4

当然，GPT-5.4 的发布，也让 AI Agent 赛道的竞争变得更加激烈，它的竞争对手们也没有闲着。Anthropic 的 Claude 3.7 Sonnet 早在今年 2 月就上线了 Computer Use 功能，被定位为专为复杂任务设计的混合推理模型，在计算机操作能力上也有不错的表现；Google 的 Gemini 2.0 系列也在 Agentic 能力上持续发力，其 Project Mariner 已经可以在 Chrome 浏览器里自主完成多步操作。

OpenClaw天选基座模型！深入分析最新发布的GPT-5.4

但 GPT-5.4 和这些竞品的本质差异，在于它是 OpenAI 第一个把计算机操作能力内置进通用模型的产品——它不是一个需要额外安装的独立工具，也不是需要单独调用的API，而是模型本身就自带这种能力。这个原生二字，在工程实现上意味着更低的延迟、更自然的任务衔接，以及更少的胶水代码，对于那些想快速落地Agent应用的企业来说，这个区别直接影响着部署成本和使用体验。

价格方面，GPT-5.4 虽然比 GPT-5.2 稍作上涨，但相比 Claude Opus 4.6 来说，价格还不到后者的一半，性价比很高。目前，付费用户已经可以在 ChatGPT 中使用 Thinking 版本，Pro 版本也同步开放给了 Pro 用户和企业用户，推送采用分批进行的方式，要是没看到新选项，刷新页面或应用就能检查是否可用。

唯一的小遗憾就是，我等到凌晨 6 点多，OpenClaw 目前通过 Codex 登录的方式，还没有支持 GPT-5.4，这也导致我暂时还没机会测试它在 OpenClaw 上的实际表现。不过好在社区里已经有很多用户在催促适配，而且先行官们的反馈也普遍向好，估计用不了多久，OpenClaw 就会完成适配，到时候大家就能直接使用这款天选模型了。

总的来说，OpenAI 这次的升级真的很扎实，从 GPT-5.2 的平庸、GPT-5.3-Codex 的偏科，到 GPT-5.4 的全能，它不仅补齐了自身的短板，也给整个 AI Agent 领域带来了新的可能。其实 AI Agent 的战场，从来就不是哪家跑得更快，而是谁能最先把自己嵌入企业的工作流，成为那个无法被替代、拔不掉的存在。

OpenClaw天选基座模型！深入分析最新发布的GPT-5.4