

深夜凌晨 2 点,我刚准备睡觉。
然后,GPT-5.4,突然发布。

一下子激动的睡不着了。
真的,这真不是我天天咋咋呼呼啥的,我真的也很少会用激动的睡不着觉这种表述。
这是因为,我一直在等正式版的 GPT-5.3 或者 GPT-5.4,来作为我的 OpenClaw 的首选模型。
理由特别简单,因为现代世界三十年,本质上基层都是代码,我们现在看到的关于计算机和互联网的一切,几乎都建立在代码的基础之上。
所以你可以理解为,代码能力,在很多时候,就代表着 Agent 能力的一根粗壮的腿。
一个优秀的 Agent 基座模型,在我的理解里,一般来说,需要三种都很强:
代码能力、世界知识、多模态理解。
当你这三个都能 SOTA 的时候,你几乎必然就是最牛逼的 Agent 模型,当然,还有一个重要的因素,就是价格。
在过去,Claude Opus 4.6,几乎就是 Agent 模型的代名词,因为代码、世界知识都很强,多模态能力虽然比不过 Seed 2.0 和 Gemini 3.1 Pro,但是在一些场景里面,也够了,因为现在的 Agent,跟现实物理交互还没有那么多,那个已经是具身智能的范畴了。
而我过去很喜欢的 GPT-5.3-Codex,代码能力确实强,在做任务执行的时候,那简直就是指哪打哪。
但是最大的问题,这玩意是一个编程特化模型啊,世界知识就是一坨屎,连 GPT-5.2 都不如,所以 OpenAI 当时也是没办法,为了跟 Claude 打一打,只能加个 Codex 的后缀给放出来了。
所以你会发现,在规划能力上,是完全比不过 Claude Opus 4.6 的,但是最大的问题,其实还是因为世界知识的问题,就导致这玩意。
它说天书,讲的那些话,真的,我不是程序员出身,我看那个话,看的就真的超级费劲。
就比如说,我让他之前对我的一个 AI 热点网站的项目进行审查,主要就是 review 一下我的文档规范和我整个代码库。
然后,这哥们写的文档,我尼玛。。。

你再对比一下 Claude Opus 4.6 写的。

对比起来应该一目了然。。。
就是因为这玩意不说人话,世界知识也不行,所以,只是在 Codex 里面用用还好,但是你要是把它接到你的 OpenClaw 里面,去当做默认模型,你就知道啥叫灾难了,这哥们几乎没有人味,说起话来我想揍他。
所以我当时试了一下,就直接弃了,还是在我的 OpenClaw 里面,用的 Claude Opus 4.6 和 Sonnet 4.6,做了一下场景调用。
那为啥说,我很期待 GPT-5.4 呢。
因为,Claude 哪都好,但是,它贵啊!!!
它真的好贵啊!!!!!!
而且因为 Anthropic 这个呆逼,它把 OpenClaw 给封了,所以我订阅的 Claude 的 Max Plan 的额度,是完全不能给 OpenClaw 用的,只能在 Claude Code 用,你想在 OpenClaw 上用,只能硬接 API Key 用。
但是大家都知道,Claude 的 API 有多贵,那根本不是我们这种穷逼团队能用的起的,小规模用用还好,大规模用那公司直接破产了。
之前还有一条路是用反代,把 Google 家的 Antigravity 里面的 Claude 额度用插件代理出来,扔给 OpenClaw 用。

但是后面 Google 开始大批量封号,导致也没办法用了。
我过年的时候 Google 账号还被封了,被迫用 AI 去给 Google 写了一份声泪俱下的邮件。

我说我错了,我再也不会了。
后面 Google 才给我解封,但是反代肯定是用不了了。
而 OpenAI 就不一样了,最开始 Claude 疯狂封 OpenCode 账号的时候,OpenAI 大手一挥,就站了出来,说我们不封,大家全力使用。

这是御三家里,唯一一个这么支持态度的,可以用第三方的工具,调用 Codex 的额度的。
那对 OpenClaw 自然也不例外了,也是几个顶级模型里面,为数不多的,可以直接走登录的,其他的都得用 API。

真的,OpenAI 这会真的是大善人。
还疯狂的给 Codex 加额度。

所以啊,Claude 在 OpenClaw 里用,好是好,但是不能用订阅额度,只能用 API,贵的一笔。
OpenAI 的模型倒是可以用订阅额度,但是 GPT-5.2 代码又不行,GPT-5.3-codex 又不说人话。
你看,要多别扭有多别扭。
而这一次,GPT-5.4 来了!!!
终于把这个短板给补上了!
代码能力跟 GPT-5.3-Codex 齐平,世界知识比 GPT-5.2 还要强,还能使用订阅额度,20 刀就可以用的超级爽。
你就说,这不是最适合 OpenClaw 的天选模型,还有谁是?嗯?
从今天开始,用 OpenClaw 的,都把默认模型切换到 GPT-5.4 去,真的,信我。
回到 GPT-5.4,老规矩,先看跑分。

就很爽。
先看最关键的几个。
GDPval:83.0%
这个是测 AI 在真实工作任务中表现的,包括金融、法律等 44 种职业的知识工作。
GPT-5.4 Thinking 拿了 83.0%,Claude Opus 4.6 是 78.0%,GPT-5.3 Codex 是 70.9%。
在真实业务场景里,GPT-5.4 不只是会写代码,它还能跟你聊业务、聊金融、聊法律、聊各种专业领域的东西。
而且是用人话聊,不是用天书聊。
SWE-Bench Pro:57.7%
这个是测 AI 解决真实软件工程问题的,不只是 Python,而是测四种编程语言。
GPT-5.4 Thinking 拿了 57.7%,GPT-5.3 Codex 是 56.8%。
基本持平。
这就是我最想看到的结果。
代码能力保住了 GPT-5.3 Codex 的水平,世界知识又补上来了。
OSWorld-Verified 也是,75.0%。这个是测 AI 操作电脑的能力的,就是让 AI 像人一样,用鼠标点击、用键盘输入、在不同应用之间切换,完成各种任务。
GPT-5.4 Thinking 拿了 75.0%,超过了 Claude Opus 4.6 的 72.7%,也保持了跟 GPT-5.3-Codex 的持平。
而且,GPT-5.4 操作电脑的速度,快的离谱。

看下这个没有加速过的视频,会更直观。
ToolAthon:54.6%
这个是测 AI 使用工具的能力的,也就是 Agent 能力的核心指标之一。
GPT-5.4 Thinking 拿了 54.6%,Claude Sonnet 4.6 是 44.8%。
差了将近 10 个点。
至于学术知识之类的,跟 GPT-5.3-codex 就没法比了,因为 OpenAI 自己也知道,所以,直接当时就没跑。

总之,翻译成大白话就是。
GPT-5.4 = GPT-5.3 Codex 的代码能力 + 比 GPT-5.2 还强的世界知识 + 更强的工具使用能力 + 超级便宜的 codex 额度。
这四样加在一起,就是一个完美的 OpenClaw 天选基座模型。
然后还有几个很棒的特性更新:
1. 100 万 token 的上下文窗口。
这是 GPT-5.4 的一个大升级。
之前 GPT-5.3 的上下文窗口是 40 万 token,GPT-5.4 直接翻了一倍多,到了 100 万。
这对 Agent 来说太重要了。
因为 Agent 在执行任务的时候,需要保持对整个任务的上下文理解。如果上下文窗口不够大,Agent 干着干着就会忘事儿,前面说的东西后面就不记得了。
100 万 token,基本上足够应对绝大部分的 Agent 任务了。
当然,OpenAI 也不傻,他们说,超过 27 万 token 之后,你的额度就算两倍了。

不过因为 Codex 给的额度实在是太多太多了,所以即使是 2 倍,其实也还好。
2. 原生计算机使用能力。
这个是 GPT-5.4 的另一个大卖点。
OpenAI 说,GPT-5.4 是他们第一个内置原生计算机使用能力的主线模型。
它在编写通过 Playwright 等库操作计算机的代码方面表现非常的出色,同时也能根据屏幕截图发出鼠标和键盘命令。
也就是代码和视觉齐飞,我感觉,这个小龙虾接入以后,就真的可以,直接用视觉,操控你电脑上绝大多数的软件了,真的,原生操控,想想都激动。
他们基于此,还发布了一个新的 skills,叫 playwright-interactive。
允许 Codex 同时以代码和视觉的两种方式,调试 Web 和 Electron 应用。

网址在此,大家可以自行安装。
https://github.com/openai/skills/tree/main/skills/.curated/playwright-interactive
3. 支持了工具搜索。
以前呢,当模型被赋予工具时,所有工具定义都会预先包含在提示中。
对于拥有大量工具的系统,这可能会为每个请求增加数千甚至数万个 token,而且绝大多数的时候,都毫无意义,平白无故的导致成本上升、响应变慢,并在上下文中充斥模型可能永远不会使用的信息。
所以呢,这次他们也支持了工具搜索,就是 GPT‑5.4不再直接接收完整工具定义,而是接收一份可用工具的轻量列表以及工具搜索功能。
当模型需要使用某个工具时,它可以查找该工具的定义并在当时将其追加到对话中。
就非常像 Skills 渐进式呈现的方式,目的很简单,还是优化上下文工程。
OpenAI 在自己测试完以后,发现工具搜索配置在保持相同准确率的同时将总体 token 使用量减少 47%,这个就非常牛逼了。

GPT-5.4 Thinking 大概就是这样。
这次他们其实还发了个 GPT-5.4 Pro,我就不细说了,反正就是一切都更牛逼了,但是对于大多数人来说,太贵了,也没啥大用,必须得 200 刀的 Pro 会员才能用。
API 的整体价格还是得说一下,虽然大家大概率用的都会是订阅的额度。

相比于 GPT-5.2,价格是涨了的,但是还是比 Claude Opus 4.6,便宜不少,Claude Opus 4.6 的价格是$5/$25 每百万 token(输入/输出),GPT-5.4 只有他们一半。
目前 ChatGPT 已经上线了。

Codex 也已经支持了,我自己在 Codex 里面粗浅体验了一下。

首先扑面而来的,那自然是清新沁人的人话。。。
比如我让它去把 OpenAI 官网的视频给扒拉下来,你看看这个发言:“这种活最烦”,“省的跟 Cloudflare 互相折寿”。。。

还有这个。
真的,Codex 的输出,我真的能看得懂了。。。

做出来的东西,前端审美有了不错的进步,但还是不如 Opus 4.6 和 Gemini。

写作粗略测了一下,还是一股子莫名其妙的爱用排比句的诡异的味道。
奇奇怪怪。
然后有点可惜的就是,我等到了凌晨 6 点多,OpenClaw 目前使用 Codex 登录的方式,还是没有支持 GPT-5.4。

这就导致,我还是没有机会测 GPT-5.4 在小龙虾上的效果。
不过估计我一觉睡醒,估计小龙虾就支持了。
因为社区里已经看到很多用户在催了,而且先行官们,都普遍反馈效果很好。
坐等支持,我真的已经迫不及待了。
又是开心的一晚。
如果你也在用 OpenClaw,那记得 OpenClaw 支持了以后,把默认模型切换到 GPT-5.4。
如果你还没用过 OpenClaw,那正好,现在是一个很好的开始时机。
毕竟,有了 GPT-5.4 这个天选模型,体验只会更好。
2026 年,真是疯狂的一年啊。
睡了。
复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。




发评论!每天赢奖品
点击 登录 后,在评论区留言,系统会随机派送奖品
2012年成立至今,是国内备受欢迎的设计师平台,提供奖品赞助 联系我们
AI辅助海报设计101例
已累计诞生 781 位幸运星
发表评论 为下方 7 条评论点赞,解锁好运彩蛋
↓ 下方为您推荐了一些精彩有趣的文章热评 ↓