AI春晚来了!Claude Opus 4.6和GPT-5.3 Codex同时发布!

一、全文速览图

AI春晚来了!Claude Opus 4.6和GPT-5.3 Codex同时发布!

Anthropic 的新模型 Claude Opus 4.6 正式更新了。

AI春晚来了!Claude Opus 4.6和GPT-5.3 Codex同时发布!

我说实话,我是真的最近因为 AI 圈这些模型和产品,熬夜熬得有点扛不住了。

但其实最颠最绝望的是,20 分钟之后,OpenAI 也发了新模型。。。

GPT 5.3 Codex 也来了。

这尼玛,真的是中门对狙了。

AI春晚来了!Claude Opus 4.6和GPT-5.3 Codex同时发布!

要了亲命了。。。

这两模型都还是得看,因为之前 GPT 和 Claude 几乎就是我最常用的唯二最主力的模型,GPT-5.2 用来做各种各样的搜索和事实核查还有研究还有编程改 BUG,Opus 4.5 做创作和主力编程。

现在,两个都来了。

太刺激了。

一个一个说吧。

二、Claude Opus 4.6

这次 Anthropic 其实不止发了 Claude Opus 4.6,还有一个很好玩的东西,Agent Teams,还有关于 Excel 和 PPT 插件的更新。

先说 Claude Opus 4.6。

每次有新模型发布,大家第一反应就是看跑分。

AI春晚来了!Claude Opus 4.6和GPT-5.3 Codex同时发布!

这次 Opus 4.6 的跑分确实很漂亮,我挑几个重点说说。

首先是 Terminal-Bench 2.0,这是一个测试 AI 在终端环境下编程能力的评估,Opus 4.6 拿了 65.4%,是所有模型里最高的(没看到 GPT-5.3 codex 之前)。

GPT-5.2 是 64.7%,Gemini 3 Pro 是 56.2%。

让我比较惊讶的是 OSWorld 这个评估,测的是 AI 操作电脑的能力,Opus 4.6 拿了 72.7%,比 Opus 4.5 的 66.3%高了不少。

这就意味着 Claude 越来越会用电脑了,它能更好地操作鼠标、点击按钮、在不同应用之间切换,在 Coding 能力提升的同时,电脑操作的能力也有大幅提升,这是真的要奔着全面 Agent 化去了。

还有一个 BrowseComp,也是让我意外的,测的是 Agent 在网上搜索信息的能力,Opus 4.6 拿了 84.0%,远超其他模型。

第二名 GPT-5.2 Pro 是 77.9%,差了 6 个多点。

因为我自己其实一直把 GPT-5.2 Pro 当作是我最牛逼的研究报告生成引擎去用的,他比 DeepResearch 还要强,精准度极高幻觉率极低,现在 Opus 4.6 比它还要高 6 个点,说实话有点离谱了。

然后就是 GDPval-AA 这个评估,这个评估测的是 AI 在真实工作任务中的表现,包括金融、法律等领域的知识工作。Opus 4.6 拿了 1606 的 Elo 分,比 GPT-5.2 高了 144 分,比自己的前代 Opus 4.5 高了 190 分。

144 分的 Elo 差距还是挺大的,也就是说,在干活这件事上,Opus 4.6 确实是目前最强的,Claude 是真的把自己的编程能力,开始逐渐泛化到其他的工作场景里面去了。

AI春晚来了!Claude Opus 4.6和GPT-5.3 Codex同时发布!

然后最离谱的是这个,ARC AGI 2,68.8%,吊打一切。。。

我之前在 GPT-5.2 发布时候的文章里科普过这玩意,就是下面这种题。

AI春晚来了!Claude Opus 4.6和GPT-5.3 Codex同时发布!

这种能力,现在称为流体智力(Fluid Intelligence),意思就是指不依赖于已有的知识,在全新情境下进行逻辑推理、识别模式和解决问题的能力。

说白了,就是你的悟性和开窍的能力。

之前在 ARC-AGI-2 上,GPT-5.1 的得分是 17.6%,而 GPT-5.2 Pro,直接飙到了 50%多。

这一次,Claude Opus 4.6,直接干到了 68.8%,是有点离谱的,差点摸到 7 字头了。

从上面这些跑分看,除了一些世界知识和问答上,Claude Opus 4.6 还弱于 GPT-5.2,其他的几乎已经全面领先。

当之无愧的 SOTA。

说实话,我对跑分一直有点复杂的感情。

一方面,跑分确实能说明一些问题,但另一方面,跑分和实际使用体验之间,往往有一道很深的鸿沟。

很多模型跑分很高,但用起来就是不顺手,反过来,有些模型你看着整体跑分一般,但在某些场景下就是还挺好用的。

所以我更关注的,是这次更新在产品层面做了什么。

第一个:1M token 的上下文窗口。

普天同庆!!!Claude Opus 系列,终于有 1M 上下文啦!!!

Opus 4.6 终于支持 100 万 token 的上下文了!!!

真的,做 Coding 的朋友们都知道,上下文容量有多重要。。。

之前只有 200K 的小窗口,这次整整翻了 5 倍!!!现在再也不用担心这个问题了!!!

而且我要说一个很重要的点,就是上下文窗口大,不等于模型能真正用好这么大的上下文。

很多模型虽然支持很长的上下文,但你真的塞进去很多内容之后,模型的表现会明显下降,会变得很蠢。

这个问题在业内叫"context rot",上下文腐烂,也就是你用的越久,模型能力开始变得越差。

而这次,Claude Opus 4.6,在 MRCR v2 的测试上做了实验,这个测试是大海捞针类的,就是在一大堆文本里藏几个关键信息,看模型能不能找到。

在 100 万 token、藏 8 根针的测试里,Opus 4.6 直接拿了 76%,而 Sonnet 4.5 只有 18.5%,太牛逼了!

AI春晚来了!Claude Opus 4.6和GPT-5.3 Codex同时发布!

而且上下文推理上,也傲视群雄。

AI春晚来了!Claude Opus 4.6和GPT-5.3 Codex同时发布!

这对很多实际场景来说真的非常有用,也是我最最最喜欢的升级点,不只是 coding,其实比如你想让 Claude 帮你审查一份几百页的法律文件,或者分析一个大公司的财报,现在大概率也是可以一次性搞定了。

第二个:输出上限提升到 128K。

以前 Claude 的输出上限都是 64K,这次直接翻倍了。

AI春晚来了!Claude Opus 4.6和GPT-5.3 Codex同时发布!

也算是一个相当不错的利好。

这个改进听起来不起眼,但对于实际使用来说真的很重要。

第三个:Context Compaction,上下文压缩。

这个功能其实 Claude Code 已经实现很久了,但我觉得还是很有必要说一下,因为它解决了一个很现实的问题。

当你跟 AI 聊了很久,或者让 AI 执行一个很长的任务,对话内容会越来越多,最终会超过上下文窗口的限制。以前遇到这种情况,要么任务失败,要么得手动清理对话历史。

现在有了 Context Compaction,Claude 可以自动把旧的对话内容压缩成摘要,腾出空间给新的内容。

这样 Claude 就能执行更长时间的任务,而不会因为上下文溢出而中断。

这对于那些需要 Claude 长时间自主工作的场景来说,是一个很实用的改进。

以前是在 Claude Code 里使用工程实现的,现在直接模型自带了。

第四个:Adaptive Thinking 和 Effort 控制

以前 Claude 有一个"extended thinking"功能,就是让它在回答之前先深度思考一会儿。

这个功能开启之后,Claude 的回答质量会提升,但速度会变慢,成本也会增加。

问题是,以前这个功能是要么开要么关,没有中间状态。有些简单问题,你开了深度思考,就有点杀鸡用牛刀了。

现在有了两个新功能来解决这个问题。

一个是 Adaptive Thinking,自适应思考。开启之后,Claude 会自己判断这个问题需不需要深度思考。简单问题就快速回答,复杂问题就多想一会儿。

AI春晚来了!Claude Opus 4.6和GPT-5.3 Codex同时发布!

另一个是 Effort 控制,让你可以手动设置 Claude 的思考程度。有四个档位:low、medium、high、max,默认是 high。

这两个功能加起来,让 Claude 的使用变得更灵活了。

你可以根据实际需求,在速度、成本、质量之间找到平衡点。

然后还有一个,是 Claude Code 里面很重要的更新,叫做 Agent Teams。

以前你用 Claude Code,是一个 Claude 在干活,你给它一个任务,它自己去做,做完了给你看结果。

现在有了 Agent Teams 不一样了,你可以让一个会话充当团队负责人,协调工作、分配任务并综合结果。

然后启动团队成员独立工作,各自在自己的上下文窗口中,并彼此直接通信。

比如假设你要做一个代码审查,需要看前端代码、后端代码、还有数据库相关的代码。以前你可能要分三次让 Claude 看,每次看一部分。

现在你可以说"帮我审查这个代码库",然后 Claude 会自动启动 3 个团队成员,一个看前端,一个看后端,一个看数据库,三个同时进行,最后把结果汇总给你。

而且这些团队成员不是完全独立的,它们可以相互沟通。比如后端代理发现一个 API 的变更,它可以告诉前端代理,让前端代理检查一下调用这个 API 的地方有没有问题,而且他们也可以互相质疑、互相挑战、互相发现。

跟 Claude Code 里面之前 subagents 也就是子代理不同的点在于,子代理在单个会话中运行,只能向主代理报告结果,而 Agent Teams 是一个团队,团队成员可以直接与各个团队成员互动,无需通过负责人。

更多实测:

他们自己也做了一个非常明确的图表来进行区分。

AI春晚来了!Claude Opus 4.6和GPT-5.3 Codex同时发布!

当你需要快速、专注的工作人员进行反馈时,使用子代理。当团队成员需要共享发现、相互挑战和自主协调时,使用 Agent Teams。

然后就是两个小的更新,一个是 Claude in Excel 这个插件将 Claude Opus 4.6 直接集成到了 excel 里面。

现在还支持数据透视表编辑、图表修改、条件格式设置、排序和筛选、数据验证以及金融级格式设置。

还添加了可用性改进,包括长对话的自动压缩和拖放多文件支持等等。

AI春晚来了!Claude Opus 4.6和GPT-5.3 Codex同时发布!

然后还发了一个 Claude in PowerPoint。

将 Claude 集成到了 PowerPoint 侧边栏中,让它在创建新内容之前读取现有的布局、字体和母版。

Claude 也可以根据客户模板构建演示文稿、对现有幻灯片进行针对性编辑。

AI春晚来了!Claude Opus 4.6和GPT-5.3 Codex同时发布!

Anthropic 真的凭借着 Claude,在 B 端领域,真的开始大杀四方了。

GPT 说实话,现在整个 B 端和生产力端的体验,稍微落后的有点多了。

最后说一下价格。

API 价格保持不变,还是$5/$25 每百万 token(输入/输出)。

如果用超过 20 万 token 的上下文,会有额外定价,是$10/$37.50 每百万 token。

AI春晚来了!Claude Opus 4.6和GPT-5.3 Codex同时发布!

目前,Claude 网页版和 Claude Code 上,Claude Opus 4.6 均已全面上线,已经可以快乐的玩耍起来了。

AI春晚来了!Claude Opus 4.6和GPT-5.3 Codex同时发布!

AI春晚来了!Claude Opus 4.6和GPT-5.3 Codex同时发布!

三、GPT-5.3 Codex

终于聊完了 Claude 的东西,然后到了 GPT 这边。

说实话,我自己对 GPT 一直也是有自己的情感的,他依然是我现在在任何时候想到问题,第一个去问的模型,想要要验证某一个事的时候,第一个去问的模型。

而且,虽然我不是一个专业的编程大佬,但是在我有限的 Vibe Coding 的经验里,我觉得 GPT-5.2 Codex 在解决 BUG 和难点的问题上,是要强于 Claude Opus 4.5 的。

特别是 GPT-5.2 Codex+Codex 的改 BUG 体验,是要比 Claude Opus 4.5+Claude Code 要更强的。

所以我自己经常的工作流,经常是用 Claude code 写一个大的,然后用 codex 接手后续进行调整。

所以我刚好,还真是这两玩意的用户。。。

所以 GPT-5.3 Codex 的更新,我自然也非常的开心。

两者中门对狙,开心的自然是我们用户。

这次 GPT-5.3 Codex,其实最让我惊讶的东西,不是跑分,是他们博客里的一句话:

AI春晚来了!Claude Opus 4.6和GPT-5.3 Codex同时发布!

"GPT-5.3 Codex 是我们第一个在创造自己的过程中发挥重要作用的模型。"

OpenAI 说,他们的 Codex 团队在开发 GPT-5.3 的过程中,用早期版本的模型来 debug 自己的训练过程、管理部署、诊断测试结果和评估。

用人话说就是,AI 参与了自己的开发。

这个事情听起来有点科幻,但其实逻辑上是通的。

AI 模型的开发过程,本质上也是一堆代码,训练脚本是代码,部署流程是代码,测试框架也是代码。

既然 AI 已经 coding 能力已经这么牛逼了,那让 AI 来帮忙写这些代码,也是顺理成章的事。

但顺理成章和真的做到了说实话,是两码事。

OpenAI 的团队说,他们被 Codex 能够加速自身开发的程度震惊了。

如果 AI 能够越来越多地参与自己的开发,那 AI 进化的速度会不会变得更快?这个问题,可能比任何跑分都重要。

这个世界,真的都在疯狂的加速啊。

然后老规矩,再看下跑分。

GPT-5.3 Codex 在几个关键的编程评测上都拿到了最高分。

AI春晚来了!Claude Opus 4.6和GPT-5.3 Codex同时发布!

这时候,你肯定会问了,GPT-5.3 Codex 和 Claude Opus 4.6,到底哪个跑分更牛逼一点???

说实话,因为两家的评测基准,还是有很多细节差异,所以,完全没法直接进行对比。。。

唯一一个对齐的基准是 Terminal-Bench 2.0,这是一个由 89 个复杂真实任务组成的基准,这些任务都在终端环境中执行,每个任务运行在独立 Docker 容器内。

2.0 版本于 2025 年 11 月 7 日发布。

AI春晚来了!Claude Opus 4.6和GPT-5.3 Codex同时发布!

Claude Opus 4.6 得分 65.4%,GPT-5.3 Codex 得分 77.3%,OpenAI 领先 11.9 个百分点。

AI春晚来了!Claude Opus 4.6和GPT-5.3 Codex同时发布!

在这个唯一相同的基准里,GPT 更胜一筹,而且是大胜,符合我对 Codex 系列的认知。

然后是 OSWorld,评估 AI agent 操作真实计算机的能力,人类基线为 72.36%。

关键区别在于,Claude Opus 4.6 报告的是原版 OSWorld(72.7%),而 GPT-5.3 Codex 报告的是 OSWorld-Verified(64.7%)。

OSWorld-Verified 于 2025 年 7 月 28 日发布,是一次全面重构,修复了原版中 300+已识别问题,

包括失效 URL、反爬 CAPTCHA、不稳定 HTML 结构、含糊指令,以及过严/过松的评测脚本。

所以说,别看这个评测看着 Claude 更强,但是两个分数衡量的并不是同一件事。

OSWorld-Verified 提供了更严格、更可控的信号,也一般被认为更难,所以严格意义上来说,GPT-5.3 Codex 的 64.7%甚至是要强于 Claude Opus 4.6 的 72.7%的。

AI春晚来了!Claude Opus 4.6和GPT-5.3 Codex同时发布!

然后是 GDPVal,这个事在美国 GDP 贡献最大的 9 个行业中,覆盖 44 种职业、1320 个真实知识工作任务。

任务要求产出真实职业交付物,如文档、表格、演示、图表,平均相当于 7 小时专家工作量。

可比性问题在这里最明显。

GPT-5.3 Codex 的“GDPval wins or ties: 70.9%”,使用的是 OpenAI 自己的方法,由职业人类评审盲评 AI 产出与人类专家产出,判断 AI 版本是否“与人类一样好或更好”,分母是固定的人类标准。

Claude Opus 4.6 的“GDPval-AA Elo: 1606”,这是独立评测机构 Artificial Analysis 的体系,使用其自有 Stirrup agent 框架(具备 shell 与网页浏览能力)跑模型,再由 Gemini 3 Pro 做两两比较评判,最终用 Bradley-Terry 模型拟合 Elo 评分,并以 GPT-5.1 的 1000 为锚点。

所以这个是太难换算了,我也不太清楚两边哪个更牛逼。。。

AI春晚来了!Claude Opus 4.6和GPT-5.3 Codex同时发布!

然后就是 SWE-bench,SWE-bench 测试 AI 是否能通过生成代码补丁修复真实 GitHub issue。

SWE-bench Verified(Claude Opus 4.6 使用,80.8%)是 500 题、人工验证、仅 Python 的子集,由 OpenAI Preparedness 团队在 2024 年 8 月发布。

93 位职业开发者验证了每道题都具备明确问题描述和公平单测,顶级模型已超过 70%,该基准接近饱和。

SWE-bench Pro Public(GPT-5.3 Codex 使用,56.8%)是 731 题、多语言基准,由 Scale AI 创建。它覆盖 Python、Go、JavaScript、TypeScript 等,横跨 41 个仓库。参考解平均 107.4 行、4.1 个文件,明显比 Verified 常见的单文件补丁更复杂。

它还纳入 copyleft 与专有代码库,专门降低数据污染风险。

所以说,Claude Opus 4.6 在 Verified 的 80.8%与 GPT-5.3 codex 在 Pro Public 的 56.8%不能直接比较。

但说实话 Pro 明显更难,发布时 GPT-5 和 Claude Opus 4.1 在 Pro 上都只有约 23%,不到其 Verified 分数的三分之一。

AI春晚来了!Claude Opus 4.6和GPT-5.3 Codex同时发布!

所以说,其实整体跑分上,虽然看着 GPT-5.3 Codex 的得分好像都低一点。

但是含金量更足,如果非要我说的话,结合着我过去的测试印象,单开发这一块,可能会是 GPT-5.3 Codex 会更强更实用一点。

当然,还有一个最关键的一点是,GPT...他不封号呀= =

然后跑分是一回事,能做什么是另一回事。

OpenAI 在博客里展示了两个用 GPT-5.3 Codex 做的游戏,一个赛车游戏和一个潜水游戏。

这两个游戏都不只是那种我们随处可见简单的 demo,而是完整的、可玩的游戏。

赛车游戏有不同的赛车、八张地图、还有道具系统。

潜水游戏有不同的珊瑚礁可以探索、有氧气和压力管理系统、还有危险要素。

关键是,这些游戏全都是 GPT-5.3 Codex 自己做的。

OpenAI 说,他们在 Codex 产品里,用这个模型和一个叫 develop web game 的 Skills,加上一些通用的跟进提示(比如"修复这个 bug"或者"改进这个游戏"),让 GPT-5.3 Codex 在几天的时间里,自主迭代了数百万个 token,最终做出了这些游戏。

说实话,有点牛逼的。

而且这次有一个很棒的更新点。

就是你可以在 GPT-5.3 Codex 工作的时候跟它互动,可以随时介入,随时调整方向了。。。

终于不用先停止了,这个小能力还挺香的。

目前已经在 Codex 上上线,我已经开始用起来了。

AI春晚来了!Claude Opus 4.6和GPT-5.3 Codex同时发布!

而且直观感受,在 Codex 上运行 GPT-5.3 codex 真的快了非常非常多。

在博客里没有这块数据,不过奥特曼自己的 X 上写出来了。

AI春晚来了!Claude Opus 4.6和GPT-5.3 Codex同时发布!

“完成相同任务所需的令牌数不到 5.2-Codex 的一半,且单令牌速度快 25% 以上!”

非常推荐大家下载个 Codex 试试,真的蛮好用的。

写在最后

这篇稿子又写了个通宵,基本上把我对这两个模型的理解都写进去了,应该没啥漏的了,应该是最全的一篇了。

至于实际测试,希望大家见谅,这么一点点时间实在测不出来,可能我得需要一整个周末的时间,正儿八经的开发几个产品,才能感受到明显的差异。

不过有一点就是,现在的模型几乎都是奔着 Coding 和 Agent 去的,所以这块的提升基本都很明显,跟手机一样,用新不用旧。

直觉上我的工作流还是不太会变,Claude Opus 4.6 + Claude code 打草稿,GPT-5.3 Codex + Codex 进行后续精准开发。

最后。

最近真的是 AI 行业的大日子。

Anthropic 发了 Opus 4.6,OpenAI 发了 GPT-5.3 Codex。

两家头部 AI 公司在同一天放出大招,这在历史上也是罕见的。

现在就等着 Gemini 还能玩出什么花活了。

从模型能力上看,两家都在快速进步,差距在缩小。

从产品形态上看,两家都在押注 Agent,但侧重点有所不同。

从行业影响上看,传统 SaaS 公司开始感到压力,软件行业绝对正在经历一场从诞生以来最大的一次范式转变。

我不知道一年后这个行业会变成什么样。

但我知道,现在,绝对是一个需要密切关注、积极学习的时期。

错过这一波,可能就真的错过了。

如果你还没用过 Claude Code,没用过 Codex,现在是一个很好的开始时机。

毕竟,未来已经来了。

只是,还没均匀分布。

收藏
点赞 21

复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。