

Anthropic 的新模型 Claude Opus 4.6 正式更新了。

我说实话,我是真的最近因为 AI 圈这些模型和产品,熬夜熬得有点扛不住了。
但其实最颠最绝望的是,20 分钟之后,OpenAI 也发了新模型。。。
GPT 5.3 Codex 也来了。
这尼玛,真的是中门对狙了。

要了亲命了。。。
这两模型都还是得看,因为之前 GPT 和 Claude 几乎就是我最常用的唯二最主力的模型,GPT-5.2 用来做各种各样的搜索和事实核查还有研究还有编程改 BUG,Opus 4.5 做创作和主力编程。
现在,两个都来了。
太刺激了。
一个一个说吧。
这次 Anthropic 其实不止发了 Claude Opus 4.6,还有一个很好玩的东西,Agent Teams,还有关于 Excel 和 PPT 插件的更新。
先说 Claude Opus 4.6。
每次有新模型发布,大家第一反应就是看跑分。

这次 Opus 4.6 的跑分确实很漂亮,我挑几个重点说说。
首先是 Terminal-Bench 2.0,这是一个测试 AI 在终端环境下编程能力的评估,Opus 4.6 拿了 65.4%,是所有模型里最高的(没看到 GPT-5.3 codex 之前)。
GPT-5.2 是 64.7%,Gemini 3 Pro 是 56.2%。
让我比较惊讶的是 OSWorld 这个评估,测的是 AI 操作电脑的能力,Opus 4.6 拿了 72.7%,比 Opus 4.5 的 66.3%高了不少。
这就意味着 Claude 越来越会用电脑了,它能更好地操作鼠标、点击按钮、在不同应用之间切换,在 Coding 能力提升的同时,电脑操作的能力也有大幅提升,这是真的要奔着全面 Agent 化去了。
还有一个 BrowseComp,也是让我意外的,测的是 Agent 在网上搜索信息的能力,Opus 4.6 拿了 84.0%,远超其他模型。
第二名 GPT-5.2 Pro 是 77.9%,差了 6 个多点。
因为我自己其实一直把 GPT-5.2 Pro 当作是我最牛逼的研究报告生成引擎去用的,他比 DeepResearch 还要强,精准度极高幻觉率极低,现在 Opus 4.6 比它还要高 6 个点,说实话有点离谱了。
然后就是 GDPval-AA 这个评估,这个评估测的是 AI 在真实工作任务中的表现,包括金融、法律等领域的知识工作。Opus 4.6 拿了 1606 的 Elo 分,比 GPT-5.2 高了 144 分,比自己的前代 Opus 4.5 高了 190 分。
144 分的 Elo 差距还是挺大的,也就是说,在干活这件事上,Opus 4.6 确实是目前最强的,Claude 是真的把自己的编程能力,开始逐渐泛化到其他的工作场景里面去了。

然后最离谱的是这个,ARC AGI 2,68.8%,吊打一切。。。
我之前在 GPT-5.2 发布时候的文章里科普过这玩意,就是下面这种题。

这种能力,现在称为流体智力(Fluid Intelligence),意思就是指不依赖于已有的知识,在全新情境下进行逻辑推理、识别模式和解决问题的能力。
说白了,就是你的悟性和开窍的能力。
之前在 ARC-AGI-2 上,GPT-5.1 的得分是 17.6%,而 GPT-5.2 Pro,直接飙到了 50%多。
这一次,Claude Opus 4.6,直接干到了 68.8%,是有点离谱的,差点摸到 7 字头了。
从上面这些跑分看,除了一些世界知识和问答上,Claude Opus 4.6 还弱于 GPT-5.2,其他的几乎已经全面领先。
当之无愧的 SOTA。
说实话,我对跑分一直有点复杂的感情。
一方面,跑分确实能说明一些问题,但另一方面,跑分和实际使用体验之间,往往有一道很深的鸿沟。
很多模型跑分很高,但用起来就是不顺手,反过来,有些模型你看着整体跑分一般,但在某些场景下就是还挺好用的。
所以我更关注的,是这次更新在产品层面做了什么。
第一个:1M token 的上下文窗口。
普天同庆!!!Claude Opus 系列,终于有 1M 上下文啦!!!
Opus 4.6 终于支持 100 万 token 的上下文了!!!
真的,做 Coding 的朋友们都知道,上下文容量有多重要。。。
之前只有 200K 的小窗口,这次整整翻了 5 倍!!!现在再也不用担心这个问题了!!!
而且我要说一个很重要的点,就是上下文窗口大,不等于模型能真正用好这么大的上下文。
很多模型虽然支持很长的上下文,但你真的塞进去很多内容之后,模型的表现会明显下降,会变得很蠢。
这个问题在业内叫"context rot",上下文腐烂,也就是你用的越久,模型能力开始变得越差。
而这次,Claude Opus 4.6,在 MRCR v2 的测试上做了实验,这个测试是大海捞针类的,就是在一大堆文本里藏几个关键信息,看模型能不能找到。
在 100 万 token、藏 8 根针的测试里,Opus 4.6 直接拿了 76%,而 Sonnet 4.5 只有 18.5%,太牛逼了!

而且上下文推理上,也傲视群雄。

这对很多实际场景来说真的非常有用,也是我最最最喜欢的升级点,不只是 coding,其实比如你想让 Claude 帮你审查一份几百页的法律文件,或者分析一个大公司的财报,现在大概率也是可以一次性搞定了。
第二个:输出上限提升到 128K。
以前 Claude 的输出上限都是 64K,这次直接翻倍了。

也算是一个相当不错的利好。
这个改进听起来不起眼,但对于实际使用来说真的很重要。
第三个:Context Compaction,上下文压缩。
这个功能其实 Claude Code 已经实现很久了,但我觉得还是很有必要说一下,因为它解决了一个很现实的问题。
当你跟 AI 聊了很久,或者让 AI 执行一个很长的任务,对话内容会越来越多,最终会超过上下文窗口的限制。以前遇到这种情况,要么任务失败,要么得手动清理对话历史。
现在有了 Context Compaction,Claude 可以自动把旧的对话内容压缩成摘要,腾出空间给新的内容。
这样 Claude 就能执行更长时间的任务,而不会因为上下文溢出而中断。
这对于那些需要 Claude 长时间自主工作的场景来说,是一个很实用的改进。
以前是在 Claude Code 里使用工程实现的,现在直接模型自带了。
第四个:Adaptive Thinking 和 Effort 控制
以前 Claude 有一个"extended thinking"功能,就是让它在回答之前先深度思考一会儿。
这个功能开启之后,Claude 的回答质量会提升,但速度会变慢,成本也会增加。
问题是,以前这个功能是要么开要么关,没有中间状态。有些简单问题,你开了深度思考,就有点杀鸡用牛刀了。
现在有了两个新功能来解决这个问题。
一个是 Adaptive Thinking,自适应思考。开启之后,Claude 会自己判断这个问题需不需要深度思考。简单问题就快速回答,复杂问题就多想一会儿。

另一个是 Effort 控制,让你可以手动设置 Claude 的思考程度。有四个档位:low、medium、high、max,默认是 high。
这两个功能加起来,让 Claude 的使用变得更灵活了。
你可以根据实际需求,在速度、成本、质量之间找到平衡点。
然后还有一个,是 Claude Code 里面很重要的更新,叫做 Agent Teams。
以前你用 Claude Code,是一个 Claude 在干活,你给它一个任务,它自己去做,做完了给你看结果。
现在有了 Agent Teams 不一样了,你可以让一个会话充当团队负责人,协调工作、分配任务并综合结果。
然后启动团队成员独立工作,各自在自己的上下文窗口中,并彼此直接通信。
比如假设你要做一个代码审查,需要看前端代码、后端代码、还有数据库相关的代码。以前你可能要分三次让 Claude 看,每次看一部分。
现在你可以说"帮我审查这个代码库",然后 Claude 会自动启动 3 个团队成员,一个看前端,一个看后端,一个看数据库,三个同时进行,最后把结果汇总给你。
而且这些团队成员不是完全独立的,它们可以相互沟通。比如后端代理发现一个 API 的变更,它可以告诉前端代理,让前端代理检查一下调用这个 API 的地方有没有问题,而且他们也可以互相质疑、互相挑战、互相发现。
跟 Claude Code 里面之前 subagents 也就是子代理不同的点在于,子代理在单个会话中运行,只能向主代理报告结果,而 Agent Teams 是一个团队,团队成员可以直接与各个团队成员互动,无需通过负责人。
更多实测:
他们自己也做了一个非常明确的图表来进行区分。

当你需要快速、专注的工作人员进行反馈时,使用子代理。当团队成员需要共享发现、相互挑战和自主协调时,使用 Agent Teams。
然后就是两个小的更新,一个是 Claude in Excel 这个插件将 Claude Opus 4.6 直接集成到了 excel 里面。
现在还支持数据透视表编辑、图表修改、条件格式设置、排序和筛选、数据验证以及金融级格式设置。
还添加了可用性改进,包括长对话的自动压缩和拖放多文件支持等等。

然后还发了一个 Claude in PowerPoint。
将 Claude 集成到了 PowerPoint 侧边栏中,让它在创建新内容之前读取现有的布局、字体和母版。
Claude 也可以根据客户模板构建演示文稿、对现有幻灯片进行针对性编辑。

Anthropic 真的凭借着 Claude,在 B 端领域,真的开始大杀四方了。
GPT 说实话,现在整个 B 端和生产力端的体验,稍微落后的有点多了。
最后说一下价格。
API 价格保持不变,还是$5/$25 每百万 token(输入/输出)。
如果用超过 20 万 token 的上下文,会有额外定价,是$10/$37.50 每百万 token。

目前,Claude 网页版和 Claude Code 上,Claude Opus 4.6 均已全面上线,已经可以快乐的玩耍起来了。


终于聊完了 Claude 的东西,然后到了 GPT 这边。
说实话,我自己对 GPT 一直也是有自己的情感的,他依然是我现在在任何时候想到问题,第一个去问的模型,想要要验证某一个事的时候,第一个去问的模型。
而且,虽然我不是一个专业的编程大佬,但是在我有限的 Vibe Coding 的经验里,我觉得 GPT-5.2 Codex 在解决 BUG 和难点的问题上,是要强于 Claude Opus 4.5 的。
特别是 GPT-5.2 Codex+Codex 的改 BUG 体验,是要比 Claude Opus 4.5+Claude Code 要更强的。
所以我自己经常的工作流,经常是用 Claude code 写一个大的,然后用 codex 接手后续进行调整。
所以我刚好,还真是这两玩意的用户。。。
所以 GPT-5.3 Codex 的更新,我自然也非常的开心。
两者中门对狙,开心的自然是我们用户。
这次 GPT-5.3 Codex,其实最让我惊讶的东西,不是跑分,是他们博客里的一句话:

"GPT-5.3 Codex 是我们第一个在创造自己的过程中发挥重要作用的模型。"
OpenAI 说,他们的 Codex 团队在开发 GPT-5.3 的过程中,用早期版本的模型来 debug 自己的训练过程、管理部署、诊断测试结果和评估。
用人话说就是,AI 参与了自己的开发。
这个事情听起来有点科幻,但其实逻辑上是通的。
AI 模型的开发过程,本质上也是一堆代码,训练脚本是代码,部署流程是代码,测试框架也是代码。
既然 AI 已经 coding 能力已经这么牛逼了,那让 AI 来帮忙写这些代码,也是顺理成章的事。
但顺理成章和真的做到了说实话,是两码事。
OpenAI 的团队说,他们被 Codex 能够加速自身开发的程度震惊了。
如果 AI 能够越来越多地参与自己的开发,那 AI 进化的速度会不会变得更快?这个问题,可能比任何跑分都重要。
这个世界,真的都在疯狂的加速啊。
然后老规矩,再看下跑分。
GPT-5.3 Codex 在几个关键的编程评测上都拿到了最高分。

这时候,你肯定会问了,GPT-5.3 Codex 和 Claude Opus 4.6,到底哪个跑分更牛逼一点???
说实话,因为两家的评测基准,还是有很多细节差异,所以,完全没法直接进行对比。。。
唯一一个对齐的基准是 Terminal-Bench 2.0,这是一个由 89 个复杂真实任务组成的基准,这些任务都在终端环境中执行,每个任务运行在独立 Docker 容器内。
2.0 版本于 2025 年 11 月 7 日发布。

Claude Opus 4.6 得分 65.4%,GPT-5.3 Codex 得分 77.3%,OpenAI 领先 11.9 个百分点。

在这个唯一相同的基准里,GPT 更胜一筹,而且是大胜,符合我对 Codex 系列的认知。
然后是 OSWorld,评估 AI agent 操作真实计算机的能力,人类基线为 72.36%。
关键区别在于,Claude Opus 4.6 报告的是原版 OSWorld(72.7%),而 GPT-5.3 Codex 报告的是 OSWorld-Verified(64.7%)。
OSWorld-Verified 于 2025 年 7 月 28 日发布,是一次全面重构,修复了原版中 300+已识别问题,
包括失效 URL、反爬 CAPTCHA、不稳定 HTML 结构、含糊指令,以及过严/过松的评测脚本。
所以说,别看这个评测看着 Claude 更强,但是两个分数衡量的并不是同一件事。
OSWorld-Verified 提供了更严格、更可控的信号,也一般被认为更难,所以严格意义上来说,GPT-5.3 Codex 的 64.7%甚至是要强于 Claude Opus 4.6 的 72.7%的。

然后是 GDPVal,这个事在美国 GDP 贡献最大的 9 个行业中,覆盖 44 种职业、1320 个真实知识工作任务。
任务要求产出真实职业交付物,如文档、表格、演示、图表,平均相当于 7 小时专家工作量。
可比性问题在这里最明显。
GPT-5.3 Codex 的“GDPval wins or ties: 70.9%”,使用的是 OpenAI 自己的方法,由职业人类评审盲评 AI 产出与人类专家产出,判断 AI 版本是否“与人类一样好或更好”,分母是固定的人类标准。
Claude Opus 4.6 的“GDPval-AA Elo: 1606”,这是独立评测机构 Artificial Analysis 的体系,使用其自有 Stirrup agent 框架(具备 shell 与网页浏览能力)跑模型,再由 Gemini 3 Pro 做两两比较评判,最终用 Bradley-Terry 模型拟合 Elo 评分,并以 GPT-5.1 的 1000 为锚点。
所以这个是太难换算了,我也不太清楚两边哪个更牛逼。。。

然后就是 SWE-bench,SWE-bench 测试 AI 是否能通过生成代码补丁修复真实 GitHub issue。
SWE-bench Verified(Claude Opus 4.6 使用,80.8%)是 500 题、人工验证、仅 Python 的子集,由 OpenAI Preparedness 团队在 2024 年 8 月发布。
93 位职业开发者验证了每道题都具备明确问题描述和公平单测,顶级模型已超过 70%,该基准接近饱和。
SWE-bench Pro Public(GPT-5.3 Codex 使用,56.8%)是 731 题、多语言基准,由 Scale AI 创建。它覆盖 Python、Go、JavaScript、TypeScript 等,横跨 41 个仓库。参考解平均 107.4 行、4.1 个文件,明显比 Verified 常见的单文件补丁更复杂。
它还纳入 copyleft 与专有代码库,专门降低数据污染风险。
所以说,Claude Opus 4.6 在 Verified 的 80.8%与 GPT-5.3 codex 在 Pro Public 的 56.8%不能直接比较。
但说实话 Pro 明显更难,发布时 GPT-5 和 Claude Opus 4.1 在 Pro 上都只有约 23%,不到其 Verified 分数的三分之一。

所以说,其实整体跑分上,虽然看着 GPT-5.3 Codex 的得分好像都低一点。
但是含金量更足,如果非要我说的话,结合着我过去的测试印象,单开发这一块,可能会是 GPT-5.3 Codex 会更强更实用一点。
当然,还有一个最关键的一点是,GPT...他不封号呀= =
然后跑分是一回事,能做什么是另一回事。
OpenAI 在博客里展示了两个用 GPT-5.3 Codex 做的游戏,一个赛车游戏和一个潜水游戏。
这两个游戏都不只是那种我们随处可见简单的 demo,而是完整的、可玩的游戏。
赛车游戏有不同的赛车、八张地图、还有道具系统。
潜水游戏有不同的珊瑚礁可以探索、有氧气和压力管理系统、还有危险要素。
关键是,这些游戏全都是 GPT-5.3 Codex 自己做的。
OpenAI 说,他们在 Codex 产品里,用这个模型和一个叫 develop web game 的 Skills,加上一些通用的跟进提示(比如"修复这个 bug"或者"改进这个游戏"),让 GPT-5.3 Codex 在几天的时间里,自主迭代了数百万个 token,最终做出了这些游戏。
说实话,有点牛逼的。
而且这次有一个很棒的更新点。
就是你可以在 GPT-5.3 Codex 工作的时候跟它互动,可以随时介入,随时调整方向了。。。
终于不用先停止了,这个小能力还挺香的。
目前已经在 Codex 上上线,我已经开始用起来了。

而且直观感受,在 Codex 上运行 GPT-5.3 codex 真的快了非常非常多。
在博客里没有这块数据,不过奥特曼自己的 X 上写出来了。

“完成相同任务所需的令牌数不到 5.2-Codex 的一半,且单令牌速度快 25% 以上!”
非常推荐大家下载个 Codex 试试,真的蛮好用的。
这篇稿子又写了个通宵,基本上把我对这两个模型的理解都写进去了,应该没啥漏的了,应该是最全的一篇了。
至于实际测试,希望大家见谅,这么一点点时间实在测不出来,可能我得需要一整个周末的时间,正儿八经的开发几个产品,才能感受到明显的差异。
不过有一点就是,现在的模型几乎都是奔着 Coding 和 Agent 去的,所以这块的提升基本都很明显,跟手机一样,用新不用旧。
直觉上我的工作流还是不太会变,Claude Opus 4.6 + Claude code 打草稿,GPT-5.3 Codex + Codex 进行后续精准开发。
最后。
最近真的是 AI 行业的大日子。
Anthropic 发了 Opus 4.6,OpenAI 发了 GPT-5.3 Codex。
两家头部 AI 公司在同一天放出大招,这在历史上也是罕见的。
现在就等着 Gemini 还能玩出什么花活了。
从模型能力上看,两家都在快速进步,差距在缩小。
从产品形态上看,两家都在押注 Agent,但侧重点有所不同。
从行业影响上看,传统 SaaS 公司开始感到压力,软件行业绝对正在经历一场从诞生以来最大的一次范式转变。
我不知道一年后这个行业会变成什么样。
但我知道,现在,绝对是一个需要密切关注、积极学习的时期。
错过这一波,可能就真的错过了。
如果你还没用过 Claude Code,没用过 Codex,现在是一个很好的开始时机。
毕竟,未来已经来了。
只是,还没均匀分布。
复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。




发评论!每天赢奖品
点击 登录 后,在评论区留言,系统会随机派送奖品
2012年成立至今,是国内备受欢迎的设计师平台,提供奖品赞助 联系我们
DeepSeek实用操作手册
已累计诞生 779 位幸运星
发表评论 为下方 1 条评论点赞,解锁好运彩蛋
↓ 下方为您推荐了一些精彩有趣的文章热评 ↓