
上周Google实在是太猛了,拳打OpenAI,脚踢Anthropic。Gemini 3 Pro模型在编程、数学、推理等能力上都达到了当之无愧的SOTA级别。

被逼到墙角之后,就看谁先有能力掀桌了。
于是就在前两天,Anthropic发布了Claude Opus 4.5。

Opus 4.5的核心还是聚焦在编程能力,可以说很炸裂:SWE-bench Verified达到80.9%,首次突破80%,超越Gemini 3 Pro的76.2%。

以及,很少见的是,他们甚至降价了!价格从之前的贵得离谱的$15/$75直接降到$5/$25 per million tokens,直降66%!!
Opus 4.5的发布,说明Anthropic是真的急了——或者说,终于认真了。
先说benchmark数据。
SWE-bench Verified:80.9%
这是业界公认的编程能力测试标准。Opus 4.5是第一个突破80%的模型。
对比一下:
- Gemini 3 Pro:76.2%
- Claude Sonnet 4.5:77.2%
- GPT-5.1:76.3%/77.9%
80.9%是什么概念?Anthropic内部拿性能工程师的面试题测试,Opus 4.5的得分超过了所有人类候选人。

Terminal-bench 2.0:59.3%
这个测试主要看模型在终端环境下的编程能力。Opus 4.5比Gemini 3 Pro高了5个百分点(54.2%),比自家的Sonnet 4.5高了近10个百分点(50.0%)。
这个差距说明一个事实:Claude在真实开发环境下,就是比其他模型强。
GPQA Diamond:87.0%
这是研究生级别的推理测试,涵盖物理、化学、生物。Opus 4.5在这个测试上落后于Gemini 3 Pro(91.9%),但87%的成绩也不差。
总结一下:编程能力世界第一,推理能力也不弱。
Opus 4.5最让人意外的,是在性能提升的同时,价格还暴降了。
新定价:
- 输入:$5 / million tokens
- 输出:$25 / million tokens
Anthropic的官方说法是:"making Opus-level capabilities accessible to even more users, teams, and enterprises"(让更多用户、团队和企业能用上Opus级别的能力)。
逻辑很明显:Anthropic需要更多人用Opus。
之前Opus的定位是"高端用户",但高端市场就那么大。现在降价,是要抢占"中端市场"——那些之前用Sonnet,但其实需要更强能力的开发者。
11月18日,Google发布Gemini 3 Pro。
11月24日,Anthropic发布Claude Opus 4.5。
不到一周,两个顶级模型连续发布。
这不是巧合。
Gemini 3 Pro发布时,各种benchmark数据都很炸裂,尤其是GPQA Diamond的91.9%,直接刷新了推理能力的记录。当时AI圈的共识是:Google这次真的起来了。

Anthropic当然不会让Google独占风头。
Opus 4.5的发布时机,明显是冲着Gemini 3来的。而且,Anthropic选择的战场很聪明:不和你比推理,和你比编程。
Gemini 3 Pro在推理上确实强(91.9% vs 87.0%),但在编程上,Claude Opus 4.5领先了近5个百分点(80.9% vs 76.2%)。
更关键的是,编程能力是开发者最关心的指标。推理能力再强,如果写不出好代码,开发者也不会买单。
这就是Anthropic的策略:在自己最擅长的领域,做到绝对领先。
之前我在测试Claude Code时,有个很深的感受:
Claude Code好用的逻辑,不是因为它是终端工具,而是因为Anthropic有模型成本和模型认知的优势。
他们可以更无所畏惧地投喂代码上下文烧token,能知道如何挤压模型Agentic的能力实现更长步骤的推理,可以用Agentic search而非RAG的方式处理上下文。
这些优势,说白了就一个原因:Anthropic从一开始就是奔着编程和Agent去优化模型的。
我之前评价Claude 4时说:最强编程模型 + 最强Agent基建。
Anthropic对模型的所有优化,都是奔着To B做AI coding和让开发者建agent而去的。他们主要做了这几个方面的优化:
- 扩展思维与工具使用:允许模型在思考和使用工具之间来回切换,形成"思考-执行-再思考"的循环
- 改进的记忆能力:可以创建和维护"记忆文件"来存储关键信息,支持长时间任务
- 更强的指令遵循能力:可以处理超过10000个token的系统提示
- 减少奖励黑客行为:模型为了达到目标而走捷径的倾向降低了80%以上
这些优化,放在Opus 4.5上,效果更明显了。
相比之下,Gemini 3的优势在于多模态。如果你的任务涉及视觉、图片、视频,Gemini 3会更强。但如果是纯编程任务,Claude Opus 4.5几乎没有对手。
Opus 4.5的发布,不是孤立的。
Anthropic同时推出了几个重要的产品更新:
- Claude Code进入桌面端:支持并行运行多个本地和远程会话,长对话自动总结早期上下文
- Claude for Chrome:扩展至所有Max用户
- Claude for Excel:面向所有Max、Team和Enterprise用户正式发布
这些产品更新,都是在强化一个信号:Claude不只是一个聊天模型,它是一个生产力工具。
尤其是Claude Code。
我之前说过,从工具层面来说,从Cursor这种IDE图形界面退回到Claude Code这种终端命令行工具,其实是个挺大的退步。但Claude Code之所以还是比Cursor好用,就是因为它背后的模型能力太强了。
现在Opus 4.5出来了,Claude Code的优势会更明显。
而且,Anthropic还宣布了和Microsoft、NVIDIA的战略合作:Claude扩展至Azure平台,由NVIDIA提供算力支持。这意味着,Claude的To B布局在快速推进。
最后说点实际的:如果你是开发者,该选Claude还是Gemini?
我的建议是:
选Claude Opus 4.5,如果你的任务主要是:
- 纯代码编写和调试
- 后端逻辑和复杂推理
- 长时间的编程任务(需要记忆和上下文管理)
选Gemini 3 Pro,如果你的任务主要是:
- 多模态任务(涉及图片、视频、视觉)
- 前端、UI设计
- 需要超强推理能力的研究级任务
如果预算够,最好的办法是:两个都用。
Claude处理编程,Gemini处理多模态。各取所长。
我前两天刚刚同时用Claude Code+Gemini 3 Pro,开发了一个有仪式感地记录日常生活和灵感碎片的app「小票笔记 - Thermal」,在开发这款app时,我的工作步骤和体验是:
- Gemini 3在生成和复刻前端效果上明显表现更优
- 实际的开发和解决bug的过程,Claude Code还是比Cursor + Gemini 3 Pro,或者使用Antigravity的体验好,因为长程的编程能力还需要工具更好的工程化能力,以及模型更底层的编程能力。

Opus 4.5的发布,不是孤立事件。
它是Anthropic在编程和Agent这条路上的又一次发力,是对Gemini 3的正面回应,也是对自己商业化策略的调整。
Anthropic这么跳,说明AI大模型的竞争进入白热化了。
对开发者来说,这是好事。模型越来越强,价格越来越低,工具越来越好用。
接下来,看OpenAI怎么接招。
复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。




发评论!每天赢奖品
点击 登录 后,在评论区留言,系统会随机派送奖品
2012年成立至今,是国内备受欢迎的设计师平台,提供奖品赞助 联系我们
用户体验增长
已累计诞生 767 位幸运星
发表评论
↓ 下方为您推荐了一些精彩有趣的文章热评 ↓