AI编程能力超越谷歌!6个章节带你快速了解全新Claude Opus 4.5

上周Google实在是太猛了,拳打OpenAI,脚踢Anthropic。Gemini 3 Pro模型在编程、数学、推理等能力上都达到了当之无愧的SOTA级别。

AI编程能力超越谷歌!6个章节带你快速了解全新Claude Opus 4.5

被逼到墙角之后,就看谁先有能力掀桌了。

于是就在前两天,Anthropic发布了Claude Opus 4.5

AI编程能力超越谷歌!6个章节带你快速了解全新Claude Opus 4.5

Opus 4.5的核心还是聚焦在编程能力,可以说很炸裂:SWE-bench Verified达到80.9%,首次突破80%,超越Gemini 3 Pro的76.2%。

AI编程能力超越谷歌!6个章节带你快速了解全新Claude Opus 4.5

以及,很少见的是,他们甚至降价了!价格从之前的贵得离谱的$15/$75直接降到$5/$25 per million tokens,直降66%!!

Opus 4.5的发布,说明Anthropic是真的急了——或者说,终于认真了。

一、Opus 4.5到底有多强?

先说benchmark数据。

SWE-bench Verified:80.9%

这是业界公认的编程能力测试标准。Opus 4.5是第一个突破80%的模型。

对比一下:

  1. Gemini 3 Pro:76.2%
  2. Claude Sonnet 4.5:77.2%
  3. GPT-5.1:76.3%/77.9%

80.9%是什么概念?Anthropic内部拿性能工程师的面试题测试,Opus 4.5的得分超过了所有人类候选人。

AI编程能力超越谷歌!6个章节带你快速了解全新Claude Opus 4.5

Terminal-bench 2.0:59.3%

这个测试主要看模型在终端环境下的编程能力。Opus 4.5比Gemini 3 Pro高了5个百分点(54.2%),比自家的Sonnet 4.5高了近10个百分点(50.0%)。

这个差距说明一个事实:Claude在真实开发环境下,就是比其他模型强。

GPQA Diamond:87.0%

这是研究生级别的推理测试,涵盖物理、化学、生物。Opus 4.5在这个测试上落后于Gemini 3 Pro(91.9%),但87%的成绩也不差。

总结一下:编程能力世界第一,推理能力也不弱。

二、价格策略的巨大转变

Opus 4.5最让人意外的,是在性能提升的同时,价格还暴降了。

新定价:

  1. 输入:$5 / million tokens
  2. 输出:$25 / million tokens

Anthropic的官方说法是:"making Opus-level capabilities accessible to even more users, teams, and enterprises"(让更多用户、团队和企业能用上Opus级别的能力)。

逻辑很明显:Anthropic需要更多人用Opus。

之前Opus的定位是"高端用户",但高端市场就那么大。现在降价,是要抢占"中端市场"——那些之前用Sonnet,但其实需要更强能力的开发者。

三、不到一周,正面交锋

11月18日,Google发布Gemini 3 Pro。

11月24日,Anthropic发布Claude Opus 4.5。

不到一周,两个顶级模型连续发布。

这不是巧合。

Gemini 3 Pro发布时,各种benchmark数据都很炸裂,尤其是GPQA Diamond的91.9%,直接刷新了推理能力的记录。当时AI圈的共识是:Google这次真的起来了。

AI编程能力超越谷歌!6个章节带你快速了解全新Claude Opus 4.5

Anthropic当然不会让Google独占风头。

Opus 4.5的发布时机,明显是冲着Gemini 3来的。而且,Anthropic选择的战场很聪明:不和你比推理,和你比编程。

Gemini 3 Pro在推理上确实强(91.9% vs 87.0%),但在编程上,Claude Opus 4.5领先了近5个百分点(80.9% vs 76.2%)。

更关键的是,编程能力是开发者最关心的指标。推理能力再强,如果写不出好代码,开发者也不会买单。

这就是Anthropic的策略:在自己最擅长的领域,做到绝对领先。

四、为什么Anthropic能在编程上这么强?

之前我在测试Claude Code时,有个很深的感受:

Claude Code好用的逻辑,不是因为它是终端工具,而是因为Anthropic有模型成本和模型认知的优势。

他们可以更无所畏惧地投喂代码上下文烧token,能知道如何挤压模型Agentic的能力实现更长步骤的推理,可以用Agentic search而非RAG的方式处理上下文。

这些优势,说白了就一个原因:Anthropic从一开始就是奔着编程和Agent去优化模型的。

我之前评价Claude 4时说:最强编程模型 + 最强Agent基建。

Anthropic对模型的所有优化,都是奔着To B做AI coding和让开发者建agent而去的。他们主要做了这几个方面的优化:

  1. 扩展思维与工具使用:允许模型在思考和使用工具之间来回切换,形成"思考-执行-再思考"的循环
  2. 改进的记忆能力:可以创建和维护"记忆文件"来存储关键信息,支持长时间任务
  3. 更强的指令遵循能力:可以处理超过10000个token的系统提示
  4. 减少奖励黑客行为:模型为了达到目标而走捷径的倾向降低了80%以上

这些优化,放在Opus 4.5上,效果更明显了。

相比之下,Gemini 3的优势在于多模态。如果你的任务涉及视觉、图片、视频,Gemini 3会更强。但如果是纯编程任务,Claude Opus 4.5几乎没有对手。

五、产品层面的配合

Opus 4.5的发布,不是孤立的。

Anthropic同时推出了几个重要的产品更新:

  1.  Claude Code进入桌面端:支持并行运行多个本地和远程会话,长对话自动总结早期上下文
  2. Claude for Chrome:扩展至所有Max用户
  3. Claude for Excel:面向所有Max、Team和Enterprise用户正式发布

这些产品更新,都是在强化一个信号:Claude不只是一个聊天模型,它是一个生产力工具。

尤其是Claude Code。

我之前说过,从工具层面来说,从Cursor这种IDE图形界面退回到Claude Code这种终端命令行工具,其实是个挺大的退步。但Claude Code之所以还是比Cursor好用,就是因为它背后的模型能力太强了。

现在Opus 4.5出来了,Claude Code的优势会更明显。

而且,Anthropic还宣布了和Microsoft、NVIDIA的战略合作:Claude扩展至Azure平台,由NVIDIA提供算力支持。这意味着,Claude的To B布局在快速推进。

六、开发者该怎么选?

最后说点实际的:如果你是开发者,该选Claude还是Gemini?

我的建议是:

选Claude Opus 4.5,如果你的任务主要是:

  1. 纯代码编写和调试
  2. 后端逻辑和复杂推理
  3. 长时间的编程任务(需要记忆和上下文管理)

选Gemini 3 Pro,如果你的任务主要是:

  1. 多模态任务(涉及图片、视频、视觉)
  2. 前端、UI设计
  3. 需要超强推理能力的研究级任务

如果预算够,最好的办法是:两个都用。

Claude处理编程,Gemini处理多模态。各取所长。

我前两天刚刚同时用Claude Code+Gemini 3 Pro,开发了一个有仪式感地记录日常生活和灵感碎片的app「小票笔记 - Thermal」,在开发这款app时,我的工作步骤和体验是:

  1. Gemini 3在生成和复刻前端效果上明显表现更优
  2. 实际的开发和解决bug的过程,Claude Code还是比Cursor + Gemini 3 Pro,或者使用Antigravity的体验好,因为长程的编程能力还需要工具更好的工程化能力,以及模型更底层的编程能力。

AI编程能力超越谷歌!6个章节带你快速了解全新Claude Opus 4.5

最后

Opus 4.5的发布,不是孤立事件。

它是Anthropic在编程和Agent这条路上的又一次发力,是对Gemini 3的正面回应,也是对自己商业化策略的调整。

Anthropic这么跳,说明AI大模型的竞争进入白热化了。

对开发者来说,这是好事。模型越来越强,价格越来越低,工具越来越好用。

接下来,看OpenAI怎么接招。

收藏
点赞 10

复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。