3年涨价22倍!被全网吹爆的Gemini Flash正在收割开发者?

一、全文速览图

3年涨价22倍!被全网吹爆的Gemini Flash正在收割开发者?

5 月 19 日,谷歌在 I/O 2026 上发布了两个新模型:Gemini 3.5 Flash 和 Gemini Omni Flash。

发布会上,谷歌给 3.5 Flash 打了一个标签:"史上最强编程和 Agent 模型。"这个标签没问题——数据确实支撑得住。但如果你多翻一页 benchmark,会发现一件有点奇怪的事:这个"史上最强编程模型",在知识推理能力上,不如它的上一代 Gemini 3.1 Pro。

不是小幅落后,是在两个重要榜单上明确退步。

谷歌没有否认这件事,也没有解释。

这就是这篇文章想聊的:3.5 Flash 的背后,是谷歌对"什么样的模型能赢得市场"做出了一个清晰的判断。理解这个判断,比看发布会更重要。

二、3.5 Flash:两组数据,一个取舍

先看让谷歌有底气喊"最强编程"的那组数据。

在 Terminal-Bench 2.1(真实命令行任务评估)上,3.5 Flash 跑出了 76.2%,上一代 3.1 Pro 是 70.3%,差了将近 6 个点。在 Finance Agent v2(金融 Agent 任务)上,3.5 Flash 是 57.9%,3.1 Pro 是 43.0%,差了将近 15 个点。GDPval-AA 是一个综合性的真实世界 Agent 基准,3.5 Flash 的 Elo 分是 1656,3.1 Pro 是 1314,差了 342 分。

这些数字是真实的。如果你的核心场景是写代码、跑 Agent、调 API,3.5 Flash 确实比 3.1 Pro 强,而且强不少。

现在看另一组数据。

Humanity's Last Exam 是学术界用来测模型知识边界的一个硬核榜单,题目来自各领域顶尖专家,考的是真正的深度推理和知识储备。3.5 Flash 在这里得了 40.2%,3.1 Pro 是 44.4%。ARC-AGI-2 测的是抽象推理能力,3.5 Flash 72.1%,3.1 Pro 77.1%。

两个榜单,都是新模型不如旧模型。

3年涨价22倍!被全网吹爆的Gemini Flash正在收割开发者?

这两组数字放在一起,说明一件事:3.5 Flash 不是一次全面升级,是一次主动的取舍。谷歌把资源和优化方向压在了编程和 Agent 上,相应地,在纯知识推理方向的能力没有跟上,甚至出现了退步。

有人会说,编程 Agent 才是现在的主战场,推理能力退步点无所谓。这个说法有道理,但不完整。对于需要长推理链的 Agent 任务、需要深度领域知识的专业场景,推理能力的退步会实实在在地影响表现。不是所有 Agent 任务都是写代码——如果你的 Agent 要处理法律合同、科研文献、复杂决策,还是得回头看 Pro 系列。

速度上,谷歌说 3.5 Flash 比同级别 frontier 模型快 4 倍。1M token 上下文窗口,响应延迟大幅压缩,这对实时 Agent 场景很重要。

这个 4 倍速度提升背后,有一个技术选择的逻辑:要快,就要把模型"瘦"下来,剪掉部分参数密度。编程任务有相对确定的模式,可以靠"专项训练"弥补参数量的不足;但开放性的推理和知识检索,需要更深的参数网络来支撑。这也解释了为什么 3.5 Flash 在编程上超越了 Pro,在推理上却退步——它用专注换了速度,而不是用规模换全面。

3年涨价22倍!被全网吹爆的Gemini Flash正在收割开发者?

三、一张账单,两种读法

价格这件事,值得多说几句。

表面上看,3.5 Flash 比 3.1 Pro 便宜 40%——输入 $1.50/1M tokens,输出 $9.00/1M tokens,而 3.1 Pro 是输入 $2.00、输出 $12.00。如果你的参照系是 3.1 Pro,这是一次降价,符合"Flash 就是便宜版本"的产品定位认知。

但如果把时间轴拉长,这张账单就有点不一样了。

Gemini 2.0 Flash 在 2025 年初上线时,输入价格是 $0.10/1M tokens,输出是 $0.40/1M tokens。Gemini 2.5 Flash 后来涨到了输入 $0.30、输出 $2.50。到了现在的 3.5 Flash,输入 $1.50、输出 $9.00。

从 2.0 Flash 到 3.5 Flash,输入价格涨了 15 倍,输出价格涨了 22 倍。

3年涨价22倍!被全网吹爆的Gemini Flash正在收割开发者?

谷歌没有公开解释这条价格曲线。但有一个说得通的逻辑:Flash 系列最初的定价策略是以价换量——用极低的价格吸引开发者把 Gemini API 嵌进项目,先建立生态黏性。等开发者的工作流深度依赖了 Gemini,迁移成本就会变高,这时候涨价,流失率会比想象中低。

这不是阴谋论,这是任何平台类产品都走过的路:从获客阶段的补贴,到留存阶段的涨价。AWS、Azure 都是这么做的,只是 AI 这个领域的价格上涨速度更快、幅度更大。

Gemini 2.0 Flash 到 3.5 Flash 的三年间,能力提升是真实的,价格上涨也是真实的,两件事都在发生。对于现在才考虑接入 Gemini API 的开发者,这条价格曲线是一个值得提前想清楚的信号:你锁定的,不只是今天的价格。

四、Omni Flash:方向对了,但现在还早

Omni Flash 是这次发布会上另一个被寄予厚望的产品——一个可以处理文字、图片、音频、视频输入,同时生成视频输出的多模态模型。

谷歌给它的定位很清晰:不是要做"最好的文生视频模型",而是做"最好的视频编辑助手"。这个区分很重要,因为两个方向对应的技术路径和用户场景完全不同。Sora、Veo 主打的是从文字描述生成高质量视频,竞争维度是画质、物理真实感、时长。Omni Flash 想做的是:你已经有一段视频,我帮你改里面的某个东西。

这个"视频局部修改"的路径,对内容创作者来说其实更实用。不是所有人都需要从零生成一段专业级视频,但很多人需要把自己录的一段素材里的背景换掉、把某个道具替换成别的、把整段视频的风格从写实变成动漫——这些场景,Omni Flash 的设计思路是对的。

但发布会 demo 和实际使用之间,往往有一段距离。

在原始视频生成质量上,独立测试普遍认为 Omni Flash 不如 ByteDance 的 Seedance 2.0,在中国市场也不如 Kling 3.0。视频上限是 10 秒,谷歌说这是部署层面的选择,不是模型能力的天花板,但用户不会因为"理论上能做更长"就买账。分辨率方面,外部测试报告提到 720p,谷歌没有官方确认这个数字。生成一段 10 秒视频大约需要 60 到 90 秒,效率上也算不上惊艳。

中文场景的口音问题是被不少测试者提到的短板。生成中文旁白时口音偏怪,这在中文内容市场是个很实际的障碍——你没办法把一个口音不对劲的 AI 配音直接放进正式内容里。

还有一个功能被主动扣留了:语音编辑。谷歌在发布会上明确说,正在"评估如何负责任地推出这个能力"。背后的顾虑很明显——能修改视频里某个人说的话,和深度伪造只差一步。这个克制是合理的,但也意味着 Omni Flash 现在能做的事情比发布前很多人预期的少。

把这些情况综合起来,Omni Flash 现在的状态更像是功能预告,而不是可以进入生产流程的工具。核心能力框架已经搭好,但完成度离"好用"还有距离。

3年涨价22倍!被全网吹爆的Gemini Flash正在收割开发者?

Omni Pro 版本的上线时间谷歌没有给出明确日期,只说"后续推出"。如果 Pro 版的视频质量有实质性提升、中文支持到位、时长限制放开,这条产品线才真正值得认真评估。

五、这不是发布,是占位

现在把两个模型放在一起看:3.5 Flash 编程 Agent 能力突出但推理退步,价格较早期大幅上涨;Omni Flash 编辑方向有价值但生成质量不如竞品,核心功能被部分扣留。两个都有明显的短板,两个都把满血版押到了后面——3.5 Pro 下个月,Omni Pro 待定。

这个组合如果放在两年前,可能会被解读为"谷歌技术还没准备好就仓促发布"。但现在 AI 市场的竞争逻辑已经变了。技术准备好了再发,不是最优策略。

看看这两年发生了什么。OpenAI 用 o1 建立了推理模型的心智认知,不管后续竞争对手的推理能力有没有超过它,"推理模型"这个心智位置已经被 OpenAI 占住了。Anthropic 用 Claude Code 拿下了开发者工具的生态位,每天有多少人的工作流从编辑器里的 Claude 插件开始,就是多少个很难迁移的用户。GitHub Copilot 靠着先发优势,直到现在仍是大多数开发者的默认选择,尽管后来的竞品在很多场景下能力更强。

在 AI 这个领域,开发者一旦把某个模型嵌进工作流——写进了 prompt 模板、调好了参数、做了 fine-tuning 或者集成了 API——迁移成本就会快速上升。不是技术上不能迁移,而是时间成本和风险成本都很高。这意味着,谁先进入工作流,谁就占据了相对稳定的位置。

谷歌的这套打法有清晰的内部逻辑。用 3.5 Flash 在编程和 Agent 场景先铺量:这是目前 API 调用量最大的场景,也是开发者最愿意尝鲜的场景。先把速度和编程能力做到位,让开发者先跑起来,推理能力的短板等 Pro 版补上。用 Omni Flash 在视频生成方向先占坑:视频 AI 是接下来竞争最激烈的方向,不管当前产品有多少不完整,先让用户建立"视频编辑找 Gemini Omni"的认知,比等产品完美了再发更重要。

用小杯打开市场,用大杯收割口碑。

这个策略本身揭示了谷歌对 AI 竞争有一个清醒的判断:生态黏性的建立速度,比单点能力的完美度更重要。率先让开发者把 Gemini API 嵌进项目,比晚三个月发一个各项都更强的版本,对市场份额的影响更大。

从这个角度看,3.5 Flash 在推理上的退步,可能不是一个失误,而是一个有意识的取舍——先用速度和编程能力吸引最大的开发者群体,把推理能力的提升留给 Pro 版来完成。发布一个有缺陷但速度极快、编程极强的 Flash,然后一个月内跟上满血版 Pro,是一个刻意设计过的节奏,而不是节奏失控的结果。

这是聪明的打法,还是过于冒进?关键在于 3.5 Pro 能不能按时上线,并且真正弥补 Flash 的短板。如果下个月 Pro 系列出来,推理能力反超了,视频质量也上来了,这套"先占位再立标杆"的打法就是教科书级别的市场策略。如果 Pro 系列延期、或者没有实质性提升,前面铺出去的这些期待就会变成负资产。

3年涨价22倍!被全网吹爆的Gemini Flash正在收割开发者?

六、对从业者的几句实话

理解了谷歌的策略,回到实际问题:现在要不要用?

✅ 开发者 / AI 工程师:编程 Agent 场景值得测

Terminal-Bench 和 Finance Agent 的数据是真实的,4 倍速度提升在实时 Agent 场景里有明显感知。如果业务对响应延迟敏感,这次升级值得认真评估。开缓存($0.15/1M 输入)是现阶段压成本最有效的手段。

⚠️ 推理链长 / 专业知识场景:别贸然切换

3.1 Pro 在 Humanity's Last Exam 和 ARC-AGI-2 上的数据还是更稳。需要深度领域知识的 Agent 任务,分场景用是更安全的选择:高频低延迟用 Flash,推理深度优先用 Pro。

👀 内容创作者:Omni Flash 可关注,不建议主力生产

视频局部修改的方向有价值,但现阶段生成质量不如 Seedance 2.0,中文口音问题没解决,10 秒上限受限。等 Omni Pro 出来再做评估,不会太晚。

⏳ 产品经理 / 创业者:等一等,一个月内有更多信息

选 Gemini API 的理由,是今天的能力还是谷歌的生态承诺?两者都有合理性,但需要想清楚。3.5 Pro 一个月内发布,届时能看到完整的能力图谱,再做决策也不晚。

3年涨价22倍!被全网吹爆的Gemini Flash正在收割开发者?

回到开头那件奇怪的事。

"史上最强编程模型",在知识推理上不如上一代。谷歌没有否认,也没有解释。

这其实是一种信息:谷歌知道自己在做什么取舍,也知道开发者市场的主战场在哪里。一个在发布会上敢于不掩盖短板、敢于用不完整的产品先跑出去的公司,通常是有后手的——它对接下来会发生什么有足够的把握,所以不怕今天被挑刺。

下个月满血版 3.5 Pro 出来之后,我们才能真正判断这套打法是谷歌的精准策略,还是自信过头。

但有一件事现在就能确定:谷歌不是在发布一个模型,是在下一步棋。而对于那些现在就接入了 Gemini 3.5 Flash 的开发者来说,他们已经在这盘棋上落子了——只是不一定每个人都意识到了这一点。

收藏
点赞 12

复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。