3年涨价22倍！被全网吹爆的Gemini Flash正在收割开发者？

一、全文速览图

3年涨价22倍！被全网吹爆的Gemini Flash正在收割开发者？

超全面！帮大家快速总结Google I/O 2026开发者大会

一、全文速览图刚刚，Google开完了他们的产品发布会。

5 月 19 日，谷歌在 I/O 2026 上发布了两个新模型：Gemini 3.5 Flash 和 Gemini Omni Flash。

发布会上，谷歌给 3.5 Flash 打了一个标签："史上最强编程和 Agent 模型。"这个标签没问题——数据确实支撑得住。但如果你多翻一页 benchmark，会发现一件有点奇怪的事：这个"史上最强编程模型"，在知识推理能力上，不如它的上一代 Gemini 3.1 Pro。

不是小幅落后，是在两个重要榜单上明确退步。

谷歌没有否认这件事，也没有解释。

这就是这篇文章想聊的：3.5 Flash 的背后，是谷歌对"什么样的模型能赢得市场"做出了一个清晰的判断。理解这个判断，比看发布会更重要。

二、3.5 Flash：两组数据，一个取舍

先看让谷歌有底气喊"最强编程"的那组数据。

在 Terminal-Bench 2.1（真实命令行任务评估）上，3.5 Flash 跑出了 76.2%，上一代 3.1 Pro 是 70.3%，差了将近 6 个点。在 Finance Agent v2（金融 Agent 任务）上，3.5 Flash 是 57.9%，3.1 Pro 是 43.0%，差了将近 15 个点。GDPval-AA 是一个综合性的真实世界 Agent 基准，3.5 Flash 的 Elo 分是 1656，3.1 Pro 是 1314，差了 342 分。

这些数字是真实的。如果你的核心场景是写代码、跑 Agent、调 API，3.5 Flash 确实比 3.1 Pro 强，而且强不少。

现在看另一组数据。

Humanity's Last Exam 是学术界用来测模型知识边界的一个硬核榜单，题目来自各领域顶尖专家，考的是真正的深度推理和知识储备。3.5 Flash 在这里得了 40.2%，3.1 Pro 是 44.4%。ARC-AGI-2 测的是抽象推理能力，3.5 Flash 72.1%，3.1 Pro 77.1%。

两个榜单，都是新模型不如旧模型。

3年涨价22倍！被全网吹爆的Gemini Flash正在收割开发者？

这两组数字放在一起，说明一件事：3.5 Flash 不是一次全面升级，是一次主动的取舍。谷歌把资源和优化方向压在了编程和 Agent 上，相应地，在纯知识推理方向的能力没有跟上，甚至出现了退步。

有人会说，编程 Agent 才是现在的主战场，推理能力退步点无所谓。这个说法有道理，但不完整。对于需要长推理链的 Agent 任务、需要深度领域知识的专业场景，推理能力的退步会实实在在地影响表现。不是所有 Agent 任务都是写代码——如果你的 Agent 要处理法律合同、科研文献、复杂决策，还是得回头看 Pro 系列。

速度上，谷歌说 3.5 Flash 比同级别 frontier 模型快 4 倍。1M token 上下文窗口，响应延迟大幅压缩，这对实时 Agent 场景很重要。

这个 4 倍速度提升背后，有一个技术选择的逻辑：要快，就要把模型"瘦"下来，剪掉部分参数密度。编程任务有相对确定的模式，可以靠"专项训练"弥补参数量的不足；但开放性的推理和知识检索，需要更深的参数网络来支撑。这也解释了为什么 3.5 Flash 在编程上超越了 Pro，在推理上却退步——它用专注换了速度，而不是用规模换全面。

3年涨价22倍！被全网吹爆的Gemini Flash正在收割开发者？

三、一张账单，两种读法

价格这件事，值得多说几句。

表面上看，3.5 Flash 比 3.1 Pro 便宜 40%——输入 $1.50/1M tokens，输出 $9.00/1M tokens，而 3.1 Pro 是输入 $2.00、输出 $12.00。如果你的参照系是 3.1 Pro，这是一次降价，符合"Flash 就是便宜版本"的产品定位认知。

但如果把时间轴拉长，这张账单就有点不一样了。

Gemini 2.0 Flash 在 2025 年初上线时，输入价格是 $0.10/1M tokens，输出是 $0.40/1M tokens。Gemini 2.5 Flash 后来涨到了输入 $0.30、输出 $2.50。到了现在的 3.5 Flash，输入 $1.50、输出 $9.00。

从 2.0 Flash 到 3.5 Flash，输入价格涨了 15 倍，输出价格涨了 22 倍。

3年涨价22倍！被全网吹爆的Gemini Flash正在收割开发者？

谷歌没有公开解释这条价格曲线。但有一个说得通的逻辑：Flash 系列最初的定价策略是以价换量——用极低的价格吸引开发者把 Gemini API 嵌进项目，先建立生态黏性。等开发者的工作流深度依赖了 Gemini，迁移成本就会变高，这时候涨价，流失率会比想象中低。

这不是阴谋论，这是任何平台类产品都走过的路：从获客阶段的补贴，到留存阶段的涨价。AWS、Azure 都是这么做的，只是 AI 这个领域的价格上涨速度更快、幅度更大。

Gemini 2.0 Flash 到 3.5 Flash 的三年间，能力提升是真实的，价格上涨也是真实的，两件事都在发生。对于现在才考虑接入 Gemini API 的开发者，这条价格曲线是一个值得提前想清楚的信号：你锁定的，不只是今天的价格。

四、Omni Flash：方向对了，但现在还早

Omni Flash 是这次发布会上另一个被寄予厚望的产品——一个可以处理文字、图片、音频、视频输入，同时生成视频输出的多模态模型。

谷歌给它的定位很清晰：不是要做"最好的文生视频模型"，而是做"最好的视频编辑助手"。这个区分很重要，因为两个方向对应的技术路径和用户场景完全不同。Sora、Veo 主打的是从文字描述生成高质量视频，竞争维度是画质、物理真实感、时长。Omni Flash 想做的是：你已经有一段视频，我帮你改里面的某个东西。

这个"视频局部修改"的路径，对内容创作者来说其实更实用。不是所有人都需要从零生成一段专业级视频，但很多人需要把自己录的一段素材里的背景换掉、把某个道具替换成别的、把整段视频的风格从写实变成动漫——这些场景，Omni Flash 的设计思路是对的。

但发布会 demo 和实际使用之间，往往有一段距离。

在原始视频生成质量上，独立测试普遍认为 Omni Flash 不如 ByteDance 的 Seedance 2.0，在中国市场也不如 Kling 3.0。视频上限是 10 秒，谷歌说这是部署层面的选择，不是模型能力的天花板，但用户不会因为"理论上能做更长"就买账。分辨率方面，外部测试报告提到 720p，谷歌没有官方确认这个数字。生成一段 10 秒视频大约需要 60 到 90 秒，效率上也算不上惊艳。

中文场景的口音问题是被不少测试者提到的短板。生成中文旁白时口音偏怪，这在中文内容市场是个很实际的障碍——你没办法把一个口音不对劲的 AI 配音直接放进正式内容里。

还有一个功能被主动扣留了：语音编辑。谷歌在发布会上明确说，正在"评估如何负责任地推出这个能力"。背后的顾虑很明显——能修改视频里某个人说的话，和深度伪造只差一步。这个克制是合理的，但也意味着 Omni Flash 现在能做的事情比发布前很多人预期的少。

把这些情况综合起来，Omni Flash 现在的状态更像是功能预告，而不是可以进入生产流程的工具。核心能力框架已经搭好，但完成度离"好用"还有距离。

3年涨价22倍！被全网吹爆的Gemini Flash正在收割开发者？

Omni Pro 版本的上线时间谷歌没有给出明确日期，只说"后续推出"。如果 Pro 版的视频质量有实质性提升、中文支持到位、时长限制放开，这条产品线才真正值得认真评估。

五、这不是发布，是占位

现在把两个模型放在一起看：3.5 Flash 编程 Agent 能力突出但推理退步，价格较早期大幅上涨；Omni Flash 编辑方向有价值但生成质量不如竞品，核心功能被部分扣留。两个都有明显的短板，两个都把满血版押到了后面——3.5 Pro 下个月，Omni Pro 待定。

这个组合如果放在两年前，可能会被解读为"谷歌技术还没准备好就仓促发布"。但现在 AI 市场的竞争逻辑已经变了。技术准备好了再发，不是最优策略。

看看这两年发生了什么。OpenAI 用 o1 建立了推理模型的心智认知，不管后续竞争对手的推理能力有没有超过它，"推理模型"这个心智位置已经被 OpenAI 占住了。Anthropic 用 Claude Code 拿下了开发者工具的生态位，每天有多少人的工作流从编辑器里的 Claude 插件开始，就是多少个很难迁移的用户。GitHub Copilot 靠着先发优势，直到现在仍是大多数开发者的默认选择，尽管后来的竞品在很多场景下能力更强。

在 AI 这个领域，开发者一旦把某个模型嵌进工作流——写进了 prompt 模板、调好了参数、做了 fine-tuning 或者集成了 API——迁移成本就会快速上升。不是技术上不能迁移，而是时间成本和风险成本都很高。这意味着，谁先进入工作流，谁就占据了相对稳定的位置。

谷歌的这套打法有清晰的内部逻辑。用 3.5 Flash 在编程和 Agent 场景先铺量：这是目前 API 调用量最大的场景，也是开发者最愿意尝鲜的场景。先把速度和编程能力做到位，让开发者先跑起来，推理能力的短板等 Pro 版补上。用 Omni Flash 在视频生成方向先占坑：视频 AI 是接下来竞争最激烈的方向，不管当前产品有多少不完整，先让用户建立"视频编辑找 Gemini Omni"的认知，比等产品完美了再发更重要。

用小杯打开市场，用大杯收割口碑。

这个策略本身揭示了谷歌对 AI 竞争有一个清醒的判断：生态黏性的建立速度，比单点能力的完美度更重要。率先让开发者把 Gemini API 嵌进项目，比晚三个月发一个各项都更强的版本，对市场份额的影响更大。

从这个角度看，3.5 Flash 在推理上的退步，可能不是一个失误，而是一个有意识的取舍——先用速度和编程能力吸引最大的开发者群体，把推理能力的提升留给 Pro 版来完成。发布一个有缺陷但速度极快、编程极强的 Flash，然后一个月内跟上满血版 Pro，是一个刻意设计过的节奏，而不是节奏失控的结果。

这是聪明的打法，还是过于冒进？关键在于 3.5 Pro 能不能按时上线，并且真正弥补 Flash 的短板。如果下个月 Pro 系列出来，推理能力反超了，视频质量也上来了，这套"先占位再立标杆"的打法就是教科书级别的市场策略。如果 Pro 系列延期、或者没有实质性提升，前面铺出去的这些期待就会变成负资产。

3年涨价22倍！被全网吹爆的Gemini Flash正在收割开发者？