此即未来！Google重磅上线通用世界模型Genie 3

2025/08/07 推荐： 数字生命卡兹克阅读 1.6w 评论有奖阅读本文需 12 分钟

此即未来！Google重磅上线通用世界模型Genie 3

今天除了 OpenAI 开源的 gpt-oss 之外，还有一个我觉得非常值得一说的东西。

就是 Google 发布的这个世界模型，Genie 3。

更多谷歌模型介绍：

8秒出大片！10个案例实测谷歌Veo 3视频生成功能

前几天的 2025 年 Google I/O 开发者大会上，谷歌发布了一系列先进的图像和视频生成工具，好玩的太多了，我还没来得及一一体验，今天先尝试一下最近超级火的 Veo 3 视频生成。

阅读文章 >

此即未来！Google重磅上线通用世界模型Genie 3

作为一个将近 20 年的游戏玩家和近 10 年的 VR 玩家，我看到这个视频的时候，心真的在怦怦跳。

本来 6 点钟发了 gpt-oss 之后，想睡醒了再聊，下午发。

但是翻来覆去睡不着，于是翻身起床，决定来聊聊这玩意。

先看视频吧。

当视频在手机上无法加载，可前往PC查看。

这不是又一个简单的可以互动的 AI 视频模型，更不是什么 Sora 或者 Veo 的简单升级。

如果你仅仅把它理解为能实时互动的 Sora，那我觉得，就完全低估了它的革命性了。

Genie 3 是一个世界模型 (World Model)。

对我而言，它更像是是一个创世引擎的雏形。

我们正站在一个新世界的入口，而 Google，刚刚为我们推开了一丝门缝。

要理解 Genie 3 的颠覆性，我们必须先弄明白一个概念。

世界模型。

这个词听起来很玄乎，但我们可以用一个简单的比喻来理解。

比如说过去的视频生成模型，Sora，更像是一位电影导演。

他已经把整部电影拍完、剪好，加好特效，然后放给你看。画面很精美，故事很完整，但你是纯粹的观众，只能被动接受，无法改变任何事。

此即未来！Google重磅上线通用世界模型Genie 3

而世界模型，则更像一个即时计算的视频游戏引擎，每一步都根据当前状态和用户操作来决定下一瞬间的画面。

这个游戏引擎，搭起了一个世界，这个世界里有物理定律，比如东西往下掉，撞墙会反弹，有环境设定，甚至有 NPC 的行为逻辑。

它搭好舞台后，就在那儿等着你的指令。

当你按下手柄的按键，它会根据这个世界的规则，实时地计算并渲染出接下来会发生什么。

这就是 Genie 3 和 Sora、Veo3 之类的 AI 视频产品最本质的区别。

一个是预先录制的电影，另一个是可实时演算的模拟器。

前者是叙事的终点，后者是世界的起点。

Genie 3 的演示里，有一个直升机在天空中飞行的场景，之所以让人震撼，是因为每一次转弯、每一次海面水波的荡漾，都是模型对用户实时输入的即时反馈，所有的场景，都稳定的始终如一。

当视频在手机上无法加载，可前往PC查看。

要知道，这可不是在播放一段固定的视频，所有的场景也不是事先建模好的 3D 场景，而是在你按下手柄方向键的那一刻，它，为你生成了全世界。

这种能力，我们在游戏里，一般称之为：

创世。

比如这个这只蜥蜴的世界。

当视频在手机上无法加载，可前往PC查看。

还有这个山脉漂浮，悬崖倒置，河流在半空中扭曲的世界。

当视频在手机上无法加载，可前往PC查看。

所有的一切，都是跟随着你的前进、你的移动、你的跳跃，实时生成的。

这画质、这稳定性、这一致性、这交互性。

太可怕了。

当然，Genie 3 并非横空出世的奇迹，罗马也不是一天建成的。

此即未来！Google重磅上线通用世界模型Genie 3

他们之前就做过很多实验了。

GameNGen 是一个来自 2023 年初 DeepMind（准确来说是 Google Research）的实验性项目，全名叫做 Diffusion Models Are Real-Time Game Engines。

此即未来！Google重磅上线通用世界模型Genie 3

当时基于毁灭战士做了一个很短的可控视频实时生成，还挺火的。

不过那时候还是非常的偏实现性质，太糙了，分辨率也只有可怜的 320p。

接着，他们做出了 Genie1 和 Genie 2。

此即未来！Google重磅上线通用世界模型Genie 3

分辨率提升到了 360p，应用范围也扩大到了更通用的 3D 环境。

但注意看，代价是什么？交互延迟那一栏写着“非实时”，非常的卡顿。

为了追求更复杂的环境，他们牺牲了最重要的实时性。

同时，交互时长也只从几秒提升到了 10-20 秒。

在探索世界模型的同时，另一条 AI 视频的路线也在狂飙突进，代表作大家肯定都知道了，就是 Veo。

Veo 把分辨率直接干到了 4K 级别，生成的画面也极其通用和逼真，可以说是现在最牛逼的 AI 视频模型了。

但它的本质，依然是 AI 视频模型，没有交互。

它只负责把画质和真实感这条路走到极致。

然后，就是今天，主角 Genie 3 登场了。

它像一个集大成者，终于解决了前辈们无法调和的矛盾。

交互延迟：实时，它找回了 GameNGen 最初的梦想。

交互时长：数分钟，相比 Genie 2 的十几秒，是数量级的飞跃。

控制方式：导航+可提示世界事件，不仅能让你行动，还可以直接用语言创世。

分辨率：720p，一个非常聪明的选择，是在保证实时性和互动时长的前提下，找到的最佳画质平衡点。

理解了这段历史，我们再来看“一致性”这个致命难题，就会有更深的感触。

在 Genie3 里面，开头是一副黑板，上面有图、有字，你走上前去，细细观摩，然后走到一边，看向窗外，过了一分钟，再回来，黑板上的内容，只字未改，依旧存在。

当视频在手机上无法加载，可前往PC查看。

这个一致性，这个记忆能力，太恐怖了。

还有这个视频。

此即未来！Google重磅上线通用世界模型Genie 3

他们是可以保证，建筑物左侧的树木在整个互动过程中保持一致，即使它们时而进入视野，时而又离开视野。

太牛逼了。

之前应该也就一个月左右，我体验过一个叫 Odyssey 的产品，也是世界模型。

坦诚的讲，那是一次非常糟糕的体验。

此即未来！Google重磅上线通用世界模型Genie 3

我控制角色往前走了也就十几秒，整个画面就开始崩坏、扭曲。

最吓人的是，每次当我回头看走过的路时，身后的世界完全变了样，而且是每回头一次，它就变一次。

那种感觉，就像你走在一个不断溶解、不断重组的恐怖空间里，极度缺乏安全感。

我在一个世界模型里，走出了恐怖游轮的感觉。

而 Genie 3 最牛逼的地方，恰恰就是在这个要命的问题上取得了突破。

当它的稳定交互时长能从十几秒跃升到数分钟时，就意味着我们终于可以从 Odyssey 那种回头即崩的恐怖体验，迈向一个至少在几分钟内值得信赖和探索的稳定世界。

所以，Genie 3 在我看来，就像一场我们能部分控制的清明梦。

绚烂、多变、充满惊喜，但目前还像个随时可能醒来的梦。

即便如此，它所展现出的可能性，已经给了我前所未有的想象空间。

你甚至可以在这个梦里，就跟创世神一样，随意的修改。

当视频在手机上无法加载，可前往PC查看。

这种创世引擎一旦成熟，它对现有部分行业的冲击将是核弹级的。

我玩了这么多年 VR，其实一直以来，最大的痛点就是内容匮乏。

我们体验到的依然是一个个稀少的、孤立的、精美的 3D 场景，而不是一个活生生的世界。

未来，你戴上 VR 头显，不再是打开一个 App 列表，而是对你的 AI 助手说一句话：带我去一个雨夜的赛博朋克城市，要能听到远处警笛声，街角要有一个卖拉面的小摊。

然后，一个独一无二、可供你实时探索的世界，就为你而生了。

VR 将从一个内容消费的设备，变成一个世界生成的入口，解决了内容的问题，才有元宇宙真正该有的样子。

这也才是绿洲，真正的魅力。

对于游戏行业来说，也是。

现代 3A 的开发成本动辄数亿美金，其中绝大部分都花在了构建庞大而精细的游戏世界上，这是一个劳动密集型、资本密集型的产业。

比如说未来的《上古卷轴 6》或者《GTA7》，又或者《博德之门 4》，除了主线剧情，我们在游戏过程中，跟一个有个人意识的 NPC 聊天，然后触发了一个全新的支线任务。

“一个被巨龙摧毁的村庄的系列任务，我要在废墟里寻找幸存者，并找到巨龙的巢穴。”

当然，我并不是想表达，纯粹随机的故事或游戏能好玩到哪里去。讲故事、做游戏，想让大家觉得好看、好玩是非常难的一件事，规则的约束至关重要。

世界模型的可贵之处在于，它能在精妙的人类规则设计下，填充无穷无尽、合乎逻辑的动态细节。

游戏的延展，被巨幅拓宽，制作人或者设计者，完全可以指定这个 AI 世代的随机规则，就像生成《无人深空》里面的星球一样，用规则来约束世界模型的生成，在保证游戏性和故事性的基础上，让玩家的体验，不再首先与人力和想象力，而是把这个世界的主导权，交还一部分给玩家。

玩家不再只是玩家，更是关卡设计师、任务发布者、甚至是世界观的共创者。

官方演示里，智能体在 Genie 3 生成的世界里完成任务，我觉得这已经揭示了未来的冰山一角。

此即未来！Google重磅上线通用世界模型Genie 3

除了 VR、游戏，还有电影。

电影诞生一百多年来，其实也一直是线性的、导演中心制的，观众只能被动地跟随镜头，看一个被安排好的故事。

直到去年一些互动影游火了以后，讲故事的方法，稍微开始会有一些变化了，但，互动影游的情节，本质上也是一个被安排好的故事。

Genie 3，尤其是它的可提示世界事件，更像是一种全新叙事形式的诞生。

未来的电影，可能也更像一场由你主导的梦境。

当你看到主角面临一个抉择时，你可以暂停，然后用语言导演接下来的剧情。

“让天开始下雪，让他们在雪中拥抱。”或者，“让反派的电话突然响起，打断他们的对峙。”

你不再是观众，而是拥有部分神之权限的参与者。

这比《黑镜：潘达斯奈基》那种选择分支的互动剧要走得远得多。

它不是在 A 和 B 之间做选择，而是在一个拥有无限可能性的空间里，进行自由创作。

电影和游戏的边界，将在这里彻底消融。

我一想到那样的未来，我就心潮澎湃。

当然，我们也必须清醒地看到 Genie 3 当下的局限性。

只能维持几分钟的互动时长、无法精确模拟真实世界、文本渲染能力差……

以及，现在还没有对公众开放，真正产品上线的时候，效果不知道会不会打折。

它就像一百多年前卢米埃尔兄弟在咖啡馆里放映的第一部电影《火车进站》，粗糙、黑白、无声，甚至可能让当时的人感到恐慌。

但这不重要。

重要的是，它证明了一件事：路，是通的。

过去，我们通过文字和口述来传承神话。

后来，我们通过绘画和电影来描绘神话。

而今天，我们即将获得亲手创造神话的能力。

那问题来了。

“你，究竟想要一个什么样的世界呢？”

谢谢你看我的文章，我们，下次再见。

数字生命卡兹克

文章 142 人气 430.6w

AI自媒体

+关注作者

复制本文链接文章为作者独立观点不代表优设网立场，未经允许不得转载。

继续阅读本文相关话题

AIGC

学AI

AI导航

发表评论为下方 7 条评论点赞，解锁好运彩蛋

以上留言仅代表用户个人观点，不代表优设立场

评论就这些咯，让大家也知道你的独特见解立即评论

菜单 优设网uisdc.com 优设网 - 学AI设计上优设

您还未登录

登录后即可体验更多功能

此即未来！Google重磅上线通用世界模型Genie 3

2025/08/07 推荐： 数字生命卡兹克阅读 1.6w 评论有奖 阅读本文需 12 分钟

8秒出大片！10个案例实测谷歌Veo 3视频生成功能

数字生命卡兹克

文章 142 人气 430.6w

继续阅读本文相关话题

430.6w人气 142文章

本文3套知识9图

新手也能出大片！30+GPT-image-2万能提示词直接用

Claude×Adobe的5个神级用法！AI直接帮你修图剪片

5分钟学会！用GPT image2拆卖点生成详情页

文章目录

文章目录

你即将学会 Siri 的知识

苹果设计进化史！Siri 界面为什么变成屏幕四周跑马灯？

3.5w 人阅读

上一篇

你即将学会 Motley Forces 的知识

一直找不到手写风格的圆体字？快收藏好这一款！

2.0w 人阅读

下一篇

发评论！每天赢奖品

点击 登录 后，在评论区留言，系统会随机派送奖品

2012年成立至今，是国内备受欢迎的设计师平台，提供奖品赞助 联系我们

UI设计精品必修课

已累计诞生 791 位幸运星

发表评论 为下方 7 条评论点赞，解锁好运彩蛋

↓ 下方为您推荐了一些精彩有趣的文章热评 ↓

阿真Irene

阿真Irene

数字生命卡兹克

言川Artie

果汁

优设推荐官精选热门话题

网页设计

文章 1037

英文字体

文章 294

ps技巧

文章 656

干货合集

文章 323

评论

收藏

分享

AI趋势

入站必看

设计入门

进阶提升

热门资源

最新AI工具

300+实用AI工具全收录

GPT Images2

AI生图王者归来

OpenClaw

快来一起养龙虾

AI智能绘画

让AI助你一臂之力

Blender

称心如意的3D设计法宝

Figma

令设计师爱不释手

HMI设计指南

车载设计教科书

直播间设计

生意都在直播间啦

OPC一人公司

2026创业新风口

优设热榜

每日必读的行业消息

教你做字库

每个公司都可有字库

设计服务

一站式数字创意服务平台

求职面试

为你用心整理的技巧

3D设计

菜单优设网 - 学AI设计上优设

2025/08/07 推荐：数字生命卡兹克阅读 1.6w 评论有奖阅读本文需 12 分钟

点击登录后，在评论区留言，系统会随机派送奖品

2012年成立至今，是国内备受欢迎的设计师平台，提供奖品赞助联系我们

发表评论为下方 7 条评论点赞，解锁好运彩蛋