热评 酷酷的阿金

此处应有掌声👏

用AI把一段视频变成可视化网页,Google的新模型又卷飞了!

Google 也不知道受了什么刺激,最近在 AI 场上,好像越来越有站起来的意思了。

之前我就写过 Gemini 2.5 pro,是在聊天记录可视化的文章里。

全世界,只有 Gemini 2.5 pro,能吃下一个每天 999+微信群聊天记录的上下文,同时还能给你干出,一个还挺好看的可视化网页。

用AI把一段视频变成可视化网页,Google的新模型又卷飞了!

在 Qwen3 的跑分中,也印证了,Gemini 2.5 Pro 的能力也是真的强。

而我自己在是日常使用中,也几乎是把 Gemini 2.5 Pro,变成了我的默认编程模型。

用AI把一段视频变成可视化网页,Google的新模型又卷飞了!

但是昨晚,Google 好死不死的,又把模型更新了一版,把版本号变成了,Gemini 2.5 Pro(I/O 版)。

用AI把一段视频变成可视化网页,Google的新模型又卷飞了!

而在后台的模型调用里,命名是 Gemini 2.5 Pro Preview 05-06。

用AI把一段视频变成可视化网页,Google的新模型又卷飞了!

现在在 Gemini 自己的产品官网上,虽然看着还是原来的 2.5 Pro (experimental),但其实背后的模型已经变成 Gemini 2.5 Pro Preview 05-06 了。

用AI把一段视频变成可视化网页,Google的新模型又卷飞了!

有一说一,Google 你的命名到底能不能统一一下。

真的好乱。。。

而且,Google 是真的感觉等不及了,其实距离他们一年一度的 I/O 大会,也就不到两周时间了,但是还是选择了把新模型直接放出来。

用AI把一段视频变成可视化网页,Google的新模型又卷飞了!

这种行为,一般要么是真牛逼,要么是来吹牛逼。

但是 Google,这回是前者,是真的有点牛逼。

他们自己也说了:

We were going to release this update at Google I/O in a couple weeks, but based on the overwhelming enthusiasm for this model, we wanted to get it in your hands sooner so people can start building.

不是我来营销,是真的人民群众需要啊,我只是顺势而为。

这次 Gemini 2.5 Pro 05-06 版本(后面就简称 05-06 版了),跟今年三月 DeepSeek V3 03-24 的更新很像。都是完全为了代码服务的,把代码能力,往上提升了一个巨大的优先级。

而这次的 05-06 版,我觉得有两个亮点:

  1. 模型代码能力在盲测竞技场登顶,力压 Claude 3.7 Sonnet。
  2. 得益于 2.5 Pro 强大的多模态能力,这次不仅可以给参考图生成代码,还可以,给参考视频生成代码。

特别是第二点,目前应该是全球唯一。

先看看代码能力的跑分。

这次最核心的榜单,就是,WebDev Arena。

网址:https://web.lmarena.ai/leaderboard

用AI把一段视频变成可视化网页,Google的新模型又卷飞了!

0506 版直接脚踩 Claude 3.7 Sonnet,勇得第一。

可能很多人不知道 WebDev Arena 是啥,我稍微解释一下,这玩意,还是挺有含金量的。

LMArena,最著名的大模型盲测竞技场,我相信一直关注 AI 的,大多数人都或多或少的听过。

跟一些传统的测试集不一样,这玩意就是纯粹的盲测,用户提出一个 Prompt,然后 LMArena 直接给你两个你也不知道是什么模型生成的回答,让你选你觉得哪个好。

用AI把一段视频变成可视化网页,Google的新模型又卷飞了!

所以,在这上面,你几乎就做不了弊,全靠普通用户,一票一票投出来的,就跟拆盲盒一样。

而 WebDev Arena,其实就是一个子榜,还是由 LMArena 他们开发的,专为评测网页前端开发任务(比如 HTML、CSS 和 JavaScript)而设立的。

玩法跟 LMArena 一样,也是用户盲测二选一。

唯一不同的是,WebDev Arena 会生成代码的预览给你看,而不只是文字了。

比如我让他生成一个 Web 的像素猫小游戏。

用AI把一段视频变成可视化网页,Google的新模型又卷飞了!

在等了一分钟两边全部生成完之后,你就能非常明确的看出来,两边哪个是垃圾。。。

用AI把一段视频变成可视化网页,Google的新模型又卷飞了!

傻子都能看出来,右边爆杀左边,这个时候,你就为右边,投出神圣的一票就行。

然后呢,他们用 Bradley-Terry(BT)模型,成对对决中的胜负数据,来估算模型的强度,为每个模型计算一个分数,这个分数反映此模型相对于其他模型的获胜概率。

这个排名系统非常类似于国际象棋和 LOL、王者荣耀里中常用的 Elo 分。

只不过在 WebDev Arena 里,这个分数,叫做 Arena Score。

现在,我们再回过头去看,你就能看到,05-06 版,是结结实实提高了 147 分。。。

用AI把一段视频变成可视化网页,Google的新模型又卷飞了!

研究过王者荣耀或者 LOL 的隐藏分也就是 ELO 分机制的朋友,就知道,这玩意提升 100 多分有多难。。。

这一次,Google 的 Gemini,登顶了。

第二个亮点,也是我觉得很牛逼的,05-06 版本,也提升了视频的理解能力,在 VideoMME 基准测试中得分为 84.8%。

这就带来一个很有趣的化学反应。

过去我们经常给一个 PDF、给一个图片,让它生成一段可视化网页,但是现在,你可以,给一个视频,来变成可视化网页了。。。

不过现在有点 BUG,Gemini 官网本身不支持视频的上传,只能在 AI Studio 里传视频,但而上传的时候,又经常会报错。

用AI把一段视频变成可视化网页,Google的新模型又卷飞了!

Reddit 里很多网友也遇到了这个问题。。。

用AI把一段视频变成可视化网页,Google的新模型又卷飞了!

Emmmmm,不过,目前使用 YouTube 的在线链接生成,目前是可以的。

我们直接打开 AI studio 的官网:

网址:https://aistudio.google.com/

模型调整至 05-06 版。

在加号那,选 YouTube。

用AI把一段视频变成可视化网页,Google的新模型又卷飞了!

我直接扔了一段 OpenAI 发在 YouTube 上的 Sora 教程上去,然后继续用藏师傅的可视化 Prompt。

用AI把一段视频变成可视化网页,Google的新模型又卷飞了!

很快啊,代码就跑出来了。

我们复制一下,运行看看。

用AI把一段视频变成可视化网页,Google的新模型又卷飞了!

完整版网页在此: https://2uwv6grszo.app.yourware.so/

虽然这事,看着很 NTR,但是,他真的很酷啊。

这玩意用于学习,你就可以想想,他有多棒。

比如我有时候,回去 YouTube 上看 Blender 教程。

现在,我就可以把这个视频和 Prompt 扔给他。

用AI把一段视频变成可视化网页,Google的新模型又卷飞了!

等输出完代码以后,我们看看效果。

用AI把一段视频变成可视化网页,Google的新模型又卷飞了!

真的很爽。。。

所以整体来看,这一次 Gemini 2.5 Pro 05-06 版本,确实是一次非常实在的升级。

既有实打实的代码能力提升,也在多模态理解上给到了新可能,尤其是视频转网页这种交叉场景,很可能会带来新的开发范式。

当然,Google 现在的问题依然是产品打磨还不够稳,入口混乱、命名迷惑、交互也还有 bug,但模型本身的进步,确实值得承认。

它已经不是那个只靠 PPT 和论文刷存在感的 Gemini 了。

也不再是每次都被 OpenAI 狙击的 AI 界汪峰了。

接下来就看 I/O 大会正式发布时。

Google 会不会再放出更大一锤了。

我们,拭目以待。

收藏 2
点赞 28

复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。