居然能打平顶尖CG作品?实测最新AI视频模型可灵2.5 Turbo

可灵正式发布了他们的 2.5 Turbo (app.klingai.com)版本视频模型,作为超创提前试了一下,这次的进步真的很大。

先来看个藏师傅测试视频混剪的样片:

提示词理解强了非常多,尤其是涉及到开始之后包含复杂因果和时间关系的提示词。

另一个高速动态视频的表现,涉及到超高速战斗和复杂运镜的时候更加稳定。

同时生成视频的风格稳定性更强,图生视频的时候风格保持相当稳定。

最重要的是这次可灵 2.5 Turbo 的价格非常划算,高品质模式下5 秒视频从 2.1 模型的 35 积分降到了 25 积分。

这次我们先看几个基础的测试,刚好前几天看到新一届的世界渲染大赛结束了,后面就顺手试了一下 AI 离顶级 CG 渲染作品还差多远。

更多可灵教程:

一、基础测试

主体角色会继续完成他向前的高速冲刺动作,整个身体带着强烈的动态模糊向前穿行。在他冲刺的同时,镜头会向后并向右侧拉远,始终将角色的上半身保持在画面中心。在第2秒左右,角色伸出的左手会猛烈击中一个刚刚进入画框右侧的敌人,撞击瞬间产生清晰的能量迸发或碎片飞溅效果。画面左侧那只离镜头最近的龙形怪物会紧随其后,向着角色移动的轨迹进行凶猛的扑咬,但差之毫厘地咬空,增加了紧张感。随着镜头持续拉远,到结束时,镜头会从特写过渡到一个中景,完整地揭示出主角已经冲入敌群中心,周围至少有三到四只怪物正在转向并准备围攻他,为下一个动作做好了铺垫。

可以看到我上面这个提示词相当复杂,先是规定了运镜方式,之后是一连串的动作。

先是伸左手攻击敌人,之后是左侧怪物的扑咬,为了让人物动作符合运动要求,他甚至自己让人物转了个身背对镜头,在这期间,人物执行转身和复杂动作的时候完全没有变形溶解等问题。

另外图生视频的时候首帧图片里面的怪物其实是相当不清晰的,但是可灵可以根据左侧稍微有点清晰的怪物脑补出其他怪物的样子,直到最后被怪物包围的时候每个怪物的形象都非常清晰完整。

  1. 巨龙展开翅膀,发出一声咆哮,镜头从下向上做一个充满力量感的升格拍摄。
  2. 巨龙从城堡上起飞,镜头做一个快速的向后拉远,展现巨龙翱翔于蓝天之中的动画美感。
  3. 巨龙在流动的油画天空中盘旋,镜头本身也在旋转,仿佛观众正置身于一幅活过来的世界名画之中。

然后是为了测试不同风格的一致性保持,就将一张图片改为了三种风格,同时用上了不同的视频生成提示词。

第一张是CG 风格的巨龙站起来咆哮,然后是日式赛璐璐风格在天空中飞翔,最后是星月夜风格的巨龙飞翔。

可以看到三张的风格保持都非常好,而且在第二张第三张视频模型都需要补全原有图片没有的信息,周围环境和剩下的巨龙身体,都非常稳定,尤其是梵高画风的第三张近距离视角相当震撼。

一个女孩在草地上奔跑,随着她的脚步,她身上的衣服从现代的牛仔裤T恤,平滑地过渡到中世纪的公主长裙,再到未来的夜光宇航服,整个过程无缝衔接。跟随女孩奔跑的镜头。

这个也是考虑复杂的时序提示词和变化的测试,图片本身只有一个穿着便服的女孩,她的服装需要顺畅的在后面几秒不断变换。

可以看到可灵 2.5 Turbo的处理非常顺滑,公主长裙和披风出现的时候是用一种生长动画的方式,然后宇航服出来的时候又是类似蒙版的方式,整个过程跟原来的人像一致性非常高,跟周围环境的交互也很自然。

二、顶尖AI视频模型可以战胜CG吗

这次可灵 2.5 Turbo上线的前几天刚好第十一届世界渲染大赛刚刚结束,能在这里获奖的人尤其排名靠前的已经是 CG 制作里面的中上层了。

于是我就在想,可灵 2.5 Turbo的动态和提示词理解已经这么强了,它可以跟这些作品掰掰手腕吗。

说干就干,我找到了前几届世界渲染大赛 Top 100 的视频,然后找到几个我喜欢的作品,截图拿到首帧,然后让 Gemini 2.5 Pro 根据原始 CG 拿到提示词,可灵 2.5 Turbo生成视频跟原始 CG 进行对比。

高角度俯瞰镜头开始,展示了一个深邃的峡谷,底部布满了巨大的绿色半透明晶体。一个身穿紫红色斗篷的人物站在晶体之上。峡谷一侧,一条狭长的铁路桥从一个发光的拱形隧道口延伸出来。随后,这个人物向空中跃起,向下扔了一个照明弹。就在这个动作发生的同时,整个场景发生了剧烈的变化:原本昏暗的峡谷背景瞬间被点亮,显现出无数向上延伸的、明亮的黄绿色水晶柱,形成了一片发光的晶体森林。与此同时,一辆小车开始沿着铁路桥驶离隧道口,空中也出现了飞舞的黑色小生物。在整个变化过程中,镜头视角保持在高处,并平滑地向后拉远,以展现出变化后更为宏大和明亮的场景全貌。

这个作品好像还是那一届 Top5 的作品,主要的亮点就是照明弹扔下去以后场景的水晶全部变亮的效果非常震撼。

可灵生成的时候很好的把握到了这个特点,同时提示词加上水晶生长之后整个场景的张力变得更丰富,而且镜头确实被拉远了,如果精细度再强点,角色不要跳崖的话可能真能跟原作掰手腕了。

这是一个固定机位的长镜头,画面展示了一个激烈的战斗场景。在一个充满炽热红色光芒的洞穴或峡谷环境中,四名身穿装甲的士兵和一架小型无人机正在地面上进行防御。一架大型运输飞船悬停在他们上空。整个环境布满了发光、类似蜂巢或孢子的有机结构,这些结构不断地爆发出火焰和能量射弹。士兵们和无人机正向四周开火,应对来自四面八方的攻击,枪口的火焰和飞行的射弹清晰可见。在整个过程中,镜头缓慢地向前推进并微微向上抬升,逐渐拉近与士兵和飞船的距离,增强了场景的紧张感和规模感。

如果说刚才那个稍逊一筹的话,这个真不相上下了。

这个画面其实非常复杂,有视频多个飞机,还有岩浆环境,基本上可灵对于画面视觉的分析相当到位,所有应该运动的都在运动,同时运镜也模仿了原来 CG 的运镜。

一个蓄着胡须、身穿橙色上衣和棕色裤子的僧侣从左向右奔跑。在他身后,一个巨大的石像活动起来,变成一个石巨人,并挥舞着它巨大的石拳砸向该男子。为了躲避攻击,该男子迅速向前翻滚,石拳重重地砸在他身后的石板地面上,激起一阵尘土和碎石。当石巨人抬起手时,男子迅速起身,继续向远处薄雾中的其他废墟跑去。整个过程中,摄像机以侧面视角平移跟拍,捕捉了这场追逐的动态。

这里人物奔跑的动作相当自然和流畅,在躲避石头人的大手摔倒的时候也没问题,后面还加上了一点踉跄的步伐已经相当超出预期了,石头人的动作受限于提示词和首帧图片过于糊,没有表现出来,不过也很好了。

在一个位于 fortified wall 前方的混乱战场上,镜头以一个带有运动模糊的低角度快速向右平移。最初,一个战士的黑色身影从镜头前跑过,紧接着,他变成了一只体型巨大的白色狼形生物跃入,它在布满士兵的战场上落地,并继续向右奔跑。在它前进的过程中,它再次扑向右侧,其巨大的冲击力将路径上的数名身穿盔甲的士兵撞飞。整个过程中,背景是冒着浓浓黑烟、部分着火的城墙和塔楼,镜头始终保持着快速、晃动的跟踪拍摄,以凸显战斗的激烈和生物的移动速度。

这个就太惊喜了,在前半段基本没啥问题,尤其是变狼的的动作处理,几乎跟 CG 已经同步了,而且在人物和狼的运动及动作切换都没问题,背景的士兵和烽火也都在运动。

一段连续的航拍跟踪镜头中, CG 风格,一个龙骑士驾驭着一头带有红色鳍和金色犄角的青绿色巨龙,从云雾缭绕的山间飞出。镜头一开始从生物的左后方跟随,展现了远方山顶上的中式古典建筑。随后,该生物向右下方俯冲,镜头也随之平滑地移动到生物的背部上方,视角转向下方,展现出一片灯火通明的城市夜景。这头生物继续在城市的上空飞行,掠过密集的楼房和高塔。整个过程,镜头始终跟随主体,从山林环境无缝过渡到城市环境。

这条由于首帧龙身不全,可灵把龙变成了长翅膀的西方龙,但是在其他部分的表现可以说是完美。

最后的城市看起来也非常清晰,然后在龙的运动和镜头调度上,可灵转了两圈,绕过了两座山,我觉得甚至比原来的 CG 表现还要更好。

一段追车镜头,全程运镜剧烈晃动并紧跟主体车辆。视频开始于一个极低的跟拍视角,一辆红色的经典款跑车在尘土飞扬的狭窄街道中快速穿行,扬起大量灰尘,画面因高速运动而产生模糊。随后镜头切换,从高处俯拍这辆红色跑车冲上一个陡峭的斜坡。接着,跑车飞跃空中,镜头以一个广阔的空中视角跟随它,展现了它从一片密集的、依山而建的贫民窟式建筑群上空飞过的画面。车辆落地后,镜头切换到车后方的跟拍视角,记录了它在土路上漂移过弯,轮胎卷起滚滚浓烟般的尘土。视频的最后,镜头再次降低到贴近地面的位置,追逐着车辆穿过一片被尘土完全笼罩的区域,周围的环境在扬尘中变得模糊不清。

这个应该是这几个里面还原的最好的,如果我在飞在空中的时候给他加一个变速的话就更像了,在汽车落地之后的可灵甚至还加了一个甩尾的漂移,镜头跟在车的旁边,太顶了。

好了这次的可灵 2.5 Turbo测试就到这里了。

从上面的这些案例可以看到,在一些特定场景下 AI 视频的内容质量真的可以跟 CG 掰一掰手腕了。

目前 AI 视频距离替代 CG 肯定还有一段距离,但是在整个 CG 流程中 AI 已经可以一定程度上承担动态的部分了,推荐 CG 大佬们可以试试场景摆放好之后将动态预览的部分交给可灵 2.5 Turbo试试,在前期方案探索和预览上肯定比直接渲染要迅速和方便的多。

过去我们总说 AI 视频是“抽卡”、“玄学”,本质上是因为模型缺乏对时间-因果链的底层理解——它知道“龙要飞”,却不知道“龙为什么要先收拢翅膀再振翅”;它能生成“战士挥剑”,却搞不清“挥剑的惯性会让身体如何连带旋转”。

但可灵 2.5 Turbo的表现,分明在暗示一件事:它开始理解动作背后的“为什么”了。它已经在还原真实和物理世界的这个目标上走了相当远的的距离。

僧侣躲避石拳后,AI 主动加了“踉跄”——这不是提示词要求的,而是它对“失衡-恢复”物理逻辑的自发补全。

公主长裙的“生长”不是粗暴的形变,而是遵循布料重力下垂的渐进式展开。AI 似乎内化了“材质-运动”的关联规则。

战士变狼的瞬间,镜头模糊和肌肉膨胀的帧率完全同步——这不是对训练数据的简单模仿,而是对“形变需要信息补偿”的隐性认知。

从这一点上 AI 模型的思考和创作方式确实更像人类,当 CG 还在解微分方程时,AI 已经学会了像原始人那样“凭感觉”画出一头奔跑的狼。

如果我的内容对你有帮助的话,麻烦帮我点个赞和喜欢🩷,也可以转发给有需要的朋友,感谢。

收藏 5
点赞 35

复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。