这两天,在 X 上看到一个很酷的 2D 动漫 AI 视频。
我直接放一下,强烈建议看完。
当时第一遍看的时候,不知道为什么,心里的二次元之火熊熊燃烧。
我也一直都是那个,热爱纸片人的少年。
片子在动漫画风的稳定性上,强的可怕。
这个作者,是一个非常喜欢做 AI 视频,而且是动漫风格 AI 视频的创作者,叫 Naegiko。
虽然片子只有 10 万播放,但是,很多大号都直接转载他的,总播放量破百万肯定是有的了。
这个 AI 视频的工具,来自 Vidu。
在评论区的下面,哥们也在给所有喜欢做动漫风格的人,安利 Vidu。
又是 Vidu。
其实很多人上周也在催我写 Vidu1.5 版本的更新,但是事情实在太多,本来上周五打算发,结果出了点小毛病一波直接干到医院,一拖也就拖到了今天。
其实坦率的讲,现在的视频大模型,在写实上效果都能卷的还不错,但是在一些风格化的动漫视频上,经常会出现一些变形和识别错误。
甚至有的还会把你给的动漫的参考图,直接给你在过程中变成写实或者那种 3D 风格的,稳定性很差。
而对于 Vidu 来说,在我测试的这几个月里,Vidu 的 2D 风格,就是现在最强的,也是他们之前,最大的特色。
但是 Vidu1.5 的这波更新,如果只是模型质量提高了一些,语义理解强了一些,其实坦率的讲也没什么好写的了,大家对 AI 视频模型的更新已经有点趋近于去年语言大模型的感觉了,已经有点免疫了。
需要一些更直观的功能,才能让大家感觉到,很酷的感觉。
而 Vidu1.5 版本这次的更新,刚好就有一个我觉得划时代的新功能,叫:
我先放两个视频,让大家先直观感受一下,这个东西是个啥。
衣服是梅西的 10 号球服,转过身来,是宋小宝,然后振臂高呼。
来自朋友@卡尔之前做的一个 case,马斯克和甄嬛漫步在故宫中,还动态非常大的给屏幕面前比了个大拇指。
现在应该能模糊的感觉到了一些,来自多主体一致性的强大了吧?
用最简单的话解释,就是你可以传至多 3 张图。来实现任意人物、任意物品、任意场景的一致性。
比如梅西那个 case,就是上传了梅西的球服+宋小宝的脸,然后用一段 Prompt:梅西背对着镜头,慢慢转过头是图中的男子在冲着镜头笑。直接生成的。
而马斯克和甄嬛,则是上传了一张马斯克的、一张甄嬛的、一张故宫的图。然后用一段 Promtp:一个穿着黑色衣服裤子的男人和一个穿着黄色中国古代服装的女人走在宫殿外的路上。
就出来了完美一致的视频。
这就是 Vidu1.5 这波更新、最酷的功能,多主体一致性。
在我看来,可能是现在很多人意识不到,但是在 AI 视频领域,可能划时代的一个技术。
我们常说 AI 视频想进入专业影视领域,除了最终质量之外,一直以来都有三个一致性要解决:
风格一致性、角色一致性、场景一致性。
如果连在单个片段里,这三个一致性都没法解决的话,那别提电影这种最高殿堂的产物了,连一些剧集都够呛。
而过往,风格一致性已经解决的还行了,角色一致性 Vidu 在今年 7 月份的更新中其实上了一版,而场景一致性,一直以来几乎没有任何解决方案。
这一波,Vidu1.5 直接用最简单开箱即用的方式。
解决了所有单片段中的一致性。
很强,非常强。
你终于可以不用担心,你的广告、你的片子中,人物角色形象不一致的问题了,也不用去用那个蹩脚的 Midjourney 出图再图生视频的流程了,而是直接找到你想要的,扔进去,加一段 prompt,完事。
这个影响,可能非常深远,更是一道,黎明的曙光。
Vidu 网址在此: www.vidu.studio
进去登录以后,就能看到这个参考生视频了,打开那个多主体一致性功能,你就可以传最多三张图片作为参考。
比如,我们传一个奶龙和一个鸡哥上去,让他两,来一波开心的跳跃。
Vidu1.5 的速度也非常的快,我选的 720P,不到 1 分钟,就跑出来了,速度上跟 Runway 是一个级别的了。
效果也是非常的魔性。
我能对着他两跳看一个小时。
鸡哥和奶龙,在主体上,几乎是跟我传上去的图片,一摸一样,完美的实现了一致性。
你可以用这三个图片格子,来自由组合,来实现任意人物、任意物品、任意场景的一致性。
这个事情非常的好玩。
比如上面奶龙和鸡哥的就是,人物正面+人物正面。
你也可以传一张人物背面+人物正面。
比如还是宋小宝。
人物脸可以传两张,更强的保证人脸的一致性。
Prompt 写:女生转过身发现脸是该男子。
对不起了宋小宝老师。。。。。
还可以是一个人物的三视图,直接实现 3D 人物级别的一致性,3 张图,就可以直接跳过建模阶段直接出成片。
我随手拍了我非常喜欢的 Dimoo,之前的熊猫款的三视图。然后扔到 Vidu 里。
然后不到 1 分钟,一段 Dimoo 在森林里的视频就做完了。
稳定的要死,以后这种片子,谁还建模渲染啊。。。
你也可以,人物+物品。
比如一个女人喝一口可口可乐。
向伟大的 AI 致敬。
甚至,Vidu1.5 的多主体一致性不仅对角色是一场革命,对电商广告也是。
直接物品+场景,以后还渲染个屁啊。
比如 APPLE watch。
我让他在这个场景里面来个 360 度旋转。
这个多主体一致性,绝对是我最近见过,可能是 AI 视频领域,最有趣也是最有用的功能之一。
想起来很多年以前,罗子雄在 TED 上做的一个演讲。
讲的就是创意。
创意其实很多时候就是借鉴和组合的能力。
比如把这些元素,随机组合。
就会得到很多很多有的东西。
而 Vidu1.5 这个多主体一致性,其实也是组合,你可以不断的组合。
人物背面+人物正面、人物三视图、物体+场景、人物+场景、人物+物体等等等等。
太多了。
甚至你如果觉得三张图片不够用,还可以上传的时候,将多个主体拼接到一张图中上传,展开无限可能。
新的技术,总是能进一步推升我们的边界,让我们的想象力,终于可以更为宏远的延伸。
感谢 Vidu,感谢这个多主体一致性。
我觉得,我又可以,继续造梦了。
国产的 AI 视频,也真的是越来越好了。
Vidu、可灵、海螺、即梦、pixverse,每一个都在市场上,杀出了自己的一条血路。
为你们,献上我最崇高的敬意。
以及,最好的祝愿。
欢迎关注作者的微信公众号:数字生命卡兹克
复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。
热评 乏味的雨天