大家好,这里是和你们聊设计的花生~

近段时间 AI 工具发展势头越发迅猛,在为大家介绍过的 AI 模型中,DALLE·2 和 Midjourney 在文本生成图像的质量和精准度上有了大幅度优化提升,后起之秀 Stable Diffusion 则将 AI 模型的操作门槛降低到普通人都能轻松入门的高度。

除了这些着力发展文本-图像(text-image)模型的科技公司,我在 8 月份也向大家概括地介绍过 Google、微软、Facebook 这些我们熟悉的互联网科技巨头在文本-图像 AI 模型上的研发成果,也同样有不凡的生成功能。

而在短短 2 个月后的今天,Facebook 和 Google 又发布了新的文本-视频(text-video)模型,不禁让人惊叹 AI 技术速度未免太快了些。今天就带大家一起简单了解一下这两款由科技巨头推出的 AI 视频工具 Make-A-Video 和 Imagen Video。

一、Make-A-Video(Meta)

官网: makeavideo.studio (需梯子)

Make-A-Video 是由 Meta AI(Facebook)研发的一最新的 AI 工具,由创始人马克·扎格伯格 9 月 29 日在 Facebook 上宣布推出。作用是可以根据文本描述直接生成视频,名字则是与 Meta AI 之前推出的文本-图像模型 Make-A-Scene 保持一致,非常直白。

Google、Meta又放大招!用嘴做视频的时代也要来了

Make-A-Video 在其官网上展示了大量的演示视频以说明其功能,包括超现实的、现实的和风格化 3 种类型。

超现实:A teddy bear painting a portrait(一只泰迪熊在画自画像)

超现实:Cat watching TV with a remote in hand(手持遥控器的猫在看电视)

现实:Clown fish swimming through the coral reef(小丑鱼在珊瑚礁中游泳)

风格化:There is a table by a window with sunlight streaming through illuminating a pile of books(窗边有一张桌子,阳光照射进来,照亮了一堆书)

除了可以根据文本描述生成视频,Make-A-Video 还可以仅根据一张图片就生成视频、为两张图片填充中间的动作,以及根据原有的视频,生成同样类型的视屏变体。

将一张静态图片转为视频:

根据一个视频生成多个同类型变体:

从官方给出的范例可以看出,Make-A-Video 在整体能很好的将文本描述转化为视频的样式,视频中的主体、动作的对象,动作的顺序以及运动方式基本符合正常认知。

但同时 AI 生成的视频也存有明显的缺陷,比画面会出现有不正常的抖动和扭曲,动作连接不如真实视频那样流畅,一些动物的五官出现畸变、动作方式怪异(比如猫身上交接了一个人手),以及视频的清晰度并不高等。

二、Imagen Video( Google)

官网地址: research.google (需梯子)

在 Make-A-Video 推出了后仅一周的时间,Google 就发布了自己的 AI 视频扩散模型 Imagen Video。

图片来源:Imagen Video 官网

与 Make-A-Video 相比,Imagen 给人最直观的感受就是清晰度很高——画面分辨率可以达到1280×768(Make-A-Video则为512*512),帧率则可以达到24 fps。Imagen Video在其官网展现了很多案例,强烈建议大家去看一下。

Flying through an intense battle between pirate ships in a stormy ocean.(在狂风大作的海洋中,飞过海盗船之间的激烈战斗)

A teddy bear washing dishes(一只洗碗的泰迪熊)

据官方介绍,Imagen Video 不仅能够生成高保真度的视频,还具有高度的可控性和完善的世界知识,能够创建不同艺术风格的视频和文本动画。但和 Make-A-Video 一样,Imagen Video 也存在画面不正常抖动、主体畸形、动作不够流畅等问题。

A cat eating food out of a bowl, in style of van Gogh(一只猫在吃碗里的食物,梵高的风格)

Incredibly detailed science fiction scene set on an alien planet view of amarketplace.Pixel art(令人难以置信的详细的科幻场景,设置在一个外星球上的市场景观,像素艺术)

但如同扎克伯格在其推文中写到的一样,AI 模型能从生成静态像素发展到预测每个像素随着时间推移发生的变化,这在技术上已经是一个突破了。Make-A-Video 发布时不少人都觉得清晰度太低了,而 Imagen Video 却很快就优化这个问题,这足以让我们相信过不了多久 AI 就会解决现存的一些缺陷,在视频真实度、精准度和长度上给我们带来新的惊喜。

而且现在也已经出现了 AI 音频工具,能够根据文本描述生成极具真实感的音频文件,与 Make-A-Video 和 Imagen Video 这种 AI 视频工具相结合正好能够创建出音画俱全的视频。如果这些 AI 工具能够应用到实际的创作中,那么视频创作的门槛想必也会大大降低,传统视频制作时所需的人员调度、布景、后期等工作不再那么必要,制作视频小样变得非常容易,也能释放更多的创作生产力。

Google、Meta又放大招!用嘴做视频的时代也要来了

文本-音频 (Text to Audio) 的 AI 模型 AudioGen 在其项目主页中展示的 AI 音频成果。图片来源: https://felixkreuk.github

目前 Imagen Video 并没有对外开放,原因是官方认为用于训练 AI 视频模型系统的数据仍包含有问题的内容,可能会导致 Imagen Video 产生图形暴力或色情剪辑,给社会带来不良影响。而在这些问题得到缓解之前,谷歌不会开放 Imagen Video 模型或源代码。而 Make-A-Video 有一个申请内测的渠道,感兴趣的小伙伴可以去其 官网 上填写注册表格。

对 AI 视频工具的出现以之后的发展应有你有什么看法呢?欢迎大家在评论区写出自己的看法,或者在优设问答里和大家一起交流~

问题:Google 和 Facebook 宣布研发出了最新的 AI 视频工具,能根据文本描述生成视频及文本动画,对此你怎么看?

链接: https://www.uisdc.com/talk/121207477940.html

Google、Meta又放大招!用嘴做视频的时代也要来了

参考资料:

  1. https://arstechnica.com/information-technology/2022/09/write-text-get-video-meta-announces-ai-video-generator/
  2. https://techcrunch.com/2022/10/05/google-answers-metas-video-generating-ai-with-its-own-dubbed-imagen-video/
  3. https://venturebeat.com/ai/google-ai-generator-takes-on-meta-as-text-to-video-trend-ramps-up/
  4. https://felixkreuk.github.io/text2audio_arxiv_samples/

推荐阅读:

赞赏
收藏 42
点赞 38

复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。