近期,阿里巴巴智能计算研究所提出了一种新的生成式框架 EMO,是一种富有表现力的音频驱动的肖像视频生成框架,用户只需提供一张照片和一段音频文件,EMO就能生成会说话唱歌的AI视频,实现无缝对接的动态小视频,最长时间可达1分30秒左右。这项技术的应用场景非常广泛,从电视剧角色的语音合成到音乐视频中的虚拟表演者,都有可能被AI技术所取代。
EMO框架使用Audio2Video扩散模型,通过三个阶段的技术处理,包括帧编码、音频编码和去噪操作,以及参考注意力和音频注意力机制,来生成富有表现力的人像视频。
目前,EMO 框架上线到 GitHub 中,相关论文也在 arxiv 上公开。
GitHub:https://github.com/HumanAIGC/EMO
论文:https://arxiv.org/abs/2402.17485
今天给大家推荐一个提示词辅助神器:PromptFolder 从此出图少走弯路!
大家平时用 Midjourney 或者是 Stable Diffusion 做图时,是不是脑海中已经有画面了,但是不知道怎么表达出来,自己尝试写提示词后,出图的效果不尽人意?
这个是专为大型语言模型 (LLM)、大型模型 (LM) 和 LMOps 设计的尖端提示词优化器。自动优化 ChatGPT、GPT-3.5、DALL-E 2、StableDiffusion 和 MidJourney 提示词。不管是文字、图片、还是解决方案的提示词,都可以通通搞定,一键优化。
目前是免费试用,觉得有需要的宝子们快去看看,一下就打开新大陆了!
阿里巴巴最近推出了一项名为Animate Anyone的创新视频生成技术,只需一张图片即可生成平滑稳定的视频。这项技术对短视频、电商和动漫行业都有一定的影响!
Animate Anyone 是由阿里巴巴智能计算研究院开发,你只需提供一个静态的角色图像和一些预设的动作(或姿势序列)然后会生成该角色的动画视频。同时保持图像中角色的外观和特征的一致性。
理论上“动画任何人”... 不仅适用于人类角色,还可以用于动漫/卡通角色、类人角色等,具有广泛的应用范围。
Animate Anyone 创新之处在于它的通用性和高度的自定义能力。用户可以使用任何图像和任何动作序列来创建独特的、定制化的视频内容。
对于任何需要快速、高效创建动画内容的人来说都是一个非常有价值的工具。通过这种技术,可以在不需要复杂动画技能或昂贵软件的情况下,创造出引人入胜的动画视频。
怎么样?有惊艳到你吗?