尊享

加入【优设领航者俱乐部】

尊享全年高价值服务 加速收益

大咖指引 职场加薪

大咖领航新机会新收入

AIGC实战 加速受益

大厂AIGC实战经验分享

优质链接 人脉链接

企业/达人/设友线下链接

流量赋能 名利双收

1000W+流量助力影响力提升

领取更多高价值实用特权

投稿

首席爆料师 邀请你来回答

6.3k 设计师已围观
2024/02/29

太炸裂了!阿里开发出 AI 图生视频模型EMO,1 张图片加音频就可以做会说话的头像视频!

近期,阿里巴巴智能计算研究所提出了一种新的生成式框架 EMO,是一种富有表现力的音频驱动的肖像视频生成框架,用户只需提供一张照片和一段音频文件,EMO就能生成会说话唱歌的AI视频,实现无缝对接的动态小视频,最长时间可达1分30秒左右。这项技术的应用场景非常广泛,从电视剧角色的语音合成到音乐视频中的虚拟表演者,都有可能被AI技术所取代。

EMO框架使用Audio2Video扩散模型,通过三个阶段的技术处理,包括帧编码、音频编码和去噪操作,以及参考注意力和音频注意力机制,来生成富有表现力的人像视频。

目前,EMO 框架上线到 GitHub 中,相关论文也在 arxiv 上公开。

GitHub:https://github.com/HumanAIGC/EMO

论文:https://arxiv.org/abs/2402.17485

太炸裂了!阿里开发出 AI 图生视频模型EMO,1 张图片加音频就可以做会说话的头像视频!

太炸裂了!阿里开发出 AI 图生视频模型EMO,1 张图片加音频就可以做会说话的头像视频!

好问题 36 回答 4 生成海报
优设问答有问必答 👉 回答问题赢奖品
{{ moreBtnTxt }}

太炸裂了!阿里开发出 AI 图生视频模型EMO,1 张图片加音频就可以做会说话的头像视频!

生成问答海报 我要提问 我来回答