1小时可以设计1000组包装的 AI 「Package Design AI」来了,不仅可以设计,还可以通过大数据评价分析包装设计在市场受欢迎程度。 这个其实是很早就有的一个AI工具,从2022年10月起,日本株式会社PLUG就开始提供「Package Design AI」服务。这是一个只需要使用者上传图像素材,人工智能就可以自动在一个小时内,完成1000组商品的包装设计的工具。
通过它设计的包装,甚至已经帮助客户实现了 2 倍多的业绩增长!不过这套 AI 的重点在于「 协助设计师将现有的设计元素修改进步为更吸引人的呈现方式 」,将会大大提高设计的工作效率~唯一有点儿可惜的就是这个是企业级应用,个人好像还不能使用。
近日,快手发布了国内首个效果对标 Sora 的视频生成大模型「可灵」,并已在其旗下的快影App中开放邀测体验。
可灵大模型是由快手 AI 团队自研,采用了类似 Sora 的技术路线,并结合了多项自研创新技术。该模型具备强大的概念组合能力和想象力,能够生成具有大幅度合理运动的视频,并模拟物理世界特性。其生成的视频分辨率高达1080p,时长最高可达2分钟(帧率30fps),且支持自由的宽高比。
可灵大模型不仅限于文生视频功能,还将推出其他应用,如“AI舞王”和“AI唱跳”,这些应用可以驱动表情和肢体动作,仅需一张照片就能生成相应的视频。
目前,可灵大模型已在快影App中正式开启邀测,支持720p视频生成,竖版视频生成能力也即将开放,大家可以来试一试,看看生产的效果怎么样!
官网地址:https://kling.kuaishou.com/
Midjourney的新功能“角色参照”(Character Reference)终于正式上线了,它为用户提供了在生成图像时保持角色特征一致性的可能。这个功能特别适合那些需要在多个图像中维持相同角色外观的创作者,例如在制作漫画、动画或游戏角色设计时。
以下是该功能的详细介绍和使用方法:
适用型号: - Midjourney V6 - Niji6
功能状态: - Midjourney V6目前处于alpha测试阶段,这意味着功能可能还会有调整和优化。 - V6的beta版即将推出,届时可能会有更多的用户可以体验到这一功能。
使用方法: 1. 在输入提示词(prompt)后,通过添加--cref URL来指定一个参照图像链接,以此保持生成图像中的角色特征。 2. 如果需要混合多个图像的角色特征,可以使用--cref URL1 URL2的格式。 3. 通过--cw [强度值]来调整参照的强度,默认值为100。强度较高时,生成的图像会更详细地参照脸部、发型和着装;而强度较低(如0)时,主要参照脸部特征,适合用于变换服装或发型的场景。
效果提示: - 使用Midjourney创作的图像作为参照图像通常会得到更好的效果,而使用真人照片可能会导致生成的图像出现扭曲。 - 功能的参照精确度有限,生成的图像会具有类似但不完全一致的角色特征。
效果对比: - 与Midjourney V6相比,Niji6在使用“角色参照”功能时可能会有更好的效果。
注意事项: - 由于功能目前处于alpha测试阶段,可能会出现不稳定或效果不如预期的情况。
博主TechHalla分享了一套用GPT-4o做动画的教程,流程简单清晰,跟着操作即可做出这样的动画【视频1】。
话不多说,我们直接来看操作步骤:
1、生成角色形象:首先,把你的自拍丢给GPT-4o,要求生成「2.5D风格卡通形象」,需满足以下条件:T-pose姿势(双手水平张开、身体站直)、细线条画风、服装保持统一、背景为绿幕。
转换好自己的卡通形象后【图2】,接着让GPT-4o参照相同风格制作三位配角,确保整体风格一致【图2 图3 图4】。
2、画场景:接下来是搭建动画舞台。向GPT-4o描述你想要的场景,比如“咖啡馆”、“末日街道”、“魔法森林”等,补充关键词(如“白天/夜晚”、“科技感/童话风”等),让它按照之前的风格输出16:9比例的场景画面。
GPT-4o生成的场景后,再搭配Magnific AI,将图片高清放大,并加深纹理细节后,就形成了这样的画面:一个坐落在荒废沙漠的西部城镇,效果堪比绘图软件【图6 图7 图8】。
3、场景融合:现在来到了最神奇的部分,上传角色和环境,让GPT-4o帮你放在一个场景中,你可以说主角站哪、配角站哪,画面比例是多少,镜头怎么摆放等等。【图9】
就是这么模糊的描述,GPT-4o竟然完美理解并做到了!画面中,作者自己和卡皮巴拉坐在酒馆吧台,酒保在他们面前擦拭酒杯。【图10】
4、生成分镜:继续告诉GPT-4o,让它根据剧情生成多种角度的画面(俯拍、侧拍、对话视角),还可以详细描述想要的画面,比如“男人和卡皮巴拉走向旅馆”、“登上台阶”、“伸手开门”等一系列分镜。
GPT-4o准确“理解”了他的需求,并给出了这样的画面【图11 图12 图13】。
5、生成动画:动画这步,作者用到了可灵AI的v1.6模型,让可灵把上面那些静帧变成动图,生成“人物动起来”的效果,并加上环境音等音效,就生成了这样的动画片段【视频14 15 16 17】。
以上就是整套流程,无需手动画图或剪辑,只需要简单的提示词和几张参考图,用户就可以借助GPT-4o+Magnific AI+可灵AI三件套,生成动画效果。
by:微博@量子位 建议收藏转发,随时翻阅!
近期,阿里巴巴智能计算研究所提出了一种新的生成式框架 EMO,是一种富有表现力的音频驱动的肖像视频生成框架,用户只需提供一张照片和一段音频文件,EMO就能生成会说话唱歌的AI视频,实现无缝对接的动态小视频,最长时间可达1分30秒左右。这项技术的应用场景非常广泛,从电视剧角色的语音合成到音乐视频中的虚拟表演者,都有可能被AI技术所取代。
EMO框架使用Audio2Video扩散模型,通过三个阶段的技术处理,包括帧编码、音频编码和去噪操作,以及参考注意力和音频注意力机制,来生成富有表现力的人像视频。
目前,EMO 框架上线到 GitHub 中,相关论文也在 arxiv 上公开。
GitHub:https://github.com/HumanAIGC/EMO
论文:https://arxiv.org/abs/2402.17485
今天发现了一个声音克隆的好东西,我刚刚挖到的Fish Speech这个工具,不仅生成速度快到飞起,而且克隆出的声音也很真实,支持文字转语音功能,非常的好用!
Fish Speech 是一款由fishaudio开发的全新文本转语音(TTS)工具,具有强大的语音克隆能力。用户只需提供一段参考语音,系统便能迅速进行语音克隆,无需繁琐的训练过程。
该工具支持中文、英语和日语等多种语言,并且在语音处理上的能力接近人类水平。 Fish Speech采用了先进的AI技术,包括VQ-GAN、Llama和VITS等,能够将文本转换成逼真的语音。它还采用了Flash-Attn算法,以提高处理大规模数据的效率和稳定性。这些技术使得Fish Speech不仅在语音合成方面表现出色,还在语音克隆方面具有显著的优势。
Fish Speech的语音克隆功能特别适合内容创作者使用,他们可以利用这一工具快速生成各种声音效果,用于视频配音、播客制作等场景。
试玩地址:https://fish.audio/zh-CN/
阿里巴巴最近推出了一项名为Animate Anyone的创新视频生成技术,只需一张图片即可生成平滑稳定的视频。这项技术对短视频、电商和动漫行业都有一定的影响!
Animate Anyone 是由阿里巴巴智能计算研究院开发,你只需提供一个静态的角色图像和一些预设的动作(或姿势序列)然后会生成该角色的动画视频。同时保持图像中角色的外观和特征的一致性。
理论上“动画任何人”... 不仅适用于人类角色,还可以用于动漫/卡通角色、类人角色等,具有广泛的应用范围。
Animate Anyone 创新之处在于它的通用性和高度的自定义能力。用户可以使用任何图像和任何动作序列来创建独特的、定制化的视频内容。
对于任何需要快速、高效创建动画内容的人来说都是一个非常有价值的工具。通过这种技术,可以在不需要复杂动画技能或昂贵软件的情况下,创造出引人入胜的动画视频。
怎么样?有惊艳到你吗?
分享一下在Discord平台上非常出色的7款AI绘画插件,这些插件可以帮助大家以更多样的方式实现AI绘画。希望这些插件能够对大家有所帮助!这7款插件多数都能在服务器直接搜索到,其他的需要邀请链接。
1、ChatGPT,是的没错,ChatGPT也上线 Discord 平台了,这进一步便利了我们用ChatGPT生成 Midjourney 所需关键词。
2、InsightFace,换脸神器,这款是人物头像定制必备的 Midjourney 插件
3、Midjourney Bot 是 Discord 核心插件,30刀每个月,功能就不用强调了吧~
4、niji journey Bot,二次元出图必备神器,如果你要出动漫风格的图片,一定要记得用上
5、Tracejourney Bot,Midjourney 商用必备插件:这款插件最强大的地方在于,它可以把 Midjourney 插画转换成矢量文件去编辑
6、StableDreamer,是 Stable diffusion上线到discord上的工具,同样强大的 AI绘图神器
7、Pika,AI图片转动态神器,Pika 拥有可以轻易变图片为动画的功能,也是大家最近非常青睐的AI工具