近日,快手发布了国内首个效果对标 Sora 的视频生成大模型「可灵」,并已在其旗下的快影App中开放邀测体验。
可灵大模型是由快手 AI 团队自研,采用了类似 Sora 的技术路线,并结合了多项自研创新技术。该模型具备强大的概念组合能力和想象力,能够生成具有大幅度合理运动的视频,并模拟物理世界特性。其生成的视频分辨率高达1080p,时长最高可达2分钟(帧率30fps),且支持自由的宽高比。
可灵大模型不仅限于文生视频功能,还将推出其他应用,如“AI舞王”和“AI唱跳”,这些应用可以驱动表情和肢体动作,仅需一张照片就能生成相应的视频。
目前,可灵大模型已在快影App中正式开启邀测,支持720p视频生成,竖版视频生成能力也即将开放,大家可以来试一试,看看生产的效果怎么样!
官网地址:https://kling.kuaishou.com/
1小时可以设计1000组包装的 AI 「Package Design AI」来了,不仅可以设计,还可以通过大数据评价分析包装设计在市场受欢迎程度。 这个其实是很早就有的一个AI工具,从2022年10月起,日本株式会社PLUG就开始提供「Package Design AI」服务。这是一个只需要使用者上传图像素材,人工智能就可以自动在一个小时内,完成1000组商品的包装设计的工具。
通过它设计的包装,甚至已经帮助客户实现了 2 倍多的业绩增长!不过这套 AI 的重点在于「 协助设计师将现有的设计元素修改进步为更吸引人的呈现方式 」,将会大大提高设计的工作效率~唯一有点儿可惜的就是这个是企业级应用,个人好像还不能使用。
Genspark 近日推出全新AI幻灯片工具,通过人工智能简化专业演示文稿的创作流程。让PPT创作从「熬夜爆肝」变成「一句话搞定」!
该工具能够快速整合复杂多格式数据、自动生成综合报告,并支持交互式修改与多样化艺术风格,以下是其核心亮点:
1️⃣ 多格式智能整合:PDF/Excel/Word/视频链接一键上传,自动提取数据生成结构化内容,财务报表、学术论文秒变可视化图表。 2️⃣ 交互式自然语言编辑:动动嘴就能调整——“合并图表”“添加背景音乐”,AI实时响应修改,排版布局随心换。 3️⃣ 艺术风格秒切换:从毕加索抽象风到《The Verge》科技感,封面设计告别模板撞款,品牌调性轻松拿捏。 4️⃣ 企业级深度应用:10分钟生成学术报告(含引文+摘要),5小时视频转PPT自动配动态图表,教育培训、营销策划效率翻倍。
🚀 适用场景: - 打工人:季度汇报、竞品分析一键出方案 - 学术党:论文转会议PPT,引文自动生成 - 创意人:品牌提案秒变艺术大片
试玩地址:https://www.genspark.ai/
176,363+张插画验证:输入一句话,产出100%统一风格的商业级素材库
Ilus AI 拥有强大的预制风格模型库,无论是复古的墨线风、灵动的涂鸦风,还是简约的扁平化设计,只需一键调用,就能瞬间生成风格一致的插画作品。再也不用在复杂的参数调整中迷失方向,即使是设计新手,也能轻松上手,快速产出令人惊艳的视觉作品。
- 官网地址:https://ilus.ai/
核心功能 - 预制风格模型:基于检索增强(RAG)技术,内置墨线、涂鸦、扁平化设计等多种风格库,用户可直接调用生成插画,无需调参。 - 个性化模型训练:用户可上传 5-15 幅样本,通过扩散模型(Diffusion Model)微调生成专属风格,支持图标、角色等细分类型。 - 多模态生成能力:支持文本描述+图像参考联合输入,模型通过跨模态对齐技术实现精准风格迁移。 - 矢量/SVG 导出:生成结果兼容.png 和.svg 格式,可直接导入 Figma、Adobe 系列工具进行二次编辑。
适用人群 - 设计师:为品牌视觉、网页设计提供素材。 - 内容创作者:快速生成博客配图、社交媒体视觉。 - 教育从业者:制作课件插图、培训材料。 - 营销团队:高效产出广告海报、活动物料。
Midjourney的新功能“角色参照”(Character Reference)终于正式上线了,它为用户提供了在生成图像时保持角色特征一致性的可能。这个功能特别适合那些需要在多个图像中维持相同角色外观的创作者,例如在制作漫画、动画或游戏角色设计时。
以下是该功能的详细介绍和使用方法:
适用型号: - Midjourney V6 - Niji6
功能状态: - Midjourney V6目前处于alpha测试阶段,这意味着功能可能还会有调整和优化。 - V6的beta版即将推出,届时可能会有更多的用户可以体验到这一功能。
使用方法: 1. 在输入提示词(prompt)后,通过添加--cref URL来指定一个参照图像链接,以此保持生成图像中的角色特征。 2. 如果需要混合多个图像的角色特征,可以使用--cref URL1 URL2的格式。 3. 通过--cw [强度值]来调整参照的强度,默认值为100。强度较高时,生成的图像会更详细地参照脸部、发型和着装;而强度较低(如0)时,主要参照脸部特征,适合用于变换服装或发型的场景。
效果提示: - 使用Midjourney创作的图像作为参照图像通常会得到更好的效果,而使用真人照片可能会导致生成的图像出现扭曲。 - 功能的参照精确度有限,生成的图像会具有类似但不完全一致的角色特征。
效果对比: - 与Midjourney V6相比,Niji6在使用“角色参照”功能时可能会有更好的效果。
注意事项: - 由于功能目前处于alpha测试阶段,可能会出现不稳定或效果不如预期的情况。
今天发现了一个声音克隆的好东西,我刚刚挖到的Fish Speech这个工具,不仅生成速度快到飞起,而且克隆出的声音也很真实,支持文字转语音功能,非常的好用!
Fish Speech 是一款由fishaudio开发的全新文本转语音(TTS)工具,具有强大的语音克隆能力。用户只需提供一段参考语音,系统便能迅速进行语音克隆,无需繁琐的训练过程。
该工具支持中文、英语和日语等多种语言,并且在语音处理上的能力接近人类水平。 Fish Speech采用了先进的AI技术,包括VQ-GAN、Llama和VITS等,能够将文本转换成逼真的语音。它还采用了Flash-Attn算法,以提高处理大规模数据的效率和稳定性。这些技术使得Fish Speech不仅在语音合成方面表现出色,还在语音克隆方面具有显著的优势。
Fish Speech的语音克隆功能特别适合内容创作者使用,他们可以利用这一工具快速生成各种声音效果,用于视频配音、播客制作等场景。
试玩地址:https://fish.audio/zh-CN/
最近,Stability AI做出了一个重大决策,修改了其社区许可协议,允许Stable Diffusion 3 Medium(简称SD3-M)模型商业化使用。如果企业或个人开发者年收入不超过100万美元(约726万人民币),只需向Stability AI提交申请,即可免费将SD3-M用于商业目的,如数据微调和生成式AI应用开发。
根据最新的协议,100万美元的收入门槛是硬性条件,不论收入是否直接来自SD3-M的使用。Stability AI还承诺,将在未来几周内发布一个更大版本的模型,并继续与社区分享,意味着该模型将会持续开源。
SD3-M模型拥有20亿参数,生成图片时间平均为2至10秒,推理效率高,对硬件要求低,适合在多种设备上运行。相较于前几代,它在图片质量、文本语义、光影和色彩表现上有显著提升,特别是在文本嵌入方面改进明显,提高了字体识别和嵌入的准确性。
训练过程中,SD3-M使用了包含10亿张图片的公开和合成数据集进行预训练,另外还使用了3000万张特定艺术风格和领域的图片进行微调,以及300万张偏好图片。
开源地址:https://huggingface.co/stabilityai/stable-diffusion-3-medium 填写申请地址:https://stability.ai/community-license
近期,阿里巴巴智能计算研究所提出了一种新的生成式框架 EMO,是一种富有表现力的音频驱动的肖像视频生成框架,用户只需提供一张照片和一段音频文件,EMO就能生成会说话唱歌的AI视频,实现无缝对接的动态小视频,最长时间可达1分30秒左右。这项技术的应用场景非常广泛,从电视剧角色的语音合成到音乐视频中的虚拟表演者,都有可能被AI技术所取代。
EMO框架使用Audio2Video扩散模型,通过三个阶段的技术处理,包括帧编码、音频编码和去噪操作,以及参考注意力和音频注意力机制,来生成富有表现力的人像视频。
目前,EMO 框架上线到 GitHub 中,相关论文也在 arxiv 上公开。
GitHub:https://github.com/HumanAIGC/EMO
论文:https://arxiv.org/abs/2402.17485
大家好,我想给大家介绍一个专为插画师和艺术爱好者设计的在线AI上色工具:Petalica Paint ,推荐大家试玩~
Petalica Paint 它的一大特点是内置的AI自动上色功能,你只需上传线稿图,软件就能智能识别并自动填充色彩,大大缩短了手动上色的时间,非常适合追求效率的创作者。工具提供了多样化的上色风格选项,可以根据作品的风格和自己的喜好进行选择。
Petalica Paint 还有线稿提取功能,无论是草图还是照片,都能清晰地分离出线条,为上色前的准备工作做好铺垫。在色彩调整方面,用户享有高度自由,可以任意调节颜色、透明度和饱和度,确保每个细节都符合你的创作愿景。
该软件与pixiv Sketch平台实现了良好的集成,你可以在pixiv Sketch里直接无缝使用Petalica Paint的各项功能,无需切换应用。
试玩→ Petalica Paint
刷到微博 @宝玉xp 大佬的一组皮克斯风格3D动画场景的提示词,生成的效果也挺nice的,分享给各位,感兴趣的可以试一试,感受一下不一样的四大名著!
以下是 @宝玉xp 原文: 提示词1:西游记皮克斯风格3D动画场景——唐僧师徒四人在明亮欢快的氛围中自拍留念。孙悟空站在中央,把金箍棒变成了自拍杆,上面连着一部 iPhone 手机,调皮地咧嘴笑着,神采飞扬地掌控自拍角度;唐僧站在悟空左边,双手合十,面容慈祥温和,带着淡淡的微笑,流露出对弟子的包容与喜爱;右侧猪八戒憨厚搞怪地摆出剪刀手,表情夸张且欢乐;沙和尚在八戒旁边,稳重但略显拘谨,憨直地微笑,露出质朴的腼腆感。四人身穿色彩鲜艳、生动可爱的传统服饰,整体画风圆润,充满活力,灯光柔和,色调明亮温暖,背景为郁郁葱葱、阳光明媚的神秘仙境般的山林。角色表情丰富、姿态生动,画面具有浓郁的皮克斯动画电影感与电影级的构图感。
提示词2: 三国演义皮克斯风格3D动画场景——桃园结义的刘备、关羽、张飞三兄弟在温暖明亮的桃园中欢乐自拍留念。刘备站在中间,微笑亲切温和,手持自拍杆,上面连着一部iPhone手机,略显羞涩却又十分开心地掌握着拍摄角度,流露出温文尔雅的气质与对兄弟情谊的珍惜;左侧关羽怀抱青龙偃月刀,面容自信且威严,长须飘逸,眼神带着宠溺与豪爽的笑意,另一只手搭在刘备肩上,表现出浓浓的兄弟之情;右侧的张飞则手持酒坛,咧着嘴笑,神情豪迈而略显顽皮,摆出夸张搞怪的姿势,完美展现出直爽坦率的性格。三人身穿色彩鲜艳、风格可爱的改良汉代服饰,整体造型圆润且活泼生动,灯光柔和温暖,色调明朗,背景为桃花纷飞、桃树郁郁葱葱的桃园仙境。角色神态丰富,动作姿势生动,场景整体充满浓郁的皮克斯动画电影感与电影级的构图效果。
提示词3: 水浒传皮克斯风格3D动画场景——梁山好汉宋江、武松、李逵、鲁智深在风光旖旎、阳光明媚的水泊梁山前欢乐自拍留念。宋江站在中央,面带温和亲切的微笑,稳重而温暖地握着自拍杆,上面连着一部iPhone手机,神情既有领袖风范又带点腼腆;他左侧的武松英气十足地抬起拳头做出霸气的姿势,面容帅气坚毅却露出一丝阳光般的笑容,展现豪迈与自信;右侧的李逵则夸张地手持双板斧,瞪大眼睛张着大嘴做鬼脸,生动搞怪,充满了滑稽而憨厚的活力;而站在一旁的鲁智深笑容憨直敦厚,肩上扛着禅杖,一只手比出可爱的剪刀手,表情豪爽中透着几分呆萌。四人身着圆润、活泼可爱的改良宋代服饰,整体色彩明亮、灯光柔和温暖,背景为辽阔秀美的湖泊与绿树环绕的梁山,桃花与荷花点缀其中,充满生机与祥和的气息。人物表情生动有趣,构图极具电影级质感,呈现出典型皮克斯动画电影的欢乐与温馨。
提示词4: 红楼梦皮克斯风格3D动画场景——贾宝玉、林黛玉与薛宝钗在繁花似锦的大观园中温馨欢乐自拍留念。贾宝玉站在中央,手持玉制自拍杆,上面连着一部精致的iPhone手机,他眉眼带笑,神情活泼明朗中带着些许调皮,微微侧头看向身旁的黛玉;林黛玉位于宝玉左侧,娇羞温婉,嘴角挂着矜持而甜美的微笑,眼波流转间透出一丝俏皮与柔情;右侧的薛宝钗端庄大方,美丽俊俏,微笑淡雅而得体,轻轻比出一个秀气的剪刀手,眉目间透着从容亲切。三人皆身穿色泽鲜艳柔和的改良明清风格服饰,服装细节精致圆润。整体画面光线柔和温暖,色彩明亮宜人,背景为鸟语花香、亭台楼阁交错点缀的大观园美景,花瓣随风飘落,构图细腻唯美。角色神情丰富细致,姿态自然生动,整体洋溢着浓郁的皮克斯动画电影风格与电影级的唯美温暖氛围。 --- 后续让 AI 参考提示词1生成即可,例如: --- 西游记皮克斯风格3D动画场景——唐僧师徒四人在明亮欢快的氛围中自拍留念。孙悟空站在中央,把金箍棒变成了自拍杆,上面连着一部 iPhone 手机,调皮地咧嘴笑着,神采飞扬地掌控自拍角度;唐僧站在悟空左边,双手合十,面容慈祥温和,带着淡淡的微笑,流露出对弟子的包容与喜爱;右侧猪八戒憨厚搞怪地摆出剪刀手,表情夸张且欢乐;沙和尚在八戒旁边,稳重但略显拘谨,憨直地微笑,露出质朴的腼腆感。四人身穿色彩鲜艳、生动可爱的传统服饰,整体画风圆润,充满活力,灯光柔和,色调明亮温暖,背景为郁郁葱葱、阳光明媚的神秘仙境般的山林。角色表情丰富、姿态生动,画面具有浓郁的皮克斯动画电影感与电影级的构图感。
参考上面的提示词,写一个三国演义版本,刘关张桃园三结义