说个超级有意思的事。
今天凌晨,一个 AI 设计类的垂直 Agent 工具,在 X 上爆了。
可以直接看一下他们的片子。
可能很多老粉都知道,我其实是设计师出身,所以对这种 AI 设计类的产品,还是 Agent 的产品,本身就比较关注。
不过比较尴尬的是,他们又是那种内测制,要排队。
不过好像海外都看到 Manus 的火爆了,所以他们也搞了邀请码机制,关注评论就送码。
我也就去随手留了个言,大概意思就是:
我是一个中国的 AI 博主,有一点名气,对 Lovart 产品很感兴趣,希望可以获得内测资格。
结果,没一会,发现我的 X,真的收到了一条私信。。。
说实话,我对这种机会一般是不抱有啥希望的,结果没想到,居然还真的,拿到了邀请码。
本来都准备睡了,于是果断起床,一手体验了一波。
这个设计类的 Agent 产品,Lovart。
在玩到早上 6 点以后,我想说,Lovart 真的是有一点东西,虽然因为是内测版,在很多细节上,做的还有一点粗糙,但是大的框架,已经很看到了。
而且,是真实的有用。
这是我做的一些小 case。
网址在此: https://www.lovart.ai/
一进来,就是一个非常有视觉冲击力的主页。
直接点 Get Started 就行,你们可能还没有资格,就正常按照流程申请排队就行,当然,你也可以去他们的 X 评论区留言看看,说不定也会直接给你发。
发完就在这个邀请码的地方填就行。
如果你有资格了之后。
一进来,是一个非常像 AI Chat 的界面。
很简洁。
但是其实我在各种场合表达过很多次观点,在我的认知里,从来没有什么 AI+行业,而是行业+AI,就像我之前写飞猪那个垂直的旅游 Agent 的时候。
行业里的 Know How,才是最重要的,你到底是有什么痛点,有什么需求,有什么场景,什么时候该调用什么模型,什么时候该调用什么工具,这些东西,叠加你的 AI 的能力,才是真正的护城河。
所以我对 Lovart,是真的还有一些期待的。
我们可以在对话框中,随便跟他提一个设计要求。
比如我就写了一段:
帮我画一组“猫猫去世界各地旅行”的插画系列,总共 8 张图,每张都画一只米白色、站着走路的 Q 版猫猫,穿着当地的传统服饰,比如去日本就穿和服,去法国就带贝雷帽,去西安就穿唐装。猫的形象要一模一样,要站在画面中间偏下,后面是有代表性的地标,比如东京的街道、巴黎铁塔、西安城墙等等,但背景不要太复杂。画风要偏日系插画,线条细一点,颜色柔和一点,每张右下角能加一句旅游口号,比如“Spring in Tokyo”。整套适合做小红书日签那种风格,尺寸是 3:4。
发给 Lovart 之后,我直接录了个屏,大家可以看一下,就是原来稍微有点慢,一个任务三分钟,我就给加了 2 倍速。
大家也可以看看复现过程: https://www.lovart.ai/r/f1mjl6f
8 个小猫咪,是不是超级可爱的。
毕竟是 Agent 产品,中间的思考过程,其实非常有趣。
在收到我的任务之后,其实不同于所有的其他 Agent 产品,它做的第一步,永远是匹配风格。
我这个任务,虽然显示没有匹配到风格,但是我还是想说下。
他这个第一步,是完全没毛病的。
这个其实就是设计任务场景,跟其他的场景不太一样的地方了。
因为在设计场景里,画风就是影响最大的那个爹,就是最高决策。
你风格一旦错了,后面哪怕你画得再好,都是废图。
就像你做一张海报,客户说想要极简风,你整了一套写实叠素材+渐变爆炸+颗粒反光上去,你就是在纯种找骂。
风格不对,全盘否定。
风格对了,哪怕细节差点,大家都觉得你是在一个频道上。
这就是我所说的行业的 Kow How,如果你是不懂这个行业的人,你可能意识不到,风格这事,会有这么高的优先级,甚至高于怎么把这玩意画出来的优先级。
我自己写的风格其实比较模糊,但是如果我们非常明确的写一个,噪点插画,它可能就会匹配上了。
而且这效果确实很好。
我大概扒了一下,这应该是 1 个 LoRA 模型。
所以在 Lovart 的判断逻辑里,应该是会先判断你的设计任务所要求的风格,在他们的库里去匹配是否有 LoRA 模型能够满足,如果能满足的话,不管从效果还是推理成本的角度,都应该用 LoRA 模型去做执行。
如果匹配不上的话,才会用其他的大模型比如 Flux、GPT4o 等等来去画图。
这个逻辑完全没毛病,就是不知道他们库里有多少 LoRA。
在匹配之后,其实就是创建执行计划了。
不过有时候,匹配风格这一步,也有可能会被 Lovart 放在执行计划里,不过概率比较小。
我这个画猫咪的小任务,就被拆成了 3 步,获取知识、用 GPT4o 生图、结束。
获取知识这块很有意思,其实就是把我的 Prompt,变成了一个超级详细的 Prompt。
我必须要全部放出来给你们看,这也是我第一次见到这么详细的在 AI 上的设计拆解。。。
不仅写了通用性的设计规范,确定好的 IP 的样式和总体布局,然后,还列了 8 个城市,给每个城市,单独固定了调色板和单独的 Prompt。。。
真的,要是每一个设计师,在做一些系列化设计的时候,都能把设计规范和一些差异化的点,描述的这么清楚,那真的不用浪费那么多时间去做一些无用的所谓的视觉统一的工作了。。。
最后,是选择调用了 GPT4o,一口气把八张图,全部画了出来。
效果非常好。
在我自己一夜的测试过程中,除了 GPT4o 之外,还有 Flux、Gemini,还有 Poster Gen,做海报的时候经常会用的,但是我查半天也不知道底层是什么模型,感觉是他们自己做的。
最后,全流程 Ending,Lovart,把所有的图,给你放在了左边的画板上。
并且,二次编辑的功能,做的还蛮全的。
顶上的放大、扩图、抠图、消除、修复、涂抹模糊,主流的功能,基本全都支持了。
而每一张图,也可以单独点击,进行选区选择。比如这个城市,我希望在右上角加一些和平鸽,peace and love 才是真正的主旋律。
我涂上右上角的区域,就可以直接点下面的编辑,也可以添加到对话框中进行精准修改。
发送给他,很快,他就自己把和平鸽加上了。
除了小猫旅游之外,我又让他做了一些海报。
还做了一整套游戏 UI,我超级喜欢的蒸汽波+复古像素的风格。是我心中的 404 世界,那种在虚拟空间中,被废弃的城市。
而且在我们日常设计任务中,其实还有很多尺寸延展的场景的,比如这个 404 世界的首页。
我们可以让他把这个竖着的,再延展成 1:1,3:2,16:9 这 3 个尺寸。
几分钟以后,他就全部给你改好。
可惜就是出现了一些语义理解的问题,最后的 16:9 没给我生成,还是按 3:2 去生的。
同时,这里需要特别注意,如果是是写的英文,在英文里,这种延展或者适配设计,一定要写 Generate,而不是写 Extend,Extend 不是延展,是扩图,所以,如果你跟他说 Extend 的话,会很崩。
走的是纯扩图的逻辑,直接没眼看了。
甚至我还发现了,一个非常有趣的事,就是,你可以直接把生成的海报,扔到对话框中,然后说:Generate an editable text version of this poste。
你就会发现文字和背景图,真的被分离了,出来了一个可编辑的版本。
这个文字和背景分离的功能,其实是个超级刚需,做过 AI 绘图的都知道,文字有时候是要重改的,明明手敲就行,但是很多时候,AI 出来的就是一张,根本改无可改。
但是如果我们一句话,能把字体样式、字体本身、背景图给分离出来,那绝对是一件所有设计师有巨大加持的大事。
只不过现在 Lovart 虽然有了这个意思,会把字符、位置几乎完美的还原,但是把背景做了一些很细节的微调,字体样式也还没有保持住,不过至少看到了希望,未来可期。
而且,他们不止能传图改图,甚至他们还集成了可灵、11labs、suno,可以把图片,生成视频,再配上音乐和配音,然后剪辑在一起。。。
比如我就扔了一张非常经典的口红战神 Dior999 的产品图上去。
给了一段 Prompt:
我上传了一张高品质的 Dior999 的口红产品图,请基于这张图的质感和品牌定位,帮我生成一支专业感极强的 Dior999 品牌广告片段,时长控制在 30 秒以内。
整个广告需要延续这张图的调性,镜头语言可以参考过去 Dior、香奈儿、兰蔻等高端美妆品牌的广告片风格。
请生成完整的视频脚本分镜图,包括文字、画面描述和转场逻辑。然后把这些图转成视频,根据图片主题,加背景音乐。
Lovart 先分析了图像,然后写了一段非常详细的,广告视频脚本。
然后,画了所有的分镜图,和一个可视化的脚本。
随后,他就给这些图片,都用可灵转成了视频,还用 Suno,生成了 BGM 音乐。
在跑了十几分钟以后,一个还算好看的 Dior999 的广告视频,出现了。
真的,搓个小的广告片 demo,Lovart 真的没啥问题。
核心能力,其实还是来自于设计领域的 Know How。
用 Agent 来生成视频+配乐这件事,其实不是啥难事,很多通用 Agent 都可以做,接接几个 API 或者 MCP 就行,但是大家可以去对比一下一些通用的 Agent 产品,用相同的产品图和 Prompt,生成出来的视频审美和质量。
其实你就能看出来差别。
本来我还想用这个功能,来直接搓一段故事脚本,但是我发现,它的人物一致性和影视级别的镜头语言,还有一些进步空间,就作罢了= =
最后的最后,我还是想来聊聊 Lovart 的意义。
他当然,还有很多的细节问题和不足。
就像我当年第一次看到 Figma,意识到设计协作这个赛道会被重写一样。
今天第一次看到 Lovart 跑完需求→生成→尺寸延展→图文分离→视频合成→二次修改这一整链条,我也觉得:
在 Agent 的加持下,设计的工作流,未来也不一定是现在这样了。
甚至设计师的定义,可能也是另一个描述。
在没有所谓的设计 Agent 的时候。
你跟任何 AI 说我要一张图,它给你的是作品。
但是,在 Agent 的加持下,你现在跟 Lovart 说我要一张图,它给你的是产品。
是交付,是资源,是资产。
未来,直接一句话,生成潮玩 IP、生成这个 IP 所有的延展、做完视频、直出 3D 模型,并不是不可能。
可能,就在很快的未来。
现在的图景,非常的清晰。
每一个垂类赛道,可能都会有它一个专属的最牛逼的 Agent。
有大通用的、有研究的、有旅游的、有设计的。
未来,垂直 Agent 的,一定会更快速的涌现。
更多Agent 教程:
现在又是凌晨 6 点了。
但是我还是还想感慨一句。
亲身参与这个时代里。
实在是,太酷了。
复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。
发评论!每天赢奖品
点击 登录 后,在评论区留言,系统会随机派送奖品
2012年成立至今,是国内备受欢迎的设计师平台,提供奖品赞助 联系我们
标志设计标准教程
已累计诞生 713 位幸运星
发表评论 为下方 5 条评论点赞,解锁好运彩蛋
↓ 下方为您推荐了一些精彩有趣的文章热评 ↓