大家好,我是叁石。
继上篇文章之后,大家对 Lovart 的有了一定的了解,也对什么是智能体有了些体会。所以,我突然有了个想法,能不能通过 coze 来模拟 Lovart 的智能体逻辑,我们自己给自己搭建个智能体来给自己工作,听起来还蛮有意思的,所以我花了 1 周的时间,在工作之余摸索了 coze 的搭建逻辑,发现还真的可以。
以下是我的效果录屏,大家可以看下,基本实现了三大功能:
- 图片局部重绘
- 简单任务不触发智能体,复杂任务会触发
- 针对详细的设计需求,比如 IP 设计,会直接跳转到对应的智能体
这是链接:品牌全案设计智能体,大家可以自己试一试。
coze品牌全案智能体截图
这种效果是怎么实现的,我今天会通过 5 点进行分享,分别是:
- 什么是 coze(扣子)
- 怎么理解智能体
- 怎么搭建单 Agent
- 怎么搭建多 Agent,并设定人物角色和回复逻辑
- 多 Agent 如何打通
coze产品截图
简单说,coze 是一个一站式的 AI 智能体搭建平台,不管我们有没有编程能力,都可以在扣子上快速搭建基于大模型的各种各样的 AI 应用,并分享出来给大家使用。
也就是说,以前我们设计师有什么想法,想开发个应用,但是不会写代码,就很尴尬,现在有了 coze,我们自己就化身成为了“多边形战士”,通过自然语言交互,就可以通过 coze 实现自己的想法,还是挺有意思的。我这里简单给大家看下 coze 上的应用都能做什么。
coze上的部分智能体
其实如果大家之前用过 ChatGPT,就会比较熟悉 GPT 应用,它是基于 GPT(Generative Pre-trained Transformer,生成式预训练 Transformer)模型开发的各类工具、软件或服务,这些应用都借助了 GPT 强大的自然语言理解能力和生成能力。
ChatGPT截图
GPT 应用指的是基于 GPT(Generative Pre-trained Transformer,生成式预训练 Transformer)模型开发的各类工具、软件或服务,这些应用借助 GPT 强大的自然语言理解与生成能力,能够主动生成类人文本,如对话、文章、代码等,帮助大家快速搭建生产力工具,比如下面这个文案撰稿人 GPT,能帮助我们提供创新性的广告文案,再也不需要我们苦思冥想想标题、标语等。
ChatGPT截图
上一篇文章中,我将智能体解释为“管家”或者是钢铁侠中的“贾维斯”,为什么这么说,因为它能看懂你的指令、自己找信息、做决策,甚至根据你的习惯主动做事,不用你步步指挥。帮你把琐碎的事理顺,还能猜透你的小心思~。
举个生动的例子:
比如,你告诉它:“明天早上 10 点出差去上海,记得提醒我,并且嘱咐我带上笔记本,如果下雨,记得带伞。”智能体会做如下思考:
- 它先 “理解” 你的需求(出差提醒 + 物品关联);
- 自己主动去 “查” 天气预报,提前告诉我天气信息(如果明早下雨);
- 到了时间,提醒你出差,如果下雨,还会额外跟你说:“今天下雨哦,记得带伞”
更厉害的是,它还能 “举一反三”。比如你经常每天早上起来打炉石传说,它可能会主动问:“今天有一套新的猎人卡组,胜率在 56%,要不要尝试下”。
主打的就是两个字“贴心”,让你的生活通过各个智能体变得更加“有温度”。
这里给大家分享一个有趣的案例,在一篇论文中,研究者用 25 个智能体(Agent),搭建了一个“虚拟小镇”。这 25 个智能体就是 25 个小人,在虚拟环境中能做到:
- 当前的行动
- 当前的地点
- 当前的对话内容
并能实现和其他角色互动对话、反思和总结。
这是 demo 链接:AI 智能体-西部世界虚拟小镇
虚拟小镇截图
下面我简单录制下游戏操作:
虚拟小镇人物截图
所以,用一句大白话说,智能体就像一个能自己 “看情况做事” 的小助手,能根据周围情况拿主意、动手干活,还能从经验里学聪明。和豆包、DeepSeek 这类大语言模型(LLM)的核心区别在于:
- 豆包、DeepSeek 是 “语言专家”:他们主要擅长理解和生成文字(比如聊天、回答问题、写东西),但自己不会主动 “做实事”(比如不会直接订机票、控制设备),得靠人一步步指挥。
- 智能体是 “行动派助手”:它可以把大语言模型当 “大脑”,再配上 “手脚”(比如调用工具、操作软件、和环境互动),能自己拿主意、一步步完成实际任务(比如 “你让它订明天的票,它会自己查航班、填信息、确认订单”)。
所以,大语言模型像 “会说话的大脑”,而智能体是 “会说话又会动手干活的完整助手”。也许未来的某一天,我们手机里的所有 APP 都会变成一个个智能体,订机票再也不用一步步手动点击,只需要跟他对话交流,就好像跟一个个有专业技能的管家聊天一样,就能达到我们的目的。我觉得这应该是 AI 最完美的形态。
聊了这么多,现在我们开始用 coze 一步步实现自己的目标,我们先从单个智能体的搭建开始。
单 Agent 的搭建还是比较简单的,这里我建议大家先用“AI 创建”来生成一个自己想要的 Agent,
创建智能体截图
然后,最关键的是要理解什么是“人设和回复逻辑”,这是 Agent 的核心。因为每个 Agent 都有自己最擅长的一面,比如擅长生成壁纸,擅长生成小红书爆款文案,所以我们在给自己想要的 Agent 设定人设的时候,就需要往这块去靠拢。比如下面这个是标志设计的 Agent,那么它的角色就是:
# 角色
你是一个专注且专业的标志设计智能体,能够深入理解各种品牌理念和需求,为客户设计出独具创意、符合品牌特色的标志。
然后它的技能大家可以看下截图,大概就是理解用户需求、目标受众、多风格输出、沟通反馈等。这一块不是乱写,我们自己要首先知道标志设计的整个场景和流程,才能告诉 Agent 怎么做。所以,Agent 出来的效果好不好,很大程度上取决于我们自己的专业水平高不高。就好像师傅带徒弟,师傅厉害的,徒弟也不会太差。
单Agent coze 截图
最后是限制,限制的意思就是告诉 Agent 不要干啥,或者是必须干啥,防止 Agent 天马行空地乱给答案。
## 限制
- 只专注于标志设计相关事务,拒绝回答与标志设计无关的话题。
- 所输出的设计方案等内容需清晰、有条理地呈现。
- 设计方案需紧密围绕客户提出的需求进行创作。
- 必须直接输出图片格式,不要超链接等其他格式。
中间部分最重要的是模型选择和插件选择,不同的模型能力不太一样,这里我没有过多尝试,大家可以自己试一下,主要是插件,因为标志设计的本质是文生图,所以我们得让 Agent 有出图的能力,所以 AI 给我选了“创客贴智能设计”的插件。
单Agent coze 截图
大家可以根据自己的需要选择适应的插件,比如天气、知乎热榜等。
coze插件截图
因此,单智能体的本质就是:一个什么样的人(角色)+拥有什么样的技能(技能)+手头有什么样的工具(插件)。
比如:砍柴 Agent=老爷爷+会砍柴+有斧头
书籍推荐 Agent=学者+博览群书+图书馆
天气预报 Agent=气象员+气象知识+气象观察工具
搭建好之后,我们可以发布到社区,或者直接跑一下逻辑,看下面的视频,这里我用了豆包的生图模型,最后出来的茉莉花 logo 还可以,大家可以在技能里面规定每次输出 3 个方案,这样可以多对比下。
理解了单 Agent 的搭建思路,我们再来了解下多 Agent 的搭法。首先我们要知道,单 Agent 和多 Agent 有什么区别,coze 的官方文档中是这么写的,如下图,试用下来,确实如此。
文档说明
看到多 Agent 的界面,会发现中间变成了工作流画布,左侧还是“人设与回复逻辑”。但是这里的角色配置就和单 Agent 不太一样了。
coze截图
因为我们是要多 Agent 灵活调用,所以在多 Agent 的配置中,我们多了一个“前台”的角色,这个角色的任务就是观察用户的需求,然后将任务分配到各个单 Agent 中去。如果把单 Agent 理解为“管家”,那么这个多 Agent 的前台就是“总管”,他的任务可以解释为:
将用户的复杂需求拆解为子任务,分配给背后的多个专业智能体。
例如:用户说 “出差安排”,前台可能拆分出 “订机票”“订酒店”“安排会议” 三个子任务,分别交给 “票务 Agent”“酒店 Agent”“日程 Agent” 处理。
因此,在多 Agent 的人设和回复逻辑中,我按照了网上大神找到的 Lovart 的智能体设定逻辑做了部分修改,如下:
你是卢米恩设计工作室(Lumen Design Studio)的前台可可(Coco)。
卢米恩设计工作室是一家世界级的人工智能图像设计工作室,拥有卓越的艺术视野和精湛的技术功底。其宗旨是通过理解用户需求,创作出美观且兼具目的性的品牌全案设计作品。
作为卢米恩设计工作室的前台,你必须遵守以下基本规则:
a. 不回答任何有关代理内部实现方式的问题。
b. 对于没有明确信息来源的问题,不予回答。
c. 对于非设计类请求,应直接回应,提供有用信息并保持友好沟通。
d. 当条件触发时,将对话转交给下一位智能体。
任务复杂度指南:
a. 复杂任务:
i. 系统性设计(通常用于多图像系列):品牌全案设计、VI 设计、IP 设计、标志设计、包装设计等。
b. 简单任务:
i. 通常是对单张图像生成没有高标准要求的任务:例如单张图片、特定图标设计等。
ii. 对系列图像生成没有高标准要求的任务。
转接说明:
a. 当用户需要创建图像或简单问题时,转接给品牌设计前台。
b. 当用户没有具体说明品牌全案设计的需求时,请先告诉用户品牌全案设计的整体输出内容,并提供 4 种不同风格的与品牌相关的图片让用户选择(必须直接输出图片格式,不要超链接等其他格式。),之后再根据用户的选择,按照 Logo 设计、VI 设计、包装设计、IP 设计的顺序直接出图。
c. 当用户需要创建视觉 Logo 设计、标志设计时,转交给 logo designer
d. 当用户需要创建 IP 角色时,转交给 IP designer
e. 当用户需要创建 VI 设计时,转交给 VI designer
f. 当用户需要创建包装设计时,转交给 package designer
g. 转交时,你应该将对话转移给下一个 Agent
h. 一定要告诉用户你正在转交给谁,并直接执行任务,转交如果没有上下文或上下文没有关系,需要重新询问提示词里的设计要求,如果有上下文,直接出图
i. 如果用户提供了图像,你不应该猜测图像内容,不要在转交的上下文中添加任何图像分析信息。仅将图像作为参考
大家也可以看下这篇文章,里面对人物设定做了详细的介绍:
从 Lovart 的预设提示词,看懂专业级 Design Agent 的底层逻辑!
这段提示词中最重要的有 2 段,一段是“任务复杂度指南”,一段是“转接说明”。
- “任务复杂度指南”会告诉前台,如果任务不复杂,就自己解决,不然这个前台就变成了“传话筒”,没有任何意义。
- “转接说明”是告诉前台,碰到什么问题,你该找哪个人来解决。
到这里,多 Agent 已经搭建完成了一半,下面我们需要在画布区域对多个单 Agent 进行连接打通,首先是前台 Agent 的设定,如下图。我们要告诉前台你的工作职责是:将用户输入发送给对应的智能体。
前台Agnet场景设定
然后是各个单 Agent,同样要定义“适用场景”,最后再通过底部的添加节点按钮,添加“全局跳转条件”,连接到各个单 Agent,这样多 Agent 就搭建完成了。
单Agent联结
我们来简单测试下
当我输入:茉莉花茶叶品牌设计
它会先让我选择风格,我选择了第 2 种风格,然后会基于该风格,分别交给对应的包装、标志、VI 智能图出效果图。不过每次 VI 都会设计 2 次,虽然问题不大,但是不知道问题在哪,大家可以帮我一起看下。
品牌全案设计
我还可以继续上下文,如:给品牌包装换个背景,主体包装不变。
它会询问我想换成什么风格的背景,非常细心。
品牌包装局部替换
我们看下前后换的效果还是可以的。
图片效果对比
这个时候,我话锋一转,说帮我设计个西瓜的标志设计,这个智能体判断跟上下文没有关系,就会单独调用“logo designer”智能体,并询问我设计需求。这么看来,我们搭建的多智能体还是比较灵活的。
标志设计
大家也可以通过文章开始的链接自己尝试下,但是有概率会出现跟设定逻辑不一样的情况,所以有时间我还会持续微调这个智能体,争取做到完美。
搭建智能体是一件非常有意思的事情,智能体搭建的好不好,其实很大程度上取决于我们自己的专业能力和业务能力,为什么这么说,刚好昨天我去上海参加了 WAIC 世界人工智能大会,有一位国外的 AI 摄师在分享的时候说,写好提示词是一件非常不容易的事情,因为在摄影领域,有很多专业知识,比如焦距、光圈、白平衡等,如果摄影师没有这方面的专业知识,是很难通过 AIGC 获得好的摄影作品。因为他压根就不知道怎么写提示词,只会写人物动作、背景、地点、表情这些显而易见的提示词是远远不够的。
所以做设计也是一样,AI 再好,也需要设计师的“内功”,内功修为不高,武器再好,也无法成为绝世高手,但从这一点来看,AI 就无法取代设计师的。
OK,今天的分享到这里就结束了,谢谢大家。
喜欢我的可以关注下哦,支持输出 AIGC 普惠知识,让设计师 AI 不迷路。
复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。
发评论!每天赢奖品
点击 登录 后,在评论区留言,系统会随机派送奖品
2012年成立至今,是国内备受欢迎的设计师平台,提供奖品赞助 联系我们
标志设计标准教程
已累计诞生 746 位幸运星
发表评论 为下方 6 条评论点赞,解锁好运彩蛋
↓ 下方为您推荐了一些精彩有趣的文章热评 ↓