速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

前言

此次会连载一套 AI Agent 构建的系列,主要分为三部分,上篇是速通 AI Agent 构建的工作流基础,本篇则是通过 ComfyUI 作为案例来复盘如何快速上手工作流平台,给大家提供一些思路与窍门,下篇则是借助 Agent 平台构建一个 AI Agent 案例,本系列意图主要是帮助大家贯通工作流的搭建形式,并尝试为自己搭建一些可用的 AI 助手,或是提供构建的方法指引。

上期回顾:

不得不提的废话

就目前市面上的图像生成平台真的是越来越强悍,就例如最新版本的 ChatGPT 4o、即梦 AI 等,不仅提示词描述更简单了,图像效果也越来越好,通过几张简单的参考图加需求说明,就可以马上进行高质量的图像融合、局部替换修复、风格转换、效果延展等,甚至即梦已经能够处理中文以及文字效果了。

那你可能在想用 ComfyUI 做工作流上手案例还有必要么?有的!

原因是专业的业务场景需要专业且复杂的工作流或是 Agent 来实现,我们学习和掌握的是一套可复用的思维或方法,而不局限于本次所用的 ComfyUI,在第三篇的案例构建中,我也会用这套方法熟悉上手其他智能体平台来搭建一个 Agent 助手。

所以,通过学习和掌握复杂,只为更从容面对瞬息万变的 AI 应用。

一、设计目标是什么?

清晰我们的构建目标是什么,业务背景是什么,需求会提供哪些数据,要转化成什么样的结果,一切围绕着目标需求来拆解基本流程与寻求实现工作流的技术平台。

例如我要构建图像生成的工作流,需求提供了图像的风格与主题内容说明,那么结果肯定是将这些说明生成一张符合的图像,若我们要通过一套工作流实现,这个工作流平台就必须具备文生图的插件能力,例如基于 SD 图像生成的 ComfyUI。

那么就基于图像工作流 ComfyUI,我们来展开聊聊如何快速上手一款工作流平台为我所用~

二、分析现有流程结构

本质是一套数字化的生产流程,所以先分析和明确实现目标的基本工作或流程,以及对应的起始到结束的数据转化涉及到哪些加工步骤?中间至少需要哪些插件或 AI 模型的能力来实现转化。

好比说老板画了一张小狗的草图,他想要我做一个工作流上色和完善图像,给他一个二维卡通的狗狗图片,那么基于 AIGC 的方法概念,我们简单思索一下,这个流程至少要有以下几个节点过程;

Step1. 有一个风格符合的大模型

Step2. 有插件能够加载和识别草稿图

Step3. 能够输入关键词来指导图像的基本要求

Step4. 能够配置图像规格的参数

Step5. 能够基于以上数据生成期望的图像

那么我们就可以根据这套基础流程与插件诉求去匹配合适的工作流平台了。

三、工作流搭建平台选用

举例我是做一套代码托管部署,那么我就可以找代码相关的工作流部署平台,若是 AI 智能体相关工作流就可以看看扣子、文心智能体平台、百宝箱、Dify 这些,这些平台会提供相应的插件、工具或模型,我的选用标准主要就三个方面;

  1. 能够满足我的设计目标或业务诉求(需求可行性)
  2. 有丰富可用的插件或 AI 模型(能力扩展性)
  3. 友好的用户体验与成本控制(体验与商业平衡)

经过简单调研,若能够满足上面提到的三个方面,我们就可以进一步的了解与体验,并尝试构建或部署我们的业务。

四、如何快速上手一个工作流平台

一切从简单的部分开始,当我们初次看到一团杂乱的工作流时,几乎是劝退的,但所有的复杂也都是从简单一点一点丰富起来的,面对一个陌生的工作流时,我们可以通过以下方法快速熟悉和掌握;

  1. 一套可运行的基础工作流程要包含哪些节点与参数,如常见的起手式与结束式用哪些节点和设置,以及面对整个工作流的配置设置有哪些,有什么差异,那个更适合我们的业务需求(例如扣子具备单 Agent 的对话模式、多 Agent 的协同触发模式、以及我正在使用应用模式)。
  2. 节点连接的关系与条件是怎样的,如输入输出的数据类型、参数、准入准出等,理解节点怎样才能连接到一起并正确运行起来(也就是上篇的工作流基础速通篇所讲的内容)。
  3. 掌握各类节点插件的作用或类别,即不同节点的用途是什么,通常衔接在流程的哪些阶段中,需要哪些必要的输入输出完善流程(通常各类节点或 AI 模型会有相应的介绍说明,这些有必要了解一下)。

速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

五、熟悉 ComfyUI 的基本流程

那么就用上面这套方法,让我们试着快速熟悉一下 ComfyUI 的基础流程与插件能力吧~没有电脑本地部署 ComfyUI 的可以试试这款线上的工作流平台( https://www.liblib.art/modelinfo

OK 回到正题,假若当我们看到这个完整工作流时,是不是虎躯一颤,心想这啥玩意儿?

速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

但莫要慌张,让我们逐一拿捏这套小小工作流,首先 ComfyUI 是基于 Stable Diffusion 的节点式工作流,因此任意工作流的基础流程都应该是基于以下这套编排关系来展开的;

速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

那么我们把这些核心节点对应找出来,如下,我们已经在工作流面板中搜索出了基础流程所需要的节点。

速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

六、掌握节点之间的连接关系

OK,那我们再继续研究节点连接的关系与条件是怎样的,我们可以观察到,单个节点卡片的左右就是输入输出的字段,卡片中间就是要配置的参数,是典型输入输出+数据配置的结构,有意思的输入输出的字段甚至用颜色做了类型区分,所以只要按照颜色就可以将节点之间连接起来就可以了(这使得连接关系更加简单易懂)。

速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

这里我们快速连接了一下,仿佛已经掌握了 ComfyUI 的基础工作流,但是点击运行后报错了!

明眼人一看肯定就知道原因了,原来是有个节点缺少执行的预设输入配置,那么我们尝试找一个“粉色”的“Latent”补充进来再试试。

速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

通过拖拽粉色缺失的输入接口(平台支持端口拖拽出来适用选项的窗口),我们直接添加了一个空的“Latent”,通过观察参数设置,显然这个粉色的“家伙儿”是用来设置图像大小和批次的,并且这次也顺利运行了起来。

速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

那么我们已经掌握了最基础的工作流搭建,以及理解了节点之间如何正确的连接与运行的。这种方法的好处在于我们知道了 1+1=2 以后就可以直接引用,而不需要你去深度理解和解释为什么 1+1=2,当然了你要是想知道 ComfyUI 的基础生成流程为什么要这样,你可以自己在网络上深度学习一下。

接着到第三趴,开始掌握不同的节点插件的用途与类型差异,并揭秘第一张杂乱工作流的概念与用途。

七、掌握核心节点或插件的使用

ComfyUI 的节点插件是相当多的,并且随着时间推移,还会越来越多,但不碍事儿,我们先从核心且高频的节点下手;

面对各种节点先聊聊应该在哪些流程阶段使用,就 ComfyUI 平台来说,可以洞察到每个节点都会用颜色将输入输出进行标记分类,拖拽输入输出端口后,还会浮窗显示关联条件的节点,这就意味一个节点你不熟悉时,添加到面板上并加上输入输出的节点,基本上你就能知道这个节点应该用到哪个阶段上了,如下图所示;

速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

通过上图可以看出这个“遮罩阈值”节点是在图像相关节点后进行工作的,并且相关的输出节点都是橙色、紫色输出作为结束,那么我们再参考基础的工作流节点,是不是很容易就发现“遮罩阈值”节点是用作“关键词”跟“K 采样器”之间的阶段呢。

速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

那么节点使用阶段的窍门说完,继续深入一下核心的节点有哪些、它们有何用途、常用于哪些场景?请看以下我整理的说明表;

1. ComfyUI 的基础核心节点

速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

2. ComfyUI 的图像控制与增强节点

速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

3. ComfyUI 的条件控制节点

速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

4. ComfyUI 的逻辑与流程控制节点

速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

5. ComfyUI 的特殊功能节点

速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

6. ComfyUI 的高频节点参数配置参考

速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

当然了,这只是部分核心节点的信息整理,如果大家对 ComfyUI 或这些节点有兴趣,可以去“ https://comfy.icu/node/ ”上了解更多,或者通过 ComfyUI 工具对节点的分类来了解,就像下图所示,这里不展开了。

速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

然后在 SD 生图的进阶使用中,ControlNet 是一个必学的进阶节点,同样也是一开始的工作流中出现过的节点,还有印象吗?那么这就来简单了解一番,为破解前面那张复杂工作流做准备。

速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

7. ControlNet 节点分类说明表

这些 ControlNet 模型可以帮助我们进行图像参考生成,但是对参考图是有条件要求的,通常这些模型要配套相关的条件预处理器一起用,例如将图像的黑白线稿提取出来,若你本身就是符合条件的黑白线稿图,使用相关模型时也可以不再使用预处理器。

速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

对这些 ControlNet 节点与用途效果想要深入了解朋友可以移步到此:GitHub - lllyasviel/ControlNet-v1-1-nightly: Nightly release of ControlNet 1.1

八、揭秘那张复杂的工作流截图

看到这里,你应该对 ComfyUI 基本的出图流程有了认识,知道了有哪些核心节点,不同节点之间应该如何连接使用,以及知道如何通过添加上下级节点来分析出在哪些阶段使用。
也许你的大脑已经过载了,但是无碍,如果接下来你在案例中看到了不熟悉的节点,你依旧可以翻阅前面的节点或插件介绍。

那么我们继续,重新回顾这个复杂的工作流,可以看出紫色部分是生图的基础节点,基础流程前后的黄色节点分别是一个 Lora 跟一套图像放大节点,在关键词跟 K 采样器之间则还有一套灰色的节点任务,让我们逐一拆解;

速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

Lora 节点采用的是一个可配合“Realistic Vison V5.1”写实类大模型的毛绒效果 Lora,用途就是产生更细腻的毛绒效果;

速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

图像放大节点实际上由三个子任务构成,核心节点是 图像通过模型放大 (ImageUpscaleWithModel),功能是通过分块处理的方式,逐步放大图像,同时处理内存不足的情况。

速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

图像通过模型放大节点需要由“放大模型加载器”来选定指定的放大模型,输出部分通过观察颜色是可以直接进行图像输出的,但是为了产生更高清的图像,输出添加了一个“缩放节点”,它会基于“空 Latent”中设定的尺寸*缩放节点的缩放系数 2,最终产生一个高清二倍图。

速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

接着就剩这团灰色的节点了,通过节点名称,我们可以抓取到关键词是“ControlNet”,可以观察到这团节点其实是通过“ControlNet 应用 (旧版高级)”节点实现与基础流程接轨的,根据节点输入输出的颜色标记,可以看出是在 CLIP 关键词与 K 采样器之间的阶段工作的,并且有两组“ControlNet 应用 (旧版高级)”节点串联在一起,那么我们一组一组的来揭秘下;

速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

经过拆解,单组“ControlNet 应用”的节点实际上由四个任务节点构成,主要是完成 ControlNet 模型选取与参考图加载处理,在前文 #掌握核心节点或插件/七/ControlNet 节点部分 介绍过所有 ControlNet 模型是有输出条件的,因此需要将上传的参考图预处理成匹配的输出条件,所以在“加载图像”节点后就多了这么一个“PidNet 模糊线预处理器”,并且这个图像预处理器是跟模型匹配的;

速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

可以看见加载的 ControlNet 模型是“control_v11p_sd15_softedge”,这表示为适应用 SD1.5 版本的 SoftEdge(软边缘),那么对应可用的图像预处理器则是“Pidinet”,可以提取图像柔和的边缘轮廓,而柔和的轮廓在图像生成时则可以赋予 AI 更多发挥空间,不至于边缘太生硬导致毛绒的效果不好;

速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

当我们解析完第一组 ControlNet 任务节点后,再来看第二组时,似乎就简单很多了,结构基本相似,模型采用了“control_v11fle_sd15_tile”,图像预处理器采用了“Tile 平铺预处理器”,这是一个分块采样器,可以在原有画面的基础上生成更好的细节或画面质量,用做提升毛绒效果的质感,因为这些预处理器输入输出都是图像,所以在输出端添加了一个“预览图像”,这样就可以方便我们看到预处理后的效果了。

速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

那么再次打开这个完整的 ComfyUI 工作流,你又能看懂多少了?又或是有了什么新的疑问?

速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

好啦,我来公布答案了!

「紫色域」其中有紫色标记的节点即基础工作流节点,用做基本的文生图;

CHECKPOINT 模型后挂载的黄色 Lora 模型用做生成特定的毛绒效果,结尾处黄色任务节点用做提升清晰度与图像大小;

「暗红域」+「绿色域」暗红色的是两组 ControlNet 任务节点,用做获取参考图特征,两组通过绿色的“加载图像”节点从用户设备本地获取同一个参考素材,第一组采用 SoftEdge(软边缘)获取参考对象的边缘线稿,第二组分块/模糊(tile/blur)任务节点则获取图像的特质;
最终这套工作流就可以实现毛绒效果的图标绘制了。

那么,有趣的是!

可以看见工作已经运行成功了,不过 ControlNet 应用节点上的“VAE”输入并没有添加,可以猜测是给特殊模型用的,不过你也可以为此添加上主模型的“VAE”,最终工作流还是可以运行的。

速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

看到这里,如何快速学习和掌握一款工作流平台的法子,我想你应该有思路了,那么再继续聊聊“编排与初步调试”与“能力扩展与调试”。

九、编排与初步调试

基本上就是拆解任务的最小工作流,并尝试将相关节点编排连接起来,对工作流运行的基础参数进行设置完善,使得这个工作流能够运行起来,之后则是根据运行的效果,对节点的参数进一步的调整,或替换其他效果的任务节点,概括一下就是像 OKRs 一样把大目标拆解成若干小任务或基础流程,先把基础工作流构建起来并运行起来,之后才开始考虑能力扩展优化等。

这个过程在前面的 #熟悉 ComfyUI 的基本流程 部分中也有体现,还有印象吗?

速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

十、能力扩展与测试

简单说就是根据目标完善工作流的能力,并经过测试验证,加强效果与稳定性,并且可以根据工作需要不断调整优化工作流的能力,当然了如果无法很好兼容新的诉求,那就建议新建一条;
还是以前面的案例为例,当我们的基础工作流跑起来后,就可以根据设计目标进行能力的扩展与测试,经过揭秘的工作流目标就是能够参考图标生成毛绒效果的图标,那么这个能力扩展与测试的过程如下;

速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

方法回顾

那么到此,一套如何上手掌握工作流平台的方法就说完了,这里我再帮大家整理和回顾一下,希望这些方法能够被大家理解和应用;

速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

如果你对主流的 AI 工作流或智能体平台不熟悉,那么你可用这套方法自己快速熟悉起来,如果你已经比较熟悉且有自己的学习上手方法,那么直接期待下篇吧。

篇幅问题,下篇上案例,开始构建我们的 Agent 牛马~

收藏 12
点赞 21

复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。