团队实战复盘!能让你立即上手的Lora模型训练指南

一、写在前面

众所周知,训练符合特定品牌风格的LORA模型存在很多的落地痛点:如高质量素材和标注门槛高、训练周期长,且风格迁移易失准、后期迭代适配成本高,但是我们也知道它具有显著的应用价值,因此,本次雪球LORA模型训练总结并非单纯的经验复盘,其价值更在于为大家提供 “可参考、可复用、可落地” 的行动指南。

更多雪球设计干货:

以往我们制作雪球资源位视觉图,需历经建模、渲染、后期三大环节,单图需投入1个人力1至2天的工作量。

团队实战复盘!能让你立即上手的Lora模型训练指南

现在基于AIGC技术训练雪球专属的资源位LORA模型,可在人力成本保持稳定的前提下,大幅提升资源位视觉素材的设计效率与产出速度,进而为业务端提供更及时、高效的支持。

二、探索过程

早在2023年,我们就尝试使用基于Stable Diffusion 1.5架构训练的LORA模型来制作雪球视觉图,旨在解决营销资源位视觉素材的快速生成问题。但受限于当时模型精度不足,生成内容存在较多瑕疵,且可控性较弱,该尝试最终未能持续推进。

团队实战复盘!能让你立即上手的Lora模型训练指南

团队实战复盘!能让你立即上手的Lora模型训练指南

随着F.1模型时代的到来,LibLib平台涌现出一批基于F.1底模训练的图标LORA模型。应用此类模型生成雪球资源位视觉素材时,其质量与可控性虽已实现质的提升,但仍存在显著局限:生成内容的AI痕迹较重,对雪球品牌属性的体现不足,图标化特征过于突出。

团队实战复盘!能让你立即上手的Lora模型训练指南

团队实战复盘!能让你立即上手的Lora模型训练指南

同期,我们亦尝试采用即梦/可灵的最新模型生成雪球资源位素材。尽管通过随机抽卡偶尔能得到质感较佳的作品,但整体而言,仍存在可控性不足、风格难以统一、雪球品牌特征体现薄弱等问题。

团队实战复盘!能让你立即上手的Lora模型训练指南

团队实战复盘!能让你立即上手的Lora模型训练指南

综合上述探索与实践经验的结果,同时伴随开户行情的逐步升温,构建一套雪球专属的视觉LORA模型已成为亟待推进的工作。这一模型的落地,将有效提升设计环节的响应效率与产出效能,为业务需求提供更有力的支撑。

现在,就让我们来一起训练LORA模型吧~

三、保姆级 LORA 训练教程

训练平台选用LibLib在线训练方案,其优势在于无需适配特定电脑配置及操作系统,仅需网络环境即可运行,同时便于后续多人协同使用模型。进入平台后,参数设置方面,新手可直接采用默认配置。对模型效果影响较大的核心参数,主要为打标算法的选择及阈值设定。

团队实战复盘!能让你立即上手的Lora模型训练指南

1. 训练素材准备

训练启动前需完成训练素材的预处理工作。为保障训练效果,所有素材需在尺寸规格与视觉风格上保持统一性与简约性。这里整理使用了雪球近2年产出的资源位素材。

团队实战复盘!能让你立即上手的Lora模型训练指南

由于后面准备使用F.1的底模来训练,所以推荐使用1024x1024的画布来准备素材,同时需要注意素材不要使用透明底的PNG图片。

团队实战复盘!能让你立即上手的Lora模型训练指南

2. 选择底模

训练素材准备完毕后,在左上角选择F.1模型(F.1_dev-fp8),然后上传所有图片。

团队实战复盘!能让你立即上手的Lora模型训练指南

3. 选择打标算法

图片上传完毕后,开始给所有素材进行打标,目前LibLib中主要有4个自动打标算法(仅触发词和无需标注皆为空白),这里顺便介绍一下每个打标算法的特点,方便大家以后根据自己需求选择不同的打标算法。

团队实战复盘!能让你立即上手的Lora模型训练指南

Blip

基于多模态混合编码器-解码器(MED)架构,包含图像编码器、文本编码器和解码器。图像编码器使用视觉Transformer,文本编码器采用BERT类似模型,通过自举方法提升模型在视觉-语言理解和生成任务上的性能。

生成的标签文字是比较连贯的自然语言,例如“1个女孩在草地上开心的跳舞”,适合用于图像存储库中基于描述的搜索场景。

主要用于图像描述生成、视觉问答、图像-文本检索等多模态任务,在处理大规模真实世界图像的语义理解和文本生成方面表现较好,但对一些复杂的图像识别精度较低,易遗漏细节特征,生成标签偏向整体描述。

团队实战复盘!能让你立即上手的Lora模型训练指南

Deepbooru

基于卷积神经网络的图像分类器,利用卷积神经网络提取图像特征,将其转换为可分类的向量,通过大规模训练数据集对模型进行训练,使用反向传播算法和梯度下降算法优化模型。

生成的是词组标签,如“1个女孩,草地,跳舞,大笑”,更适用于动漫风格图像的标注,常用于实际生成图像描述或标签。

团队实战复盘!能让你立即上手的Lora模型训练指南

LLaVA

它是一种多模态大模型,通常基于Transformer架构,结合视觉编码器和大语言模型,通过对大量图文对数据的训练,学习图像和文本之间的关联,但它主要不是用于打标,打标更多是其相关应用中的一个环节,常需结合其他工具或方法来实现较为准确的打标。

打标结果通常与多模态对话和理解相关,可根据图像内容和提问生成相应的描述性标签或回答,标签内容会更侧重于对图像语义的理解和基于理解的文本输出,可能涉及更复杂的场景和语义描述。

团队实战复盘!能让你立即上手的Lora模型训练指南

Joy2

具备较强的图像内容解析能力,能精准识别素材中的核心元素(如主体形态、色彩层次、构图结构等),反推结果包含更丰富的细节描述,对具有统一视觉风格的批量素材(如特定品牌调性的设计图)表现出更好的适应性,打标结果灵活性和准确性较高,但需注意,有时候它会把不需要的细节也描述出来(如印章上的字)。

团队实战复盘!能让你立即上手的Lora模型训练指南

根据以上打标算法的特性,Joy2的算法更加符合我们的LORA训练要求。另外,除了选择打标算法外,还有一个打标阈值需要注意:

团队实战复盘!能让你立即上手的Lora模型训练指南

简单来讲,阈值越高,精度越高,但是容易漏掉一些细节,阈值越低,包含的内容也会越多,但是干扰也会变多,容易生成一些瑕疵。

4. 关键词细调

与IP类LORA模型的训练不同,各KV关键描述词之间的差异性显著大于其共性特征。因此,在自动打标基础上,最好再通过手动修改的方式对关键词进行再修正或补充,以确保标签与目标特征的匹配精度。

团队实战复盘!能让你立即上手的Lora模型训练指南

调整完毕后,在左侧模型效果预览提示词处输入一些测试关键词,然后点击开始训练按钮,即可进行训练,耐心等待后,就可以拥有属于自己的LORA模型啦。

团队实战复盘!能让你立即上手的Lora模型训练指南

5. 错误案例

训练图片使用了透明底的PNG图片,会出现抠图不干净的情况

团队实战复盘!能让你立即上手的Lora模型训练指南

训练图片使用了很多不同风格的素材(如网图),训练图片并不是越多越好,有时候会带来相反的效果(干扰较多)

团队实战复盘!能让你立即上手的Lora模型训练指南

基于以前低算力的底模,如XL底模训练的LORA,虽然速度快,但识别性很差,瑕疵非常多

团队实战复盘!能让你立即上手的Lora模型训练指南

基于F.1极速版底模训练的LORA,速度比F.1快,但构图、美感、准确度均不如完整版F.1

团队实战复盘!能让你立即上手的Lora模型训练指南

6. 反复打磨

若对训练完成的LORA模型效果不满意,可回溯至前期步骤,通过参数调整与关键词优化进行多轮迭代。尽管这一过程需投入较多时间成本,但唯有通过持续打磨与反复调试,才能使模型质量逐步趋于稳定,最终达成更优效果。

团队实战复盘!能让你立即上手的Lora模型训练指南

使用新训练的LORA直出的图片:

团队实战复盘!能让你立即上手的Lora模型训练指南

四、使用方法

模型训练完毕并发布后,我们就可以通过LibLib首页上的在线生成入口,来生成新的图片了(此处仅以Web UI为例)

① 先在界面中输入关键词

团队实战复盘!能让你立即上手的Lora模型训练指南

② 在“模型”菜单里,选择之前发布的LORA模型

团队实战复盘!能让你立即上手的Lora模型训练指南

③ 之后再点击生图返回之前界面,打开高清分辨率修复,并选择图片数量即可点击“开始生图”按钮进行生图

④ 生成结果对比

团队实战复盘!能让你立即上手的Lora模型训练指南

高清修复2048x2048状态下,一次生成4张图,约等待8分钟

团队实战复盘!能让你立即上手的Lora模型训练指南

不打开高清修复(默认1024x1024),一次生成4张图,约等待3分钟,但复杂场景的图片容易出现模型瑕疵。

五、业务应用

1. 沉淀组件库

LORA生成的视觉图,在风格与材质表现上,和之前建模的形式相比,没有明显的差距,甚至质感上会更强,只需后期微调即可完成快速上线,在形成组件库之后能够快速应用至其它项目中。

团队实战复盘!能让你立即上手的Lora模型训练指南

2.资源位应用

借助LORA模型生成组件库中的视觉素材,无需依赖设计师即可快速部署至站内资源位,同时能够保障图片质量的稳定性。

团队实战复盘!能让你立即上手的Lora模型训练指南

3.H5应用

通过LORA模型的加持,也可以在一天内完成1套H5(以前需2天完成一套H5),效率提升200%

团队实战复盘!能让你立即上手的Lora模型训练指南

最后

综上,LORA模型的训练过程并非高难度操作,核心需关注以下三点:

  1. 素材库是核心基础:素材的收集环节必须严格把控质量与清晰度,这是从源头保障LORA训练效果的关键前提。
  2. 参数设置需理性适配:不应迷信或盲目照搬他人参数(包括本文提及的数据),因素材库特性、训练目标存在差异,需结合自身场景灵活调整,他人经验仅作参考。
  3. 迭代测试是进阶路径:新手可先以成功训练出基础LORA为目标建立信心,再逐步尝试专业版功能,深入理解各参数含义,探索具象类与泛化类模型训练的差异,通过持续试错来收获超预期的效果。

而更本质的逻辑在于:需精准定位自身工作中的痛点,并借助AIGC技术的赋能,实现问题的高效解决

——这才是技术应用的核心价值所在。

欢迎关注作者的微信公众号:「雪球设计中心XDC」

团队实战复盘!能让你立即上手的Lora模型训练指南

团队实战复盘!能让你立即上手的Lora模型训练指南

收藏 24
点赞 42

复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。