
AI 尺寸智能延展,简单来说,就是借助人工智能技术,对图像视觉内容的尺寸进行灵活扩展或调整,同时保持内容的质量、清晰度以及视觉效果不受损害,甚至实现画质提升的一种先进技术。
在AI高速发展的今天,在业务上为解决新车商业专题外层素材多而杂,需要人工逐张做适配的痛点,在之前传统的基础上我们做了大量的思考,让商业内容如何更好结合AI工具去提高效率,正是在这样的背景下,尝试定向化建立了kontext lora模型+工作流,打造适用于业务的工作流方式。为解决上述难题带来了新的曙光。
更多案例:
1. 分析需求
品牌给到的主视觉KV排版方式相对固定,布局方式有规律可循,例如:垂直转水平/水平转垂直/水平转水平/垂直转垂直等。我们在规律中寻找破局方法。
2. 实现方式
工具:
libulibu线上实现方式:锁定特定场景要求的lora模型训练— kontext工作流。让lora学会某种底模不会或不够精准的特定能力,并为其设定一个启动的提示词开关,制作为我们需要的kontext lora模型和工作流。
3. 设计过程
1. Kontext Lora模型训练
kontext优势:速度快、简单高效、支持文字修改排版、布局,图形编辑能力。
lora:是一种体量较小的微调模型,串联在模型管道中间使用(例如加载器和采样器之间),从而实现特定功能,增强大模型能力。
kontext lora模型训练方式:以组为单位(输入图像+输出图像),通过多组图片和文本文件(打标提示词),让模型多次琢磨每组图片的规律来形成特定能力(例如换脸、换装、换风格、换角度排版等),我们需要排版的能力正好可以满足。
2. 素材收集打标-训练-测试
素材收集+打标
思路:提示词+原图+结果图(原图和结果图形成一个图像编辑规律,转换的过程,所有图片的变化规律必须是相同的)
我们在这里准备了27/60组混比例的日常工作用图进行测试(越多越好,不超过100组)、前图是_R后缀,_T后缀

消耗算力与训练步数有关
27组-6646点算力(2000步)-预计1-2个小时训练完成60组-29907点算力(9000步/150步每组)-预计3-5小时训练完成1000个算力约可生图1000张,或训练5次。按照生图默认参数、或训练基础参数预估(即训练图片张数20张*单张训练次数15*训练轮数10)
打标技巧
打标核心:设定一个触发词&句(一般是功能性提示词),详细的描述图片的内容(注意是输出图),打标要用英文。
根据我们之前锁定的规律,将关键词设定为:将水平布局转为垂直布局/将垂直布局转为水平布局/保持垂直布局不变/保持水平布局不变。其他可根据关键词情况进行补充/删减调整。
eg:将水平布局转为垂直布局,移除文本,保持元素不变,不出现拉伸。



训练发布:
公开/非公开(60组/27组)

lora测试工作流
模型强度参考:0.7~1.2,步数:20~42
基础算法:Kontext
搭配:F.1 Kontext dev_fp8
功能描述:多尺寸适配
关键词参考:将垂直布局转换为水平布局,缩放主题,删除文本,保持其他元素不变。
- 利用自己炼制的Kontext尺寸适配模型+工作流提升业务素材产出效率
- 商配项目中已经10%素材经过AI处理提交
- 20%经过AI赋能约节省0.5-1个工作日
- 实现等比素材批量处理+车型亮点素材批量处理
案例:比亚迪系列商配效果
10款车型X10个页面链接,10张头图KV+1:1导读图
参数设置:
- 模型强度:0.7,步数:42,降噪:1
- 模型使用:60组/27组尺寸拓展模型
AI帮我快速处理图片尺寸和文案消除,方便统一进行二次调整,节省了部分重复修图的时间。
1:1导读图
落地页导出分享的等比素材图(要求不高,可批量产出)
关键词:
Keep the vertical layout unchanged, Shorten the spacing between elements. Optimize element layout, improve space compactness, Delete text, Keep the elements unchanged. 保持垂直布局不变,缩短元素之间的间距。 优化元素布局,提高空间紧凑性, 删除文本,保持元素不变。
(其他根据出图情况进行调整)


批量生成10张素材交付

落地页外链网站+文章配图素材展示
AI帮我快速处理图片尺寸和文案消除,方便统一进行二次调整,节省了部分重复修图的时间。



AI尺寸智能延展技术的试验显著提升了部分工作内容的效率。尽管目前该技术在技术层面和应用层面还面临着一些挑战与限制,如对低质量图像的处理效果欠佳、模型和训练数据质量的影响、以及应用的专业门槛等。
但随着人工智能技术的不断进步与创新,这些问题有望在未来得到有效解决。未来AI 尺寸智能延展技术将在技术突破和应用拓展方面实现更大的飞跃。在技术上,通过模型优化和数据处理能力的提升,它将能够应对更加复杂和多样化的图像与视频处理需求,生成更加逼真自然、高质量的延展内容;创造出更多令人惊叹的应用场景和商业价值。
免责声明:文章中涉及的设计素材和品牌来源均为业务合作。
欢迎关注「58UXD」的微信公众号:

复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。




发评论!每天赢奖品
点击 登录 后,在评论区留言,系统会随机派送奖品
2012年成立至今,是国内备受欢迎的设计师平台,提供奖品赞助 联系我们
用户体验设计核心问答
已累计诞生 759 位幸运星
发表评论 为下方 3 条评论点赞,解锁好运彩蛋
↓ 下方为您推荐了一些精彩有趣的文章热评 ↓