

最近几天,关于OpenAI更新的最新生图模型GPT-Image-2,各种自媒体又high起来了,标题一个比一个夸张,包括在我的各个设计师群里面,也都是担忧的更多,就感觉设计师又又又又要完蛋了。
我忍不住回了几句,别慌,不要听那些自媒体瞎分析,设计师每天都在被完蛋......

往前翻几个月的群聊,类似的标题类似的焦虑,每隔一段时间就来一轮,大家说是不是?
说真的,自从AI画图有了之后,设计师可能是全行业里最惨的一群人。每隔两三个月就有一个新模型发布,每次都是同样的剧本,自媒体疯狂吹,老板刷到几篇营销号的文章就觉得AI无所不能,转头跑来问你这个用AI做是不是5分钟就能搞定?你解释半天他也不听,因为他看的那篇10万+写得比你说得好听多了。
我在群里还看到有更过分的是,有些老板还会把自媒体的demo图截给设计师看,问他为什么做得不如这个好看。他心里想说那个是AI出的飞机稿,没有任何落地约束,你让我按公司品牌规范做出一模一样的我做不到,但又不好这么直接说。
就这种环境,你说设计师能不焦虑吗?但其实,真正在一线做事的设计师都非常清楚AI到底能落多少,老板们还是想多了。
有人就问我测了GPT的最新生图模型没有,我看群友们都非常激动,大半夜的不睡觉,就也打开电脑试用了下,第一感受确实也是蛮好用的,可控性确实更好了。

然后冷静下来想想这个问题,作为一个最早就开始写AI教程的资深设计师而言,一路看着AI更新到现在,实际上我现在已经没有感到什么冲击了,对实际项目的影响没有想象的那么大,也就仅此而已。

之前类似这种新模型刚出来我写过好几篇,Google Stitch、Claude Design、Midjourney的每一个大版本我基本都跟过,结论基本都是一个路数,demo炸得不行,一到真实项目里就拉胯。这次GPT-Image-2我用了几天之后,感觉它确实又往前走了一步,无非是可控性方面比之前更进了一些。真正落地到项目里,除了纯画图的工作确实很危险外,其他部分暂时还差得远。
群友也在催更,那今天就展开来说一下,为什么我这么看?

先给没关注过的朋友简单说下背景。GPT-Image-2是OpenAI 4月21日发的新一代图像模型,直接在ChatGPT里就能用。打开ChatGPT聊天窗口,直接说你的画图需求默认就是用它了,免费版也都能用。

看我上面输入的提示词,就直接出了一张这样的图,有点意思。

它在Image Arena三个榜单上全部第一,文生图那项领先第二名242分,这个榜单以前从来没出过超过100分的断层。从这个层面看,确实还是挺强的一次更新。

https://x.com/arena/status/2046670703311884548
用了几天,给我的感觉,这次最大的变化在三块。
一个是文字终于能写对了。中日韩阿拉伯文都能渲染,准确率99%。以前你让AI做个招聘海报,图可能还行,字根本没法看。这次这个门槛是真的被跨过去了,比大家常用的即梦和香蕉啥的要好用。
另一个是对这个世界的理解能力强了很多。比如你让它画小红书的笔记截图,它能把小红书那种特有的素人感、排版逻辑、tab栏位置都还原出来,是真的像。
还有一个是叙事密度。这次最直观的感受是,AI不再是在拼像素了,它开始理解排版里的层级关系和呼吸感,能把很密集的信息梳理得像一个专业设计师排的版。一张图里同时塞进去一堆中文描述,出来的东西信息量巨大但看着不乱。这种信息密度+美感+准确性的三角组合,以前只有比较不错的视觉设计师能做到。
另外加了个Thinking模式,生图前会先推理,所以对输入内容的理解会更好。最高支持 4K 级输出,最长边可到 3840px。
参数这些网上到处都是了我就不多重复。说说真正对设计师有用的部分。
这次更新有一个很容易被忽略的亮点,就是它对prompt的理解能力强了很多。以前写提示词像写咒语,少一个词效果就差一大截,要反复抽卡碰运气。现在很多时候一两句大白话就能出很好的结果。有人说这次GPT-Image-2标志着抽卡式生成时代的终结,我觉得虽然说得有点夸张,但方向是对的。以前是你求着AI理解你,现在是AI在努力听懂你在说什么。
如果你想要更精准的产出,把关键信息讲清楚还是有必要的。我也试了一下我感觉可能会比较实用的7个案例,可以参考我写的,效果至少还比较能符合我的预期。
第一个,随手拍产品生成电商详情页。
这个是我觉得对实际工作帮助最大的场景之一。比如我拿手机随便拍了一张我平时用的这个耳机传上去,

跟它说基于这张产品照片生成一张电商详情页长图,白底柔光,三个卖点分区每个配场景图和一句中文卖点文案,底部规格参数表格,高级简约风。

出来的东西白底、柔光、阴影处理都很像一个靠谱修图师干的活,以前这种图设计师至少搞两三天,拍照修图排版写文案一条龙。

第二个,做展示图。
做UI 效果图展示以前是比较麻烦的事,早几年大家经常能看到我在公众号上给大家分享展示模版,现在应该也不需要了。
你跟它说生成一张小红书笔记截图,博主昵称彩云,笔记标题打工人的9.9元续命神器,正文150字讲便利店咖啡体验,配图是咖啡杯放在办公桌上,底部显示3条评论,严格按照小红书最新版UI。

出来的tab栏、点赞数、收藏按钮全都到位,但可惜的是,界面不是最新的。

所以,我又从小红书上截了一张图,给它做参考。

小红书最新界面

这样改了后,UI也都成了最新的,效果直接跟我的截图就几乎没啥太多区别了。

以前这种截图还得专门去找模版来套,现在1分钟搞定。
第三个,做海报。
这个场景以前AI是很难做到很好的,因为要中文文字。
你跟它说竖版海报,新中式茶饮品牌,新品叫彩云甘柚,深绿配色融入宣纸纹理和留白,主体是一杯有冰块和柑橘的冷泡茶,文案一口清醒,半城入夏,价格中杯16元,排版要高级克制不要传单感。

第一版这个样子,虽然看起来还行,但我觉得还差点意思。所以,又让它改了下

再次输出的时候就好了一些了。

你再稍微修一下真的能直接发。
第四个,品牌视觉全家桶展示。
为手冲咖啡品牌彩云生成VI展示图,包括logo、名片、纸杯、咖啡豆袋、帆布袋,统一摆放在木质桌面俯拍展示,Logo是极简山形线条配英文Caiyun Coffee,主色墨绿+米白,日系极简风。

看它出来的图还不错,但这种实际工作中,你大概率是要传一张你产品logo参考图给它的。

这种落地也是很实用的,确实能省不少事。
第五个,情绪板找图。
这个可能是对我日常工作帮助最直接的一个场景。以前做设计提案,找情绪版的图要花大量时间去Pinterest翻、去Dribbble搜,还不一定找到完全贴合的。
现在你直接把想要的关键词丢给它,比如我们经常需要的UI风格关键词是极简,轻盈。那我们就可以跟它说,我在做UI视觉设计风格情绪版,需要用一个画面体现极简和轻盈,输出一张图给我,画面上不要有任何文字信息,比例16:9

出来的图已经挺精准的了。

做汇报、做作品集、做方向讨论,省下来的时间太多了。
第六个,传一张参考图让它学风格出新图。
这个可能又是对日常工作帮助最直接的用法之一。比如我这里找了一张苹果发布会的图,然后想让它用我的公众号Logo生成一张差不多的海报。

我是这样弄的,把我的Logo跟苹果的参考图传上来,然后跟它说参考apple event发布会海报,把我的logo设计成苹果这种风格海报。

这是一键直出的图,看起来真的还行。

以前设计师做这种参考xx风格出一套新的活儿,至少得半天。现在传一张图说两句话就行。
第七个,做UI界面。
SaaS后台数据看板截图,左侧导航栏六个菜单项,顶部面包屑和搜索框,主内容区三个数据卡片加折线图加饼图,Ant Design风格,主色蓝色。同时为了提高它的准确性,也可以垫1张参考给它,效果会更好。

出来的排版配色信息密度都对,效果还行,甚至包括界面上的小字也都是OK的。

把它生成的UI(你会发现GPT的审美目前是比Claude要好一些的),再结合我上一篇文章中的Claude design,就可以得到一个还不错的设计稿了。
这些案例看完,你大概能感觉到它在出图这件事上确实又强了一大截。那接下来聊聊最关键的问题。
能落地的场景我大概想了下。运营类物料基本都搞定了,banner、海报、KV、配图、详情页、招聘海报这些。情绪版找图效率会高到离谱。UI效果展示图可以跳过以前的套模版。早期方案探索五分钟出十个候选给老板挑。科普长图和知识卡片,信息密度+美感都够。电商产品图随手拍就能变商用级。
做不到的事,这部分可能才是大家真正应该关心的。
精确数据类图表,官方自己建议使用前人工核查。数字、百分比、趋势箭头方向都不保证正确。严格品牌规范还原还做不到,它能模仿大致风格但精确到规范级别的控制给不了。精细迭代修改方面,大改可以,小改费劲,你让它移个2px它可能整张图重画。还有就是亚洲人脸多图一致性不太稳定。
把能做不能做放一起,会发现一个很有意思的事。
AI擅长的,全是画图这一步的事。AI不擅长的,全是规则、系统、精确、可编辑这些事。
但我们设计师日常工作里,画图其实从来都不是最重要的那部分。
这个说法可能很多不是设计师的人不理解。他们以为设计师就是画图的,就像以前很多人以为程序员就是打字的一样。但实际上,日常工作里画图占的比例远比外人想象的要低。真正占时间的是对接人,跟产品聊需求、跟业务对齐目标、跟老板讨论方向、跟开发沟通落地、跟用研做访谈,以及自己脑子里反复推演策略和信息结构。
画图只是最后把想清楚的东西落到视觉上的那一步。
而且越资深的设计师,画图在工作中的占比越低。一个刚入行的视觉设计师可能80%的时间在画图,但一个资深设计师可能只有20%的时间在画图,剩下的时间在想为什么要画这张图、画给谁看、要解决什么问题。这也是为什么,越资深的设计师看到GPT-Image-2越平静,越初级的设计师看到它可能就越焦虑。因为在工作中画图占比越高,被替代的比例就越高。
所以GPT-Image-2这次更新,说到底做了什么事呢?
它把工具实现能力又往前推进了一步,但它依然只是工具在发挥得更好而已,就像再精确也不如我们自己在figma里手动挪像素去改。距离真正的设计师价值,还有很远的距离。
画图变便宜了,但想清楚要画什么这件事没有变便宜。
就像很多设计师被叫美工会不开心一样,美工没什么不好,只是这个岗位本来就建立在纯画图之上,AI能画图之后它第一个被冲击。插画师、纯粹的平面设计师,短期内都会比较难。但做产品UI体系、做设计系统、做交互框架、做品牌策略的设计师,短期内替代不了。
说到这儿,我们可能也会注意到一个反直觉的事。
AI出来以后大家的工作量不但没减少,反而更忙了。因为AI把单位产出的成本打下来之后,期待值也跟着水涨船高了。以前一个banner要一天,老板让你做三个方向就顶天了。现在AI半小时出十个方向,老板的潜台词就变成了那我为什么不让你一天出一百个?
每一次效率工具的出现,最终都会把标准线拉高,而不是让人变轻松。
所以AI时代最值钱的其实一直是我在跟大家反复说的判断力和目标感。
有一天,我跟AI一起干了一天活,产出了一堆东西,效率高到离谱。但干完之后有那么一瞬间我盯着屏幕愣了一下,脑子里冒出一个问题,那我这个人在中间的价值到底是什么?琢磨了一会儿我发现,跟AI合作的过程不是把问题扔过去它把答案甩回来这么简单。中间我一直在帮它判断、调方向、做收敛。最后那个产出虽然是它画的,但每一次调整,每一次筛选,都是我在推。这部分东西没有在最终结果里,但它在过程中真实的出现过,就像上面我给大家看的案例一样,也需要给它判断跟调优。
品味是用眼睛和时间喂出来的,AI目前替代不了这个积累过程。
说回GPT-Image-2。
回顾AI画图这几年,它其实一直在解决同一件事,可控性。最开始Midjourney刚出来你写什么它画什么全靠缘分,抽卡抽到天亮可能还没抽到想要的。我当年出了一堆写prompt、垫图、用ControlNet的教程,说到底都是在帮它变得可控。但现在,真正的可控性还是不如figma。

GPT-Image-2这次的升级,核心贡献也是可控性。文字能写对是一种可控,对世界的理解对了是一种可控,叙事密度够了是一种可控。它把这条线往前推了一大段。
但这条线还没走到底。可能过几个月半年再看这类工具,能做到三到五年中级设计师的水准。可控性一旦解决,审美跟上来只是时间问题,你回想一下Midjourney v1的效果再看看现在就知道了。到那时候设计师得同步提升自己,特别是判断力和系统化思考的能力。因为那些可能才是AI最后一个够到的东西。
三年前MJ刚出来的时候,群里的讨论跟今天一模一样,都在喊设计师要失业了。三年过去了,失业的不是设计师,是那些把自己定义成画图师的设计师。
AI每一次大的升级,淘汰的不是一个行业,是一个行业里最薄的那一层。
GPT-Image-2让画图这件事变得更便宜了。但没让想清楚要画什么这件事变便宜。
工具永远在进化,但拿着工具的那个人的脑子,才是真正值钱的东西。
共勉。
欢迎关注作者的微信公众号:「彩云译设计」

复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。




发评论!每天赢奖品
点击 登录 后,在评论区留言,系统会随机派送奖品
2012年成立至今,是国内备受欢迎的设计师平台,提供奖品赞助 联系我们
UI设计精品必修课
已累计诞生 791 位幸运星
发表评论 为下方 1 条评论点赞,解锁好运彩蛋
↓ 下方为您推荐了一些精彩有趣的文章热评 ↓