AI绘画是如何发展至今的？浅聊AI绘画发展史

2023/04/16 推荐： 设计史太浓阅读 2.2w 评论有奖阅读本文需 11 分钟

AI绘画是如何发展至今的？浅聊AI绘画发展史

关于 AI 绘画，过去已经谈过一次。

相关观点至今没变，属于生产工具升级，生产关系暂时不变。这里头有外行看热闹，内行看门道，新手两边看的情况。当然，还有无数好事者的呐喊助威，各怀心思。Ai 绘画目前更像一个人工智能玩具、素材制作、灵感参考、绘画新工具的存在。我们要敬畏它，学习它，运用它，但不要过分焦虑。

这里头有两个重要问题有待解决，其一是版权。如果 AI 生成图像跟成名艺术家过于相像，容易形成抄袭一类维权纠纷。这里头容易埋坑，就是一但立法跟上，可能会对过去应用进行责任追讨，律师事务所自然喜闻乐见，摩拳擦掌。其二是如果不用以图生图方式，其实主流的两大 AI 工具 MidJourney 与 Stable Diffusion 都有较明显的风格化问题，容易一眼看穿出身，形成我们设计圈常说的素材感很强，模板感很强的感受。比如我看目前朋友圈的大量分享确实一眼就知道 AI 出品，有时候两眼。

看多了，新鲜感就会消退，而且就实际商业应用而言，受不受欢迎不好说。免费做应该还行，甲方如果付费了应该并不希望你用 AI 弄一套东西给他。

但 AI 进步实在太快，以上说法也许很快不能作数，因此文章有效期 7 天。今天的话题并非要进一步评价 AI 绘画，而是跟大家讲述它的发展史。从历史角度，还原一下妖怪的诞生。

AI绘画教程：

超详细！AI 绘画神器 Stable Diffusion 基础教程

一、AI 绘画工具的选择与运用 1. 工作场景下 AI 绘画工具的选择目前文生图的主流 AI 绘画平台主要有三种：Midjourney、Stable Diffusion、DALL·E。

阅读文章 >

超详细！AI 绘画神器 Midjourney 基础使用手册

一、前提条件需要魔法：新用户可免费创作 25 张图片，超过需要办会员版权问题：会员生成的图片版权归创作者所有 Midjourney相关资讯：二、注册/链接服务器温馨提示：下方多图预警 1. 注册、创建服务器 ① 打开Midjourney官网，右下角选择"J

阅读文章 >

故事，要从 70 年代说起。

一、伪人工智能

这段历史，几乎每个人都会从一位英国艺术家说起，此人名为科恩（Harold Cohen）。

生于 1928 年的科恩在 2016 年去世，一生致力于研究如何采用计算机程序创作艺术。

科恩早年就学艺术，随后再学编程，文理兼修，打通任督二脉，也就是艺术与科技的屏障。

因此，1972 年在他手上诞生了“亚伦”（AARON）程序。

这个程序被视为 AI 绘画始祖，个人认为相对牵强。

当然我所谓的牵强要看怎么定义“AI 绘画”，就目前 AI 绘画的形态来看，“亚伦”更像打印机。

因为“亚伦”创作的真的是画，画在纸上那种（或者画布）。由于“亚伦”至今不开源，而且科恩已经去世，其作画原理细节目前是个迷。

但按理解，就是通过编写好的程序指导机械化操作，跟如今工厂的机械臂差不多。

Mac 电脑首次集成可以处理图像及文字的软件，绘画由此真正进入可视化的电脑时代。世界上第一款图文设计软件也由苹果公司开发，随着 Mac 电脑一起发布，名为“MacPAInt”，（“麦克油漆”）。当年的产品发布会上乔布斯还为大家现场展示过这款软件绘制的浮世绘图像，创作者是美国女平面设计师苏珊·卡雷（Susan Kare）

这其实也可属于 AI 绘画历史的一部分，就是生产工具的升级。当时而言，对绘画界的震慑威力也不小，大家也很恐慌，很焦虑。传统画家都说糟糕了，老子要失业。再然后，默默学习，默默适应，默默发展，默默变成自然。

历史就是这么有趣。

二、闷声干大事

Mac 之后，科技分别在计算机+互联网领域奔跑。那时候，我们对科技进步感知其实还不够明显。

但从乔布斯 2007 年推出 iPhone 手机后大家就明显感觉科技发展“提速”了，此后惊喜不断，高潮迭起，一环扣一环，大家应接不暇。其中，就有不少人在默默耕耘人工智能。

于是乎，重要的拐点发生在 2012 年。

这一年谷歌两位 AI 大神带领团队做了个试验，耗资 100 万美元，1000 台电脑，16000 个 CPU，用时 3 天，基于 Youtube 平台 1000 万个猫脸图片，用深度学习模型程序生成了一个模糊的猫脸。两位大神分别是华裔人工智能科学家吴恩达跟美国计算机科学家杰夫·迪恩（Jeff Dean）。试验中生成的猫脸像被揍过一样，如果不说明，一眼还不容易看出来，但它的诞生注定要写进历史。

因为这其实才是 AI 绘画真正意义上的起点。

这里要用通俗的概念科普下，什么是“深度学习模型”。简单说来就是需要向这个“模型”大量“投喂”外部标注好的训练数据，然后让它根据输入的预期效果进行反复调整与匹配进行输出。这样说吧，蒸汽机刚发明的时候，按燃料热值产出效率才 3%，“深度学习模型”的产生效率可能只有它的百万分之一，所以超贵。

但不管如何，猫脸的诞生让大家备受鼓励，各路人工智能领域大神开始一路狂飙，闷声干大事。很快时间就去到 2014 年，加拿大蒙特利尔大学有个爷们提出了“生成对抗网络”算法进行 AI 绘画，简称“GAN”。

GAN 的原理是它拥有两个深度神经网络模型，一个叫生成器（Generator）一个叫判别器（Discriminator）。

为了方便理解，可以做个比喻，生成器就像乙方，负责做图，判别器就像甲方，负责说不行。每次乙方做完一张图出来甲方就说不行，要改，乙方改完出来甲方还说不行，继续改。如此循环上万次（很短时间内发生），直到双方筋疲力尽，甲方决定妥协，乙方也准备不要尾款算了，然后就输出一个最终结果。坦白说，GAN 的输出效果已经让人惊艳，一度成为 AI 绘画的主流方向。但缺点是非常费硬件（显卡），出图过程经常直接黑屏，而且它对局部图像的理解能力差，很难局部修改，图片分辨率也较低。

到了 2015 年，谷歌推出过一个叫“深梦”（Deep Dream）的图像生成工具，这些画作全部都像有一堆疙瘩，生成痕迹明显。但也打出 AI 绘画旗号，而且还专门办了个展，其实比较出戏，这里不多聊。

同在这一年，一种重要的人工智能技术也诞生，就是“智能图像识别”。

意思是计算机可以运用语言去描述一张图片，就像父母拿着卡片问 2 岁宝宝这啥，宝宝会答：大象。

这个技术当然更先进些，比如你给一张高启强的图片它识别，它会给出一系列标签，比如：男性、黄种人、中年、老大之类。

这跟 AI 绘画有什么关系呢？

就是有研究人员开始根据技术反过来想，如果给它文字标签描述，是否也可以生成图片呢？结果模型真的能根据文字生成一堆小图片，如此一来，这个逻辑成为 AI 绘画的新研究方向。

AI绘画是如何发展至今的？浅聊AI绘画发展史

三、潘多拉魔盒

2015 年之后其实还有很多这方面不同的尝试与研究，但普遍属于上述技术的不同优化。

真正让 AI 迎来质的飞跃是在 2021 年，网红人工智能公司 OpenAI 推出了 AI 绘画产品 DALL· E。

这个版本的出图水平还很一般，但已经完全是根据文字提示来进行作画了。

2022 年，DALL·E-2 版本推出，水平大幅提升，AI 绘画就是这个阶段开始获得广泛关注的。而且更关键的是 OpenAI 公司开源了 DALL· E 的深度学习模型 CLIP（Contrastive Language-Image Pre-TrAIning)。

CLIP 模型训练 AI 同时做两件事情，其一是理解自然语言，其二是视觉分析，然后通过不停训练来优化两者对应程度，比如将马桶跟马桶图像完全对应上，如果马桶对了茅坑就得再来，最后形成“咒语绘画”这样的局面。

问题来了，过去的 AI 绘画模型其实也有干这件事情，为什么 CLIP 如此优秀？明显，就是 CLIP 做训练的量远远超过过去任何模型，据说大致是 40 亿个以上的“文本-图像”数据，而且跟过去其它模型不同的是这些数据是免费的，并非人力成本天价的标注图像，因为鸡贼的 CLIP 采用的居然是广泛散布在互联网上的各种图片，这些互联网图片一般都带有各种文本描述，比如标题、注释，甚至标签等等，这些天然资源就是最佳的训练样本，果然是思路一变，市场一片，随后就很快出现不少超级厉害的应用工具。

比如 2022 年 2 月，SomnAI 等几个开源社区做了一款 AI 绘图生成器——Disco diffusion，2022 年 3 月份，由 Disco diffusion 的核心人员参与建设的 AI 生成器 Midjouney 也正式发布，Disco diffusion 跟 Midjouney 问世后都在不停进步。

2022 年 8 月时候，美国游戏设计师杰森（Jason Allen）就凭借一幅 AI 绘画作品《太空歌剧院》（Théâtre D'opéra Spatial），斩获美国科罗拉多州博览会美术竞赛一等奖。

当杰森公布这是一张由 Midjouney 创作的 AI 绘画作品时，引发了大部分参赛者的愤怒，也引发新一轮针对人工智能技术的讨论。再随后就到了 2023 年，相关发生的事情大家历历在目，此处不必重复。