您现在的位置是：首页 > 人工智能AI > 正文

人工智能AI

卫卫：开启AI绘画新视界

1987web2023-08-17人工智能AI311

这是颜值巅峰团队第 798 篇推送

通过前段时间顺溜和格格的分享，大家对AI绘画产生了浓厚的兴趣，很多小伙伴玩得不亦乐乎，朋友圈各种AI素材层出不穷。

先给大家欣赏几张用Stable diffusion绘制出来的图片：

⽬前⽂⽣图的主流 AI 绘画平台主要有三种：Midjourney、Stable Diffusion、DALL·E。

如果要在实际⼯作场景中应⽤，我更推荐 Stable Diffffusion。

▌Midjourney AI绘画工具

Midjourney是一款2022年3月面世的AI绘画工具，创始人是David Holz。只要关键字，就能透过AI算法生成相对应的图片，只需要不到一分钟。

可以选择不同画家的艺术风格，例如安迪华荷、达芬奇、达利和毕加索等，还能识别特定镜头或摄影术语。Midjourney是第一个快速生成AI制图并开放予大众申请使用的平台。

Midjourney生成的作品往往带有电脑生成的痕迹，比较不会被当成假新闻素材，但对色情、血腥、暴力创作题材的审核还不够精准。

例如，输入一棵长着立方体形桃子的大树，就会生成四张不同图像供选择。

由美国一家工作室开发的Midjourney于2022年3月首次亮相，在8月迭代至V3版本并开始引发一定的关注，而2023年更新的V5版本让Midjourney及其作品成功出圈，代表作是中国情侣图片。

2023年4月，入选《福布斯2023年AI 50榜单：最有前途的人工智能公司》

▌Dall-E

美国图像生成系统。美国人工智能非营利组织OpenAI于2021年1月份推出Dall—E，这是一个可以根据书面文字生成图像的人工智能系统，该名称来源于著名画家达利（Dalí）和机器人总动员（Wall-E）。该系统可以根据简单的描述创建极其逼真和清晰的图像，精通各种艺术风格，包括插画和风景等。它还可以生成文字来制作建筑物上的标志，并分别制作同一场景的草图和全彩图像。

2021年4月，入选由技术领域全球知名大学组成的Netexplo大学网络历时一年，在全球范围内遴选出的10项极具突破性的数字创新技术。

▌Stability AI

开源 Stable Diffusion，基于文本生成图像的 AI 模型。

Stability AI 宣布发布 Stable Diffusion，Stability AI 成立于 2020 年，旨在培育开源 AI 研究社区。此次开源的 Stable Diffusion 是 Stability AI、RunwayML、LMU Munich、EleutherAI 和 LAION 等知名 AI 实验室的研究人员合作的结果。

Stable Diffusion 是一个类似 DALL-E 2 的系统，可以从文本描述生成对应的图像。目前相关代码和经过训练的模型都在 GitHub 上开源，还有一个带有 Web 界面的托管版本可供用户测试。

Stable Diffusion 在 LAION-5B 数据库子集的 512x512 图像上训练潜在扩散模型，并使用 CLIP ViT-L/14 文本编码器来根据文本提示调整训练模型。凭借其 860M UNet 和 123M 文本编码器，该模型相对轻量级，但硬件方面最低也要 10GB VRAM 的 GPU。

与 DALL-E 2 不同，Stable Diffusion 的限制更宽松，它可以生成 DALL-E 2 中禁止的名人图像和其他敏感主题的图像。当然，Midjourney 或 Pixelz.ai 等其他 AI 系统也可以做到这一点，但它们无法达到 Stable Diffusion 中的高度多样性。此外，其他系统都不是开源的。

通过对⽐，Stable Diffffusion 在数据安全性（可本地部署）、可扩展性（成熟插件多）、⻛格丰富度（众多模型可供下载，也可以训练⾃有⻛格模型）、费⽤版权（开源免费、可商⽤）等⽅⾯更适合我们的⼯作场景。

那么如何在实际⼯作中应⽤ Stable Diffusion 进⾏ AI 绘画？

要在实际⼯作中应⽤ AI 绘画，需要解决两个关键问题，分别是：图像的精准控制和图像的⻛格控制。

1、图像精准控制

Stable Diffusion 可以通过很多插件来实现，在这里推荐使⽤ Stable Diffffusion 的 ControlNet 插件。

在 ControlNet 出现之前，AI 绘画更像开盲盒，在图像⽣成前，你永远都不知道它会是⼀张怎样的图。ControlNet 的出现，真正意义上让 AI 绘画上升到⽣产⼒级别。简单来说 ControlNet 它可以精准控制 AI 图像的⽣成。

ControlNet 是Stable Diffusion一个非常完善的插件，主要有 8 个应⽤模型：OpenPose、Canny、HED、Scribble、Mlsd、Seg、Normal Map、Depth。今天就不展开讲了，等有机会再聊这些功能。今天主要是讲Stable Diffusion的主程序的使用。

当然Stable Diffusion还有很多很多拓展插件，使得Stable Diffusion更加强大。

2、图像⻛格控制

Stable Diffffusion 实现图像⻛格化的途径主要有以下⼏种：Artist 艺术家⻛格、Checkpoint 预训练⼤模型、LoRA 微调模型、Textual Inversion ⽂本反转模型。

▌Artist 艺术家⻛格

主要通过画作种类 Tag（如：oil painting、ink painting、comic、illustration），画家/画⻛ Tag（如：Hayao Miyazaki、Cyberpunk）等控制图像⻛格。⽹上也有⽐较多的这类⻛格介绍，如：

https://promptomania.com

https://urania.ai/top-sd-artists

但需要注意的是，使⽤艺术家未经允许的⻛格进⾏商⽤，会存在侵权问题。

▌Checkpoint 预训练⼤模型

Checkpoint 是根据特定⻛格训练的⼤模型，模型⻛格强⼤，但体积也较⼤，⼀般 5-7GB。模型训练难度⼤，需要极⾼的显卡算⼒。⽬前⽹上已经有⾮常多的不同⻛格的成熟⼤模型可供下载使⽤。

如：https://huggingface.co/models?pipeline_tag=text-to-image

▌LORA微调模型

LoRA 模型是通过截取⼤模型的某⼀特定部分⽣成的⼩模型，虽然不如⼤模型的能⼒完整，但短⼩精悍。因为训练⽅向明确，所以在⽣成特定内容的情况下，效果会更好。

LoRA 模型也常⽤于训练⾃有⻛格模型，具有训练速度快，模型⼤⼩适中，配置要求低（8G 显存）的特点，能⽤少量图⽚训练出⻛格效果。常⽤ LoRA 模型下载地址：

https://stableres.info

https//civitai.com

（友情提醒：不要在办公场所打开，不然会很尴尬）（目前已被加墙，需要梯子）

▌Textual Inversion ⽂本反转模型

Textual Inversion ⽂本反转模型也是微调模型的⼀种，它是针对⼀个⻛格或⼀个主题训练的⻛格模型，⼀般⽤于提⾼⼈物还原度或优化画⻛，⽤这种⽅式⽣成的模型⾮常⼩，⼀般⼏⼗KB，在⽣成画作时使⽤对应 Tag 在 prompt 中进⾏调⽤。

▌⾃有⻛格模型训练

Stable Diffusion 的强⼤之处还在于能够⾃定义训练⻛格模型，如果现有⻛格⽆法满⾜要求，我们还可以⾃⼰训练特定⻛格模型。Stable Diffusion ⽀持训练⼤模型和微调模型。我⽐较推荐的是⽤ LoRA 模型训练⽅法，该⽅法训练速度快，模型⼤⼩适中（100MB 左右），配置要求低（8G 显存），能⽤极少量图⽚训练出⻛格效果。

例如：下图中我⽤了 10 张⼯作中的素材图，⼤概花了 20 分钟时间训练出该⻛格的 LoRA 模型，然后使⽤该模型就可以⽣成⻛格类似的图⽚。如果将训练样本量增⼤，那么训练出来的⻛格样式会更加精确。

我们可以在资源网站下载到大量的大模型和Lora模型，当然还可以自己训练模型使用。

下面我们就开始分享⾃有⻛格模型训练Stable Diffusion安装部署：

以下主要介绍三种部署安装⽅式：云端部署、本地部署、本机安装，各有优缺点。当本机硬件条件⽀持的情况下，推荐本地部署，其它情况推荐云端⽅式。

▌云端部署 Stable Diffusion

通过 Google Colab 进⾏云端部署，推荐将成熟的 Stable Diffusion Colab 项⽬复制到⾃⼰的Google 云端硬盘运⾏，省去配置环境麻烦。

这种部署⽅式的优点是：不吃本机硬件，在有限时间段内，可以免费使⽤ Google Colab 强⼤的硬件资源，通常能给到 15G 的 GPU 算⼒，出图速度⾮常快。

缺点是：免费 GPU 使⽤时⻓不固定，通常情况下⼀天有⼏个⼩时的使⽤时⻓，如果需要更⻓时间使⽤，可以订阅 Colab 服务。

阿里云近期也推出了机器学习平台 PAI，可以免费体验3个月,可以完成云端部署：

https://free.aliyun.com/?product=9602825&crowd=personal&spm=5176.28055625.J_5831864660.8.e939154aIGRniv&scm=20140722.M_113024497.P_154.MO_1802-ID_9553144-MID_9553144-CID_20080-ST_7663-V_1

如何在阿里云快速启动Stable Diffusion轻松玩转AI绘画：

https://help.aliyun.com/practice_detail/611227

B站也有相关部署教程。

▌本地部署其实就是把云端放在本地，部署方式类似。

不过不用慌，上面开起来非常复杂，但是我们已经有大神在MAC和WIN都已经完成了一键安装整合包。

很简单就能开始运行我们的本地程序。

这就是Mac上的整合包。

这是win上的整合程序。

这是运行以后的界面。

当然也可以本机安装，不过本机安装程序没有那么多可调参数和拓展插件。

https://diffusionbee.com，可以直接在这这个网站下载。

Draw Things应该是一款很不错的选择。在 Mac App Store 直接搜索并下载，即可免去部署和网络环境配置上的繁琐，使用起来也非常方便。

最近Draw Things 还更新了许多新功能，加入了新版的 ControlNet 1.1 并且内置了新模型，并且这些模型直接点击小云朵图标下载，sd webUI的基础功能它都有，最.最.最主要是没有网络环境问题。

软件里面也内置了一些模型和lora提供一键下载，也可先自行下载，然后添加进去使用。

Draw Things 提供了 iPad 和 iPhone 版本的应用供下载，但是需要注意的是其中的模型包较大，此外由于依赖于设备本身处理效能，跑图的速度也可能较慢。与电脑端相比，操纵也不那么方便（有兴趣可以试着下载尝试）。

还有一个重点它也完全免费。

下面开始分享Stable Diffusion的使用方法。

▌⽂⽣图

这就是Stable Diffffusion WebUI 的操作界⾯主要分为：模型区域、功能区域、参数区域、出图区域。

txt2img 为⽂⽣图功能，重点参数介绍：

正向提示词：描述图⽚中希望出现的内容

反向提示词：描述图⽚中不希望出现的内容

Sampling method：采样⽅法，推荐选择 Euler a 或 DPM++ 系列，采样速度快

Sampling steps：迭代步数，数值越⼤图像质量越好，⽣成时间也越⻓，⼀般控制在 30-50就能出效果

Restore faces：可以优化脸部⽣成

Width/Height：⽣成图⽚的宽⾼，越⼤越消耗显存，⽣成时间也越⻓，⼀般⽅图 512x512，竖图 512x768，需要更⼤尺⼨，可以到 Extras 功能⾥进⾏等⽐⾼清放⼤

CFG：提示词相关性，数值越⼤越相关，数值越⼩越不相关，⼀般建议 7-12 区间

Batch count/Batch size：⽣成批次和每批数量，如果需要多图，可以调整下每批数量

Seed：种⼦数，-1 表示随机，相同的种⼦数可以保持图像的⼀致性，如果觉得⼀张图的结构不错，但对⻛格不满意，可以将种⼦数固定，再调整 prompt ⽣成。

▌图⽣图

img2img 功能可以⽣成与原图相似构图⾊彩的画像，或者指定⼀部分内容进⾏变换。可以重点使⽤ Inpaint 图像修补这个功能：

Resize mode：缩放模式，Just resize 只调整图⽚⼤⼩，如果输⼊与输出⻓宽⽐例不同，图⽚会被拉伸。Crop and resize 裁剪与调整⼤⼩，如果输⼊与输出⻓宽⽐例不同，会以图⽚中⼼向四周，将⽐例外的部分进⾏裁剪。Resize and fifill 调整⼤⼩与填充，如果输⼊与输出分辨率不同，会以图⽚中⼼向四周，将⽐例内多余的部分进⾏填充

Mask blur：蒙版模糊度，值越⼤与原图边缘的过度越平滑，越⼩则边缘越锐利

Mask mode：蒙版模式，Inpaint masked 只重绘涂⾊部分，Inpaint not masked 重绘除了涂⾊的部分

Masked Content：蒙版内容，fifill ⽤其他内容填充，original 在原来的基础上重绘

Inpaint area：重绘区域，Whole picture 整个图像区域，Only masked 只在蒙版区域

Denoising strength：重绘幅度，值越⼤越⾃由发挥，越⼩越和原图接近

再分享一个小知识，如果我们找到一些图片可以通过图片信息查看，别人的设置参数，tag等等，也可以通过图片逆推tag。

这就是我的AI图的信息，可以通知这种方式查看。

其实这些操作的界面目前都有中文UI了，所以要了解基本操作并不难，但是怎么输入关键词才是我们生成图片的关键。

那么关键词怎么样才出好图呢，下面就简单讲一下：

▌Prompt 语法技巧

⽂⽣图模型的精髓在于 Prompt 提示词，如何写好 Prompt 将直接影响图像的⽣成质量。

提示词结构化。

Prompt 提示词可以分为 4 段式结构：画质画⻛ + 画⾯主体 + 画⾯细节 + ⻛格参考
画⾯画⻛：主要是⼤模型或 LoRA 模型的 Tag、正向画质词、画作类型等
画⾯主体：画⾯核⼼内容、主体⼈/事/物/景、主体特征/动作等
画⾯细节：场景细节、⼈物细节、环境灯光、画⾯构图等
⻛格参考：艺术⻛格、渲染器、Embedding Tag 等

相信大家看到这个就基本了解了，就是写个小作文，还是比较规范的小作文，不难吧。

▌提示词语法

提示词排序：越前⾯的词汇越受 AI 重视，重要事物的提示词放前⾯
增强/减弱：(提示词:权重数值)，默认 1，⼤于 1 加强，低于 1 减弱。如 (doctor:1.3)
混合：提示词 | 提示词，实现多个要素混合，如 [red|blue] hair 红蓝⾊头发混合
+ 和 AND：⽤于连接短提示词，AND 两端要加空格
分步渲染：[提示词 A:提示词 B:数值]，先按提示词 A ⽣成，在设定的数值后朝提示词 B 变化。如[dog:cat:30] 前 30 步画狗后⾯的画猫，[dog:cat:0.9] 前⾯ 90%画狗后⾯ 10%画猫
正向提示词：masterpiece, best quality 等画质词，⽤于提升画⾯质量
反向提示词：nsfw, bad hands, missing fifingers……, ⽤于不想在画⾯中出现的内容

由于目前Stable Diffusion关键词主要还是需要英文，想要中文输入的话需要加载插件，我有使用过，不太理想，出图效果不佳，再还没有中文支持前还是建议使用英文tag。

当让我们也可以用ChatGPT辅助，ChatGPT 辅助⽣成提示词。

给 ChatGPT ⼀段示例参考：https://dreamlike.art/guides/using-openai-chat-gpt-towrite-stable-diffffusion-prompts

根据参考⽣成 Prompts，再添加细节润⾊，国内环境可能ChatGPT会有一些不顺畅，可以本地部署清华开源的ChatGLM-6B，或者轻量级的ChatGPT4all。

其实如果大家只是想尝试尝试我这里可以提供模版，直接在Stable Diffusion里面加载就可以直接出图，当然也可以稍作修改，然后添加自己想要的关键词，也是可以的。

红色框内的就是已经编好的关键词，可以直接调用修改。

上面就是一些使用的基本方法，下面我们来看看我的作品分享。

这就是一张来自Stable Diffusion的图片，很短的时间就能带来很精美的画面。

这个是我的生成的参数信息你也可以出同样精美的图片。

那下面就来看看我的一大波图片吧：

一杯粉水敬大家。

我们可以尝试很多不同的风格，甚至是真人，都是照片级别。

上面都是我们使用别人的模型，有没有想过生成AI的自己。下面我就简单介绍一下怎么训练模型。

我们可以通过训练真人，物品，或者建筑，室内空间，甚至规划设计，这样我们的应用场景就很多了。

今天主要分享一下训练真人，但是请大家注意不要随意训练真人明星，或者未经允许的其他人，这样就有侵权分享了，我们都是妥妥的守法公民。

训练的模型主要是以上几种，但是从上面也能看出Lora是最为好用的。

kohya_ss训练环境搭建看着真的还是有点复杂，是不是有点被劝退了。不要慌，有整合包，有需要可以提供哈。

接下来就是图片处理和标注。

训练图集可以通过Stable Diffusion预处理整理，记得打上专属的触发关键词，在使用的时候方便触发。

这是训练的界面。

看着是不是也很复杂。

没关系，如果有兴趣，可以提供设置参数文件，可以同加载这文件直接完成所有的设置，修改你自己的图片集文件夹路径输出路径。

还有文件名修改就可以点训练开始了。

其实也可以很简单是吧，好了，那就开看看我们训练的模型。

在正向关键词里面输入我们训练的Lora模型就可以出图了。

红框就是加载输入方式，：0.98是权重，也可以分层混合其他的Lora，效果也许会意想不到，还有其他的物品，比如衣服或者其他的都可以加载。

一起来看看AI卫卫：

还是有几分像的，去我们想去的地方，穿我们想穿的衣服，喝我们想喝的小粉水，尤其是喝了裸藻以后我真的变化好大好大。

有没有类味，当然还有很多其他的lora可以用。

今天分享的AI绘画工具Stable Diffusion，是目前最先进的开源免费本地使用的AI绘画工具，她的先进不是我们平常手机那些APP可以比拟的，具有很大的拓展使用空间，可使用的领域包含绘画辅助、动画、视频、建筑方案设计、概念设计、室内设计、规划设计、艺术创作等等，甚至有可能在未来颠覆艺术和创作世界。

目前他需要的使用环境和硬件配置较高，操作的复杂度也相对会高一些，因此会劝退大多数人，当然这并不妨碍我们今天来了解这款具有颠覆行业实力的工具。

本次分享到此结束，以上的软件和模型文件如果有兴趣的话都可以提供，大家也不用去一些平台购买，互联网有大量免费提供的资源供大家学习使用。谢谢大家的聆听！感谢！再见！