1987WEB视界-分享互联网热点话题和事件

您现在的位置是:首页 > 人工智能AI > 正文

人工智能AI

卫卫:开启AI绘画新视界

1987web2023-08-17人工智能AI78

这是颜值巅峰团队第 798 篇推送

通过前段时间顺溜和格格的分享,大家对AI绘画产生了浓厚的兴趣,很多小伙伴玩得不亦乐乎,朋友圈各种AI素材层出不穷。

先给大家欣赏几张用Stable diffusion绘制出来的图片:

⽬前⽂⽣图的主流 AI 绘画平台主要有三种:Midjourney、Stable Diffusion、DALL·E。

如果要在实际⼯作场景中应⽤,我更推荐 Stable Diffffusion。

▌Midjourney AI绘画工具

Midjourney是一款2022年3月面世的AI绘画工具,创始人是David Holz。只要关键字,就能透过AI算法生成相对应的图片,只需要不到一分钟。

可以选择不同画家的艺术风格,例如安迪华荷、达芬奇、达利和毕加索等,还能识别特定镜头或摄影术语。Midjourney是第一个快速生成AI制图并开放予大众申请使用的平台。

Midjourney生成的作品往往带有电脑生成的痕迹,比较不会被当成假新闻素材,但对色情、血腥、暴力创作题材的审核还不够精准。

例如,输入一棵长着立方体形桃子的大树,就会生成四张不同图像供选择。

由美国一家工作室开发的Midjourney于2022年3月首次亮相,在8月迭代至V3版本并开始引发一定的关注,而2023年更新的V5版本让Midjourney及其作品成功出圈,代表作是中国情侣图片。

2023年4月,入选《福布斯2023年AI 50榜单:最有前途的人工智能公司》

▌Dall-E

美国图像生成系统。美国人工智能非营利组织OpenAI于2021年1月份推出Dall—E,这是一个可以根据书面文字生成图像的人工智能系统,该名称来源于著名画家达利(Dalí)和机器人总动员(Wall-E)。该系统可以根据简单的描述创建极其逼真和清晰的图像,精通各种艺术风格,包括插画和风景等。它还可以生成文字来制作建筑物上的标志,并分别制作同一场景的草图和全彩图像。

2021年4月,入选由技术领域全球知名大学组成的Netexplo大学网络历时一年,在全球范围内遴选出的10项极具突破性的数字创新技术。

▌Stability AI

开源 Stable Diffusion,基于文本生成图像的 AI 模型。

Stability AI 宣布发布 Stable Diffusion,Stability AI 成立于 2020 年,旨在培育开源 AI 研究社区。此次开源的 Stable Diffusion 是 Stability AI、RunwayML、LMU Munich、EleutherAI 和 LAION 等知名 AI 实验室的研究人员合作的结果。

Stable Diffusion 是一个类似 DALL-E 2 的系统,可以从文本描述生成对应的图像。目前相关代码和经过训练的模型都在 GitHub 上开源,还有一个带有 Web 界面的托管版本可供用户测试。

Stable Diffusion 在 LAION-5B 数据库子集的 512x512 图像上训练潜在扩散模型,并使用 CLIP ViT-L/14 文本编码器来根据文本提示调整训练模型。凭借其 860M UNet 和 123M 文本编码器,该模型相对轻量级,但硬件方面最低也要 10GB VRAM 的 GPU。

与 DALL-E 2 不同,Stable Diffusion 的限制更宽松,它可以生成 DALL-E 2 中禁止的名人图像和其他敏感主题的图像。当然,Midjourney 或 Pixelz.ai 等其他 AI 系统也可以做到这一点,但它们无法达到 Stable Diffusion 中的高度多样性。此外,其他系统都不是开源的。

通过对⽐,Stable Diffffusion 在数据安全性(可本地部署)、可扩展性(成熟插件多)、⻛格丰富度(众多模型可供下载,也可以训练⾃有⻛格模型)、费⽤版权(开源免费、可商⽤)等⽅⾯更适合我们的⼯作场景。

那么如何在实际⼯作中应⽤ Stable Diffusion 进⾏ AI 绘画?

要在实际⼯作中应⽤ AI 绘画,需要解决两个关键问题,分别是:图像的精准控制和图像的⻛格控制。

1、图像精准控制

Stable Diffusion 可以通过很多插件来实现,在这里推荐使⽤ Stable Diffffusion 的 ControlNet 插件。

在 ControlNet 出现之前,AI 绘画更像开盲盒,在图像⽣成前,你永远都不知道它会是⼀张怎样的图。ControlNet 的出现,真正意义上让 AI 绘画上升到⽣产⼒级别。简单来说 ControlNet 它可以精准控制 AI 图像的⽣成。

ControlNet 是Stable Diffusion一个非常完善的插件,主要有 8 个应⽤模型:OpenPose、Canny、HED、Scribble、Mlsd、Seg、Normal Map、Depth。今天就不展开讲了,等有机会再聊这些功能。今天主要是讲Stable Diffusion的主程序的使用。

当然Stable Diffusion还有很多很多拓展插件,使得Stable Diffusion更加强大。

2、图像⻛格控制

Stable Diffffusion 实现图像⻛格化的途径主要有以下⼏种:Artist 艺术家⻛格、Checkpoint 预训练⼤模型、LoRA 微调模型、Textual Inversion ⽂本反转模型。

▌Artist 艺术家⻛格

主要通过画作种类 Tag(如:oil painting、ink painting、comic、illustration),画家/画⻛ Tag(如:Hayao Miyazaki、Cyberpunk)等控制图像⻛格。⽹上也有⽐较多的这类⻛格介绍,如:

https://promptomania.com

https://urania.ai/top-sd-artists

但需要注意的是,使⽤艺术家未经允许的⻛格进⾏商⽤,会存在侵权问题。

▌Checkpoint 预训练⼤模型

Checkpoint 是根据特定⻛格训练的⼤模型,模型⻛格强⼤,但体积也较⼤,⼀般 5-7GB。模型训练难度⼤,需要极⾼的显卡算⼒。⽬前⽹上已经有⾮常多的不同⻛格的成熟⼤模型可供下载使⽤。

如:https://huggingface.co/models?pipeline_tag=text-to-image

▌LORA微调模型

LoRA 模型是通过截取⼤模型的某⼀特定部分⽣成的⼩模型,虽然不如⼤模型的能⼒完整,但短⼩精悍。因为训练⽅向明确,所以在⽣成特定内容的情况下,效果会更好。

LoRA 模型也常⽤于训练⾃有⻛格模型,具有训练速度快,模型⼤⼩适中,配置要求低(8G 显存)的特点, 能⽤少量图⽚训练出⻛格效果。常⽤ LoRA 模型下载地址:

https://stableres.info

https//civitai.com

(友情提醒:不要在办公场所打开,不然会很尴尬)(目前已被加墙,需要梯子)

▌Textual Inversion ⽂本反转模型

Textual Inversion ⽂本反转模型也是微调模型的⼀种,它是针对⼀个⻛格或⼀个主题训练的⻛格模型,⼀般⽤于提⾼⼈物还原度或优化画⻛,⽤这种⽅式⽣成的模型⾮常⼩,⼀般⼏⼗KB,在⽣成画作时使⽤对应 Tag 在 prompt 中进⾏调⽤。

▌⾃有⻛格模型训练

Stable Diffusion 的强⼤之处还在于能够⾃定义训练⻛格模型,如果现有⻛格⽆法满⾜要求,我们还可以⾃⼰训练特定⻛格模型。Stable Diffusion ⽀持训练⼤模型和微调模型。我⽐较推荐的是⽤ LoRA 模型训练⽅法,该⽅法训练速度快,模型⼤⼩适中(100MB 左右),配置要求低(8G 显存),能⽤极少量图⽚训练出⻛格效果。

例如:下图中我⽤了 10 张⼯作中的素材图,⼤概花了 20 分钟时间训练出该⻛格的 LoRA 模型,然后使⽤该模型就可以⽣成⻛格类似的图⽚。如果将训练样本量增⼤,那么训练出来的⻛格样式会更加精确。

我们可以在资源网站下载到大量的大模型和Lora模型,当然还可以自己训练模型使用。

下面我们就开始分享⾃有⻛格模型训练Stable Diffusion安装部署:

以下主要介绍三种部署安装⽅式:云端部署、本地部署、本机安装,各有优缺点。当本机硬件条件⽀持的情况下,推荐本地部署,其它情况推荐云端⽅式。

▌云端部署 Stable Diffusion

通过 Google Colab 进⾏云端部署,推荐将成熟的 Stable Diffusion Colab 项⽬复制到⾃⼰的Google 云端硬盘运⾏,省去配置环境麻烦。

这种部署⽅式的优点是:不吃本机硬件,在有限时间段内,可以免费使⽤ Google Colab 强⼤的硬件资源,通常能给到 15G 的 GPU 算⼒,出 图速度⾮常快。

缺点是:免费 GPU 使⽤时⻓不固定,通常情况下⼀天有⼏个⼩时的使⽤时⻓,如果需要更⻓时间使⽤,可以订阅 Colab 服务。

阿里云近期也推出了机器学习平台 PAI,可以免费体验3个月,可以完成云端部署:

https://free.aliyun.com/?product=9602825&crowd=personal&spm=5176.28055625.J_5831864660.8.e939154aIGRniv&scm=20140722.M_113024497.P_154.MO_1802-ID_9553144-MID_9553144-CID_20080-ST_7663-V_1

如何在阿里云快速启动Stable Diffusion轻松玩转AI绘画:

https://help.aliyun.com/practice_detail/611227

B站也有相关部署教程。

▌本地部署其实就是把云端放在本地,部署方式类似。

不过不用慌,上面开起来非常复杂,但是我们已经有大神在MAC和WIN都已经完成了一键安装整合包。

很简单就能开始运行我们的本地程序。

这就是Mac上的整合包。

这是win上的整合程序。

这是运行以后的界面。

当然也可以本机安装,不过本机安装程序没有那么多可调参数和拓展插件。

https://diffusionbee.com,可以直接在这这个网站下载。

Draw Things应该是一款很不错的选择。在 Mac App Store 直接搜索并下载,即可免去部署和网络环境配置上的繁琐,使用起来也非常方便。

最近Draw Things 还更新了许多新功能,加入了新版的 ControlNet 1.1 并且内置了新模型,并且这些模型直接点击小云朵图标下载,sd webUI的基础功能它都有,最.最.最主要是没有网络环境问题。

软件里面也内置了一些模型和lora提供一键下载,也可先自行下载,然后添加进去使用。

Draw Things 提供了 iPad 和 iPhone 版本的应用供下载,但是需要注意的是其中的模型包较大,此外由于依赖于设备本身处理效能,跑图的速度也可能较慢。与电脑端相比,操纵也不那么方便(有兴趣可以试着下载尝试)。

还有一个重点它也完全免费。

下面开始分享Stable Diffusion的使用方法。

▌⽂⽣图

这就是Stable Diffffusion WebUI 的操作界⾯主要分为:模型区域、功能区域、参数区域、出图区域。

txt2img 为⽂⽣图功能,重点参数介绍:

正向提示词:描述图⽚中希望出现的内容

反向提示词:描述图⽚中不希望出现的内容

Sampling method:采样⽅法,推荐选择 Euler a 或 DPM++ 系列,采样速度快

Sampling steps:迭代步数,数值越⼤图像质量越好,⽣成时间也越⻓,⼀般控制在 30-50就能出效果

Restore faces:可以优化脸部⽣成

Width/Height:⽣成图⽚的宽⾼,越⼤越消耗显存,⽣成时间也越⻓,⼀般⽅图 512x512,竖图 512x768,需要更⼤尺⼨,可以到 Extras 功能⾥进⾏等⽐⾼清放⼤

CFG:提示词相关性,数值越⼤越相关,数值越⼩越不相关,⼀般建议 7-12 区间

Batch count/Batch size:⽣成批次和每批数量,如果需要多图,可以调整下每批数量

Seed:种⼦数,-1 表示随机,相同的种⼦数可以保持图像的⼀致性,如果觉得⼀张图的结构不错,但对⻛格不满意,可以将种⼦数固定,再调整 prompt ⽣成。

▌图⽣图

img2img 功能可以⽣成与原图相似构图⾊彩的画像,或者指定⼀部分内容进⾏变换。可以重点使⽤ Inpaint 图像修补这个功能:

Resize mode:缩放模式,Just resize 只调整图⽚⼤⼩,如果输⼊与输出⻓宽⽐例不同,图⽚会被拉伸。Crop and resize 裁剪与调整⼤⼩,如果输⼊与输出⻓宽⽐例不同,会以图⽚中⼼向四周,将⽐例外的部分进⾏裁剪。Resize and fifill 调整⼤⼩与填充,如果输⼊与输出分辨率不同,会以图⽚中⼼向四周,将⽐例内多余的部分进⾏填充

Mask blur:蒙版模糊度,值越⼤与原图边缘的过度越平滑,越⼩则边缘越锐利

Mask mode:蒙版模式,Inpaint masked 只重绘涂⾊部分,Inpaint not masked 重绘除了涂⾊的部分

Masked Content:蒙版内容,fifill ⽤其他内容填充,original 在原来的基础上重绘

Inpaint area:重绘区域,Whole picture 整个图像区域,Only masked 只在蒙版区域

Denoising strength:重绘幅度,值越⼤越⾃由发挥,越⼩越和原图接近

再分享一个小知识,如果我们找到一些图片可以通过图片信息查看,别人的设置参数,tag等等,也可以通过图片逆推tag。

这就是我的AI图的信息,可以通知这种方式查看。

其实这些操作的界面目前都有中文UI了,所以要了解基本操作并不难,但是怎么输入关键词才是我们生成图片的关键。

那么关键词怎么样才出好图呢,下面就简单讲一下:

▌Prompt 语法技巧

⽂⽣图模型的精髓在于 Prompt 提示词,如何写好 Prompt 将直接影响图像的⽣成质量。

提示词结构化。

  • Prompt 提示词可以分为 4 段式结构:画质画⻛ + 画⾯主体 + 画⾯细节 + ⻛格参考

  • 画⾯画⻛:主要是⼤模型或 LoRA 模型的 Tag、正向画质词、画作类型等

  • 画⾯主体:画⾯核⼼内容、主体⼈/事/物/景、主体特征/动作等

  • 画⾯细节:场景细节、⼈物细节、环境灯光、画⾯构图等

  • ⻛格参考:艺术⻛格、渲染器、Embedding Tag 等

相信大家看到这个就基本了解了,就是写个小作文,还是比较规范的小作文,不难吧。

▌提示词语法

  • 提示词排序:越前⾯的词汇越受 AI 重视,重要事物的提示词放前⾯

  • 增强/减弱:(提示词:权重数值),默认 1,⼤于 1 加强,低于 1 减弱。如 (doctor:1.3)

  • 混合:提示词 | 提示词,实现多个要素混合,如 [red|blue] hair 红蓝⾊头发混合

  • + 和 AND:⽤于连接短提示词,AND 两端要加空格

  • 分步渲染:[提示词 A:提示词 B:数值],先按提示词 A ⽣成,在设定的数值后朝提示词 B 变化。如[dog:cat:30] 前 30 步画狗后⾯的画猫,[dog:cat:0.9] 前⾯ 90%画狗后⾯ 10%画猫

  • 正向提示词:masterpiece, best quality 等画质词,⽤于提升画⾯质量

  • 反向提示词:nsfw, bad hands, missing fifingers……, ⽤于不想在画⾯中出现的内容

由于目前Stable Diffusion关键词主要还是需要英文,想要中文输入的话需要加载插件,我有使用过,不太理想,出图效果不佳,再还没有中文支持前还是建议使用英文tag。

当让我们也可以用ChatGPT辅助,ChatGPT 辅助⽣成提示词。

给 ChatGPT ⼀段示例参考:https://dreamlike.art/guides/using-openai-chat-gpt-towrite-stable-diffffusion-prompts

根据参考⽣成 Prompts,再添加细节润⾊,国内环境可能ChatGPT会有一些不顺畅,可以本地部署清华开源的ChatGLM-6B,或者轻量级的ChatGPT4all。

其实如果大家只是想尝试尝试我这里可以提供模版,直接在Stable Diffusion里面加载就可以直接出图,当然也可以稍作修改,然后添加自己想要的关键词,也是可以的。

红色框内的就是已经编好的关键词,可以直接调用修改。

上面就是一些使用的基本方法,下面我们来看看我的作品分享。

这就是一张来自Stable Diffusion的图片,很短的时间就能带来很精美的画面。

这个是我的生成的参数信息你也可以出同样精美的图片。

那下面就来看看我的一大波图片吧:

一杯粉水敬大家。

我们可以尝试很多不同的风格,甚至是真人,都是照片级别。

上面都是我们使用别人的模型,有没有想过生成AI的自己。下面我就简单介绍一下怎么训练模型。

我们可以通过训练真人,物品,或者建筑,室内空间,甚至规划设计,这样我们的应用场景就很多了。

今天主要分享一下训练真人,但是请大家注意不要随意训练真人明星,或者未经允许的其他人,这样就有侵权分享了,我们都是妥妥的守法公民。

训练的模型主要是以上几种,但是从上面也能看出Lora是最为好用的。

kohya_ss训练环境搭建看着真的还是有点复杂,是不是有点被劝退了。不要慌,有整合包,有需要可以提供哈。

接下来就是图片处理和标注。

训练图集可以通过Stable Diffusion预处理整理,记得打上专属的触发关键词,在使用的时候方便触发。

这是训练的界面。

看着是不是也很复杂。

没关系,如果有兴趣,可以提供设置参数文件,可以同加载这文件直接完成所有的设置,修改你自己的图片集文件夹路径输出路径。

还有文件名修改就可以点训练开始了。

其实也可以很简单是吧,好了,那就开看看我们训练的模型。

在正向关键词里面输入我们训练的Lora模型就可以出图了。

红框就是加载输入方式,:0.98是权重,也可以分层混合其他的Lora,效果也许会意想不到,还有其他的物品,比如衣服或者其他的都可以加载。

一起来看看AI卫卫:

还是有几分像的,去我们想去的地方,穿我们想穿的衣服,喝我们想喝的小粉水,尤其是喝了裸藻以后我真的变化好大好大。

有没有类味,当然还有很多其他的lora可以用。

今天分享的AI绘画工具Stable Diffusion,是目前最先进的开源免费本地使用的AI绘画工具,她的先进不是我们平常手机那些APP可以比拟的,具有很大的拓展使用空间,可使用的领域包含绘画辅助、动画、视频、建筑方案设计、概念设计、室内设计、规划设计、艺术创作等等,甚至有可能在未来颠覆艺术和创作世界。

目前他需要的使用环境和硬件配置较高,操作的复杂度也相对会高一些,因此会劝退大多数人,当然这并不妨碍我们今天来了解这款具有颠覆行业实力的工具。

本次分享到此结束,以上的软件和模型文件如果有兴趣的话都可以提供,大家也不用去一些平台购买,互联网有大量免费提供的资源供大家学习使用。谢谢大家的聆听!感谢!再见!

作者资料:

10年建筑设计师,担任建筑设计室主任,带领团队参与了深圳地铁多个建筑设计项目,多个项目荣获国家级优秀设计奖项。

6年【营养美学】品牌金卡代理,团队核心导师。

喜欢穿搭,喜欢拍照,热爱学习,乐于交友,热心开朗,希望有幸结缘优秀的你。

卫卫

【西服高级定制】联合创始人

营养美学金卡代理

前建筑设计师

微信号:Zhouvery

长摁下面二维码添加好友立即交流

颜值巅峰团队是一个致力于变美、赚钱、自我提升的高质量女性社群,欢迎加入我们共同修炼。

版权所有,侵权必究

1. 如何通过朋友圈撬开僵尸的嘴

2. 营养美学代理,如何跟李佳琦学销售?

3. 车日路模型:教你一个实现目标的小妙招

今天就先分享到这吧,或许你想了解更多?

扫码时时关注我们吧~

长按扫码关注