您现在的位置是：首页 > 人工智能AI > 正文

人工智能AI

[AIGC]10分钟搞懂AI绘图工具Midjourney与StableDiffusion的区别

1987web2023-08-29人工智能AI242

2023年3月，StableDiffusion和Midjourney这两款软件和ChatGPT一起，作为几乎是第一批

2023年3月，Stable Diffusion和Midjourney这两款软件和ChatGPT一起，作为几乎是第一批AIGC的代名词收割了全球千行百业的目光。SD和MJ都属于能够通过prompt（提示词）来完成文字生成图片，或是以图生图的方式来生成想要的图片，但在很多具体的部分有很大的差异。

本文主要是介绍、对比两款AI绘图工具。

1 概述

1.1 Stable Diffusion

Stable Diffusion是一个基于Latent Diffusion Model（LDM）的文转图AI模型，其使用了CLIP ViT-L/14文本编码器，能够通过文本提示调整图像模型。它在运行时将成像过程分离成扩散（diffusion）的过程——从有噪声的情况开始，逐渐改善图像，直到完全没有噪声，逐步接近所提供的文本描述。

Stable Diffusion的作品集(样例)

官网： https://stablediffusionweb.com/
Github ： https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki

Emad Mostaque

创建时间：2022年8月：文本-图像生成模型Stable Diffusion发布，这是一款基于OpenRAIL-M许可的开源模型。
创始人 & CEO：Emad Mostaque
所属公司：Stability AI
黑料：

1）Stable Diffusion背后真正的功臣——Latent Diffusion的开源图像生成器。在2021年，德国的一个研究者团队和初创公司Runway合作推出了一个名为Latent Diffusion（潜在扩散）的开源图像模型。研究者团队包括慕尼黑大学（LMU）和海德堡大学的学者，领导这项研究的是Björn Ommer教授。
2）Mostaque、Stability AI窃取Latent Diffusion（潜在扩散）模型。而Mostaque拿了别人的作品，把自己的名字写在上面——这就是Stable Diffusion的由来。而在「窃取」了别人的成果之后，Emad Mostaque凭借自己过人的口头本领，让Stability AI摇身一变成为估值10亿美元的初创公司。

主要革新：将模型的计算空间从原先的像素通过技术手段，在保留足够丰富的信息与细节状态下降为到一个更低的数量空间里，然后再通过一系列的训练和图像进行计算，而这个更低维的空间被称为潜空间（Latent Space）。

潜空间对产业界来说，相比其它模型大幅降低了内存和计算的要求，举个例子，原先 512 x 512 对图像一下子变成了 64 x 64，需要的内存减少了 98%！原先只有研究人员才能进行创作的条件一下子达到了消费级，所以该项目出圈是必然的。
Stable Diffusion 开源后，一方面可以在大部分适配 GPU 的电脑上运行，例如一台 M1 的苹果电脑，而 DALL·E2 以及 Midjourney 只能通过云计算平台访问使用；另一方面，在内容创作的范围上，Stable Diffusion 较其它模型更加自由开放，用户拥有创作的图像权利，也可以自由地用作商业用途，Mostaque 表示开源能够让更多的人接触到这项技术。

DreamStudio

回到产品的使用上，对于普通用户 Stability AI 还推出了 DreamStudio，这就像是融合了Stable Diffusion 模型之后的在线 Photoshop，只不过新用户注册后需要按积分使用，不同参数条件下生成的图像所消耗的积分不同，新用户将获得 200 积分，默认条件是一张图消耗 1 积分。

Image to Image (以图生图)

如果前面一直在说 Stable Diffusion 的技术表述归纳为「text2img」，且多为 2D 平面内容，那么该项目的新方向则是通过「img2img」完成 3D 内容的创建。什么是 img2img？Reddit 上的一名用户发布了 6 张图片，根据经典 MS-DOS 上的游戏画面进行图形优化，效果如下：

Source：frigis9 on Reddit

img2img 技术也是 Stable Diffusion 中的新功能，能进一步将text2img生成的图片真人化，使2D变3D，将对广大用户大幅降低创意落地的门槛，充分释放大众创意，而对于本身就靠创意吃饭的艺术工作者，它们通过该技术表达创意的能力也会进一步提高，就像从纸面创意如同 8090 年代的 CAD 过渡那样，如果说 CAD 全称是Computer Aided Design（计算机辅助设计），那套个AIGC 概念就是AI Aided Design （AI辅助设计）.....

诚然，与 DreamStudio 融合的实际效果和使用都需要一段时间的优化中，特别是用在个人计算机上还需要一个过程，毕竟生成图片的质量需要对原先的素材进行大量训练、测试。

1.2 Midjourney

Midjourney是一款基于Discord社区上的AI绘图创作工具，通过Discord 的机器人指令进行操作，你只需输入英文文本，它便可通过强大的AI算法给你产出相应的图案，效果让人首屈一指。

创建时间与时间线：2022年7月12日首次进行公测 2022年3月14日正式以架设在 Discord 上的服务器形式推出，用户直接注册 Discord 并加入 MJ 的服务器即可开始 AI 创作。创始团队：由总部位于美国旧金山的小型自筹资金的、独立研究实验室——Midjourney, Inc，其专注于设计、人类基础设施和人工智能。

官网：https://www.midjourney.com/

2 共同点

Midjourney和Stable Diffusion都是AI绘图工具
二者均为深度学习图像领域中用于改进梯度下降算法的模型；模型的共同目标都是为了让模型更快、更稳定地收敛到最优解。
二者均支持在线生成。
二者均支持：以文生图、以图生图。

3 区别

3.0 模型算法方面的区别

这一块比较晦涩，不感兴趣的同学可跳过阅读。

目标不同

Midjourney的主要目标是在训练的初期阶段快速收敛到一个相对不错的局部最优解；
Stable Diffusion的主要目标则是通过减少梯度的抖动，使模型更加稳定地收敛到全局最优解。

方法不同：

Midjourney是通过逐渐增大学习率来实现的；
Stable Diffusion是通过对梯度进行平滑处理来实现的。

适用范围不同

Midjourney通常适用于模型比较复杂、训练过程比较长的情况下；
Stable Diffusion适用于模型在训练过程中存在梯度抖动、训练过程不太稳定的情况下。

3.1 Midjourney的特点

3.1.1 优点

模型层面：可以帮助模型更快地收敛到局部最优解。

Midjourney的思想是在模型的训练过程中，把初始的学习率调低，然后逐渐调高，最后再调低。这个过程可以让模型在训练的初期阶段更快地收敛到一个相对不错的局部最优解。

模型层面：有助于防止陷入模型的局部最优解。

由于Midjourney可以让模型在训练过程中不断地探索更广泛的搜索空间。因此，可以一定程度上避免模型陷入局部最优解。

提示词门槛：低

3.1.2 缺点

需要梯子（科学上网）
禁用词：高（多）
例如：bare、nude
画面受控度：低
闭源

3.2 Stable Diffusion的特点

3.2.1 优点

模型层面：可以让模型更加稳定地收敛到最优解：

Stable Diffusion通过对梯度进行平滑处理，从而减少了梯度的抖动，进而可以让模型更加稳定地收敛到最优解。

模型层面：可以加速训练过程。

由于Stable Diffusion可以使梯度变得更加平滑，因此可以减少梯度更新的次数，从而加速训练过程。

开源且免费
开源决定了其质量和生态圈会愈发强大、成长速度会非常快。
支持本地部署
最低配置：10系显卡 + 6G内存
支持离线不联网部署：数据安全性高
禁用词：少（百无禁忌）
画面受控度：高
可控性极强：插件极多，LORA极多
上限/下限差距极大：无特殊操作的情况下，SD可能跑出古神。需要有一定的学习过程才能跑出好看的图片，但是图片如果好看，又可以做到非常精致。难上手，难精通，但是精通之后上限极高。

3.2.2 缺点

提示词门槛：高
搭建部署的硬件要求、技术门槛相对高
仅仅是普通非技术人员相对高；对IT技术人员而言，此私有化部署的硬件要求已比较低了
纯CPU也能跑，但速度会非常慢
部署相对麻烦：需要搭建几个依赖的环境、且需略懂Git、Python等基础知识

4 AI绘图模型合集

midjourney - https://www.midjourney.com/
Stable Diffusion - https://stablediffusionweb.com/
dream studio - https://beta.dreamstudio.ai/home
Adobe Firefly - https://www.adobe.com/tw/sensei/generative-ai/firefly.html
Baidu 文心一言 - 文心一言
Baidu 文心一格 - 文心一格 - AI艺术和创意辅助平台
Disco Diffusion - https://github.com/alembics/disco-diffusion
OpenAI DALL·E2 - DALL·E 2
Google Imagen - Text-to-Image Diffusion Models
Microsoft NUWA（女娲） - NUWA-Infinity
Fackbook/Meta Make A Scene - (尚未向公众开放)
Tiamat(中国团队) - https://tiamat-ai.feishu.cn
6pen Art(中国团队) - https://6pen.art/
lexica Art - https://lexica.art/

X 参考与推荐资源

AI奇思妙想：Midjourney和Stable Diffusion的区别
对普通人来说，Stable diffusion 和 Midjourney 怎么选？他们有什么区别？【推荐】
Micoxx：设计师的 Midjourney 入门真保姆级教程【推荐】
生誮果：Stable Diffusion超详细教程！从0-1入门到进阶【推荐】
Lexica 【推荐】
AI绘画工具软件推荐合集：这些人工智能绘画工具效果太赞了【推荐】
从 Stability AI 和 Stable Diffusion 看 AIGC-36氪
月咏幻：【AI科普】虽迟但到的AI绘画软件比较：Stable Diffusion VS Midjourney

1 感谢您的阅读，我是致力于通过从事探索、研究、分享软件工具或从事软件开发，为提升社会生产力贡献一份力量的软件工程师【小所】~
2 大家若有感兴趣的话题，欢迎评论区或私信反馈~ 欢迎关注、点赞、收藏、转发~欢迎评论区讨论、探讨~您的支持，是我不断更新的动力~
3 如果你也喜欢这篇文章，亦可点赞、收藏、评论、转发~祝您生活愉快~