NvidiaAI图像生成器可安装在软盘上,只需4分钟即可训练
在人工智能艺术创作工具快速发展的背景下,Nvidia 研究人员推出了一种创新的文本到图像个性化方法,称为Perfusion。但它不像竞争对手那样是一款价值百万美元的超重量级车型。Perfusion 的大小仅为 100KB,训练时间为 4 分钟,在描绘个性化概念的同时保持其特性,具有显着的创造性灵活性。
Nvidia 和以色列特拉维夫大学共同撰写的一篇研究论文中介绍了灌注技术。尽管体积很小,但在特定版本的效率方面,它能够胜过Stability AI 的 Stable Diffusion v1.5、新发布的 Stable Diffusion XL (SDXL) 和 MidJourney 等领先的 AI 艺术生成器。
灌注中的主要新思想称为密钥锁定。这是通过在图像生成过程中将用户想要添加的新概念(例如特定的猫或椅子)连接到更一般的类别来实现的。例如,猫会与更广泛的猫科动物概念联系起来。
这有助于避免过度拟合,即模型对精确训练样本的调整过于狭窄。过度拟合使得人工智能很难生成该概念的新创意版本。
AI 艺术对决:顶级工具 MidJourney、Stable Diffusion v1.5 和 SDXL 如何叠加
通过将新猫与猫科动物的一般概念联系起来,模型可以以许多不同的姿势、外观和环境来描绘猫。但它仍然保留了基本的猫性,使它看起来像预定的猫,而不是任何随机的猫科动物。
简而言之,Key-Locking 让 AI 能够灵活地描绘个性化概念,同时保持其核心身份。这就像给艺术家以下指示:画我的猫汤姆,它正在睡觉,正在玩纱线,正在嗅花。
为什么 Nvidia 认为少即是多与孤立学习概念的现有工具不同,灌注还可以通过自然交互将多个个性化概念组合在单个图像中。用户可以通过文本提示来指导图像创建过程,合并特定的猫和椅子等概念。
Perfusion 提供了一项显着的功能,允许用户通过调整单个 100KB 模型来控制推理过程中视觉保真度(图像)和文本对齐(提示)之间的平衡。此功能允许用户轻松探索帕累托前沿(文本相似性与图像相似性)并选择适合其特定需求的最佳权衡,而无需重新训练。值得注意的是,训练模型需要一定的技巧。过多地关注模型的复制会导致模型一遍又一遍地产生相同的输出,并且使其过于严格地遵循提示而没有自由通常会产生不好的结果。灵活调整生成器与提示的接近程度是定制的一个重要部分
其他人工智能图像生成器可以让用户微调输出,但它们体积庞大。作为参考,LoRA 是稳定扩散中使用的一种流行的微调方法。它可以向应用程序添加从几十兆字节到超过一千兆字节 (GB) 的任何位置。另一种方法是文本反转嵌入,它更轻,但准确性较差。使用目前最准确的技术 Dreambooth 训练的模型重量超过 2GB。
相比之下,英伟达表示,与前面提到的领先人工智能技术相比,Perfusion 可产生卓越的视觉质量和提示对齐效果。与微调整个模型的方法相比,超高效的大小使得在微调生成图像的方式时只更新所需的部分成为可能。
这项研究与英伟达对人工智能日益增长的关注相一致。公司股票已经飙升到 2023 年,这一数字将超过 230%,因为其 GPU 继续主导人工智能模型的训练。与 Anthropic、Google、Microsoft 和百度等实体合作倾注数十亿在生成人工智能领域,英伟达的创新灌注模型可以为其带来优势。英伟达目前只提交了研究论文,并承诺很快发布代码。