到处讲AIGC,到底是啥?一文快速搞懂原理,有地址自己体验变革
前言
2022年,AI绘画属于AIGC分支之一,2022年甚至被冠以AIGC元年。随着AI 绘画的火爆,背后用到的核心技术之一Diffusion Model(扩散模型)也在图像生成领域大红大紫,甚至风头已经隐隐有开始超过GAN的趋势了 。
2022年8月Jason Allen凭借AI绘画作品《太空歌剧院》拿下科罗拉多州博览会美术竞赛一等奖,瞬间引爆社会争论。10月19日,Jasper.ai 宣布完成了 1.25 亿美元的A 轮融资,估值达到了 15 亿美金,而 Jasper AI 从产品上线到现在也就 18 个月时间。
时间再回到2018 年,大型半导体公司 NVIDIA 的研究团队发布了StyleGAN,作为 GAN 的应用,它在图像生成领域产生了巨大影响。StyleGAN 生成的人像精度高到与真人无异,引起了广泛关注。StyleGAN 此后发布了性能改进版本,例如 StyleGAN2、StyleGAN2-ADA 和 StyleGAN3。
StyleGAN
但随着Diffusion Model的出现似乎一切都变了,在2022年大红大紫引领风潮。其中的代表的Stable Diffusion(SD) 的文本到图像更是横空出世, 将无过滤图像生成的门槛下放到历史最低——文本生成图像、图像+文本生成图像以及补全图像中的某个部分(例如把猫换成一只狗),就能得到相应的图像结果。它一边被 AI 艺术界所称道,另一边则被传统艺术家激烈批评。
SD用例:枯藤老树昏鸦
枯藤老树昏鸦
一句话改变多种风格:水墨画
想自己玩一玩的同学,可以去下面huggingface的公开地址,可能需要排队:
https://huggingface.co/spaces/stabilityai/stable-diffusion
也可以去以下几个产品地址去体验(基本都是基于Diffusion模型或SD的二次应用):
画宇宙:https://creator.nolibox.com/login
Dall-E:https://openai.com/product/dall-e-2
Tiamat:https://tiamat.world/
废话不多讲,一张图 + 一个例子告诉你什么是GAN
图中的黑色虚线表示真实的样本的分布情况,蓝色虚线表示判别器判别概率的分布情况,绿色实线表示映射的生成样本的分布。
Z-X 表示均匀分布采样得到噪声z到表示通过拟合生成器x之后的分布的映射情况。
目标是使用生成样本分布(绿色实线)去拟合真实的样本分布(黑色虚线),来达到生成以假乱真样本的目的。
(a)状态处于最初始的状态的时候,生成器生成的分布和真实分布区别较大,并且判别器判别出样本的概率曲折不稳定,因此去训练判别器来更好地分辨样本。
(b)样本状态是通过多次训练判别器来达到,此时判别样本区分得非常显著和良好,能够明显做出分类判别。然后再对生成器进行训练。
(c)样本状态经过训练,使得生成器与判别器进行对比,能够拟合学习到新数据,此时生成器分布相比之前峰值逐渐逼近了真实样本分布。
(d)状态经过多次反复训练迭代之后,使得生成样本分布拟合于真实样本分布,并且判别器分辨不出样本是生成的还是真实的(判别概率均为0.5)。也就是说我们这个时候就可以生成出非常真实的样本,达成目的。
是不是看着很晕,你先不要晕,其实很简单:GAN就是包含两个东西,生成器G(Generator)和一个判别器D(Discriminator)。整个工作过程就是这两个东西在对抗,在对抗的过程中,自己让自己更完美。
举个例子!举个例子!举个例子!
一个村子以前很平静,直到有一天突然发现有一户人家丢了东西,也就代表村里出现了‘小偷‘,为了让村子恢复宁静,村长决定带着几个人抓到这个‘小偷’。
村长带着人查找‘小偷’留下的蛛丝马迹,通过各种’手段‘把‘线索’关联起来,抓到这个‘小偷’的时候,就给村长这些人积累下了宝贵的抓贼经验。下次再出现小偷的时候,村长抓贼的效率就更高了。
那小偷也不是闲着的,下一个出现的小偷,一定会吸取前人的经验教训,手段更加高明。
就这样一来一回中经过长年累月的积累,村长的抓贼小队积累了丰富的抓贼经验,能够通过线索快速判断是否被偷,小偷在哪里。
小偷也积累了丰富的经验,能够不断躲避抓捕。
这里的抓贼大队和小偷就是对抗关系的双方。小偷就是生成器G(Generator),抓贼大队就是判别器D(Discriminator)。
所以GAN网络的训练就包括两个部分,不断的生成,不断的判别;判别让生成更准确,生成让判别更全面。最终生成的东西就接近真实效果。
是不是很像:道高一尺魔高一丈!只要是对抗关系的存在,都是在对抗中不断成长的!
一张图 + 一个例子告诉你什么是Diffusion扩散模型
Diffusion最早是15年的一篇文章提出的,但当时并不完善,直到20年时的DDPM才真正落地。
之后的事情大家也就知道了,从21年底到22年间,先后有OpenAI的GLIDE、DALLE2和Google的Imagen都用上了这个工作。
Diffusion的核心思想,就是把生成的过程拆成一个个简单的小步骤,而不是像其他模型一样「一步到位」,这样拟合起来相对容易,所以做出来效果很好,同时训练起来也更加稳定。
Diffusion Model (扩散模型) 是一类生成模型, 和 VAE (Variational Autoencoder, 变分自动编码器), GAN (Generative Adversarial Network, 生成对抗网络) 等生成网络不同的是, 扩散模型在前向阶段对图像逐步施加噪声, 直至图像被破坏变成完全的高斯噪声, 然后在逆向阶段学习从高斯噪声还原为原始图像的过程。
它从物理现象中汲取灵感;被称为扩散模型。扩散模型背后的中心思想来自气体分子的热力学,分子从高密度区域扩散到低密度区域。这种运动在物理学文献中通常被称为熵增或热寂。在信息论中,这相当于由于噪声的逐渐介入而导致的信息丢失。扩散建模的关键概念是,如果我们可以建立一个学习模型来学习由于噪声引起的信息系统衰减,那么应该可以逆转这个过程,从而从噪声中恢复信息。这个概念类似于 VAE,因为它试图通过首先将数据投影到潜在空间然后将其恢复到初始状态来优化目标函数。然而,该系统不是学习数据分布,而是旨在对一系列噪声分布进行建模马尔可夫链并通过以分层方式对数据进行撤消/去噪来解码数据。
Diffusion模型也包含两个过程:前向过程和反向过程。
前向过程:
通过加噪音去加强他的不规律的地方,破坏图片中规律性弱的地方,而规律性强的地方一时半会是破坏不了的,随着噪音的添加,规律性会从弱到强逐渐淘汰。
反向过程:
从一堆噪音点里向同性高斯噪声数据重建结果,前向过程可以理解为由各种已知因素推理出结果或者说事件发展的趋向,是由因到果。
实际上我们做的往往是是给出到某种现象某种结论,然后让机器去反推输出。那么机器就需要去猜测计算形成这种结果的各种因素,是由果推因。
举个例子!举个例子!举个例子:
有一桶10升的矿泉水,我第一次往里面添加了一滴墨水并搅拌让它随机均匀分布,这时观察这桶矿泉水发现是几乎没什么变化,那我滴入第二滴墨水,第三滴直到第N滴,这个过程中会发现水质逐渐浑浊变黑,只就是色素在水分子中的扩散。那么放在图像领域里,噪音就是墨水,图片就是矿泉水,把噪音一点点分批次的随机均匀的满足高斯分布的规律来注入猫猫图片中,从0到100到200到N次图片从清晰到微暇到模糊到麻花,猫猫的规律逐渐消失。
Diffusion和GAN的对比和优劣势
上文解释了两者架构和模型思想的区别,那到底为什么GAN这么快会被取代?
用OpenAI的一篇论文内容来讲,用Diffusion Model生成的 图像质量明显优于GAN模型。
DALL·E是个多模态预训练大模型,多模态和大字都说明,训练这个模型的数据集十分庞大冗杂。
发表这篇推特的马里兰大学的Tom Goldstein教授提到,GAN模型训练过程有个难点,就是众多损失函数的鞍点 (saddle-point) 的最优权重如何确定,这其实是个蛮复杂的数学问题。
正如谷歌所指出的同样的问题,其中一些是:
-
梯度消失:如果判别器太好,生成器训练可能会由于梯度消失的问题而失败。
-
模式崩溃:如果生成器产生一个特别合理的输出,它可以学习只产生那个输出。如果发生这种情况,鉴别器的最佳策略是学会始终拒绝该输出。谷歌补充道,但如果下一代鉴别器陷入局部最小值并且没有找到最佳策略,那么下一次生成器迭代就很容易为当前鉴别器找到最合理的输出。
-
收敛失败:GANs 也有这个频繁的收敛问题。
与GAN不同,DALL·E使用Diffusion Model,不用在鞍点问题上纠结,只需要去最小化一个标准的凸交叉熵损失(convex cross-entropy loss),而且人已经知道如何使其稳定。
这样就大大简化了模型训练过程中,数据处理的难度。说白了,就是用一个新的数学范式,从新颖的角度克服了一道障碍。
此外,GAN模型在训练过程中,除了需要生成器,将采样的高斯噪声映射到数据分布;还需要额外训练判别器,这就导致训练变得很麻烦了。
和GAN相比,Diffusion Model只需要训练生成器,训练目标函数简单,而且不需要训练别的网络(判别器、后验分布等),瞬间简化了一堆东西。
目前的训练技术让Diffusion Model直接跨越了GAN领域调模型的阶段,而是直接可以用来做下游任务。
从理论角度来看,Diffusion Model的成功在于训练的模型只需要模仿一个简单的前向过程对应的逆向过程,而不需要像其它模型那样黑盒地搜索模型。
并且,这个逆向过程的每一小步都非常简单,只需要用一个简单的高斯分布(q(x(t-1)| xt))来拟合。
这为Diffusion Model的优化带来了诸多便利,这也是它经验表现非常好的原因之一。
那Diffushion Model是否就是完美?
也不见得。
但是目前至少从趋势上来看,Diffushion Model领域确实正处于百花齐放的状态,但正如一直知名学者所述:
这个领域有一些核心的理论问题还需要研究,这给我们这些做理论的人提供了个很有价值的研究内容。
并且,哪怕对理论研究不感兴趣,由于这个模型已经很work了,它和下游任务的结合也才刚刚起步,有很多地方都可以赶紧占坑。
我相信Diffusion Model的加速采样肯定会在不久的将来彻底被解决,从而让Diffusion Model占据深度生成模型的主导。
而对于Diffusion Model的有效性以及很快取代GAN这件事,马毅教授认为充分地说明了一个道理:
几行简单正确的数学推导,可以比近十年的大规模调试超参调试网络结构有效得多。
不过对于这种前浪推后浪的火热,马毅教授也有不一样的观点:
希望年轻的研究员端正研究的目的和态度,千万不要被目前热的东西忽悠。
包括Diffusion Process,这其实也是好几百年old的想法,只是老树发新芽,找到新的应用。
一些补充概念:在机器学习中,对于有监督学习可以将其分为两类模型:
通过上图简单理解:
-
判别式模型是在寻找一个决策边界,通过该边界来将样本划分到对应类别。
-
生成式模型则不同,它学习了每个类别的边界,它包含了更多信息,可以用来生成样本
以上纯属个人整理的一些内容以及拙见,欢迎讨论!
-
上一篇
调查ChatGPT爆火之后,做培训课的已经赚了几百万
年初至今,ChatGPT和AIGC无疑是市场上最火的话题,巨头布局,创业者涌入,都在追逐着风口。不过,红星资本局注意到,Chat
-
下一篇
OpenAI这家公司是人工智能研究机构,由埃隆马斯克和萨姆阿尔曼等人创立。OpenAI的愿景是打造具有人类智慧的通用人工智能,为人类创造更多的福利。其主要特点是:
开放式研究:OpenAI采取开放式的研究模式,与学术界和其他组织合作,共同推动人工智能的发展。
先进的技术:OpenAI的研究成果在自然语言处理、机器学习、计算机视觉等方面处于领先地位。
社会责任:OpenAI重视社会责任,在推动人工智能发展的同时,也致力于解决相关的伦理和安全问题。
OpenAI主打的产品就是ChatGPT。ChatGPT是OpenAI推出了一种自然语言处理技术,采用了深度学习算法。其主要技术原理是采用Transformer架构的神经网络,通过多层次的自注意力机制实现对语言的理解和生成。应用场景包括:
语言生成:可生成各种类型的文本、包括文章、对话、故事、诗歌等。
问答系统:能够根据用户提出的问题,生成高质量的答案。
近期在做ASO的时候,ChatGPT可以提供很好的帮助。以前在做某个地区的评论的时候,通常是找到翻译公司,做完后再找当地人润色一遍。这个流程中涉及的人力、效率、准确性等都是一种挑战。但我们在最近的一次项目中,在ChatGPT中输入产品名称,告诉他需要写好评、需要写多少条,并且要中文和当地语言的对照输出,在几分钟内就可以拿到结果,同时还能提供各种各样的语气,比起协调三个部门/人,在效率和质量上有明显的提升。
ChatGPT还能做代码纠错,还能提取重要信息。在最新的付费版本里,可以把公开网站的地址输进去,请ChatGPT帮忙总结网站上的重要内容,通过各种各样的形式输出内容,这样对于阅读文章、报告可以提升很大的效率。
AIGC发展史
在OpenAI官网上展示了AIGC的发展史,分为以下几个阶段。第一阶段是1960年,对自然语言生成的探索。花了40年进行原始积累后,2000年达成了自动化文本生成。在很多新闻网站、网文小说都应用了很多年,只需输入关键词即可输出很多内容。包括最近一些产品模拟二次元对话,给他输入人设,都能输出很优秀的文本。
到了2010年,可以生成文章、对话、音频、图像。2020年开始到2023年,模型的成熟度和算法的更新,GAN、VAE、GPT、DALL-E等一些图像生成的产品越来越多的应用到日常生活中。到了2030年一定会有更多复合型的自动生成输出素材的工具来改善生活和工作。
OpenAI的发展大概分4个阶段。2019年GPT-2出现,当时担心被滥用所以仅提供一个接口。2020年GPT-3,是当时最强大的语言模型,具备1750亿个参数,具备创造力和智能水平。2021年图像生成类产品,代码生成类产品出现。2023年会有一些搜寻类的产品,会四处寻找数据增强模型训练。
OpenAI为了资金流更充裕,在和微软商谈的同时也在和很多公司谈过。那么为什么只有微软能做,其他大公司没有做?因为做算力算法包括数据量这样的事情,本源是为了阻止人类被毁灭。但对大公司来讲,这种事情商业化落地场景不明确,没有到达能够持续输出符合人类预期的成果的阶段。当具备一定的交互性和真实使用场景的时候,商业公司才会有使用价值。但是到达这步之前,没有人能够保证可以发展到这个地步,除了死忠粉或者是相信AI的人。所以微软是相信这点的,其他公司在这场军备竞赛中并没有拔得头筹。
所以2023年是一个大爆发,形成了用神经网络优化提高AI可靠性,数学求解和推理,凸显增强,元学习提高AI训练效率,参数也达到了3000亿。
此前AI Dungeon是基于深度学习技术的游戏生成系统,对于角色、场景、故事生成等方面还是很不错的。而ChatGPT则是语言模型的改进版,采用Whisper和Persona技术,可以用于智能客服、虚拟助手、聊天机器人等领域,可以生成更自然、更连贯的对话。
这里并不是说从0到1,而是说它生成的对话好不好,够不够自然,出错率多少。我们做互联网产品的,更多的是说产品是一个工具。比如做一个聊天系统,IM系统都会做,但是IM系统稳定性如何、使用数据库是否全面,数据安全性如何,用户体验如何,推广运营效果如何等,这些运营层面包括产品品质层面的事情,是GPT这几年不断进化来解决的问题。
OpenAI各产品也有不同的迭代路径和应用方式。ChatGPT更多是基于文本的领域;DALL-E更多是基于图像,包括图像编辑、根据文字生成高质量图像;CODEX更多是基于代码,用自然语言生成对应的编程任务甚至快速生成代码,补全代码。
AIGC在互联网的应用——游戏行业
接下来分享AIGC在互联网的应用,主要围绕游戏领域展开。AIGC确实对游戏的研发效能有极大的提升,比如我们去ChatGPT上问:我要做一个SLG,要参考某某产品,采用冰与火之歌的背景,ChatGPT都会给到一个尚可的输出结果。当然这个输出肯定没有专业的人员写得好,但是对于强数值的商业化游戏来讲,是可以给到6—8分的结果,在早期的测试是可以用的。因为这样可以节省大量的人力和想象的过程,他可以给你各种各样的数据库。
我们也可以直接问ChatGPT:你熟悉哪些领域。他对唯物主义的领域还是比较了解的,但是对于唯心主义的领域ChatGPT不太敢讲,因为方法论太多了,很难输出单一的结论。另外就是玄学,对于非物理、非科学领域ChatGPT不太会讲。此外还有宗教、政治领域,ChatGPT也不会说。
AIGC对游戏研发效能的提升
生成剧情和游戏设定,包括怎么做核心玩法、怎么做扩展玩法,游戏有哪些要素,配置表如何设定,都可以通过ChatGPT完成。
在Midjourney方面,GitHub上有个专门的站点,里面介绍了哪些提示可以有效输出你想要的结果。Midjourney这款产品对于英文的输入更加高效,如果需要同一角色不同pose或者体位的话,还是需要给它一个参考,说需要另外一个表情、姿势。这样的关键词给到它,可以生成一系列的图片。以前一周的工作量,在ChatGPT和Midjourney和配合下可能半天就能完成,大量时间是在和ChatGPT沟通,如何正确地提需求。
UI领域有一些工具号称能做到,目前只有一些视频。真正测试的版本相信在不久之后,通过大量数据的喂养和正向的反馈是可以做到的。
动画方面已经有一些开了先河的。还需要继续试验一下,哪些工具是合适的,可能还需要多个工具配合达成目标。
AIGC对游戏生命周期效能的提升
关于AIGC对游戏生命周期效能的提升,我认为会大量优化掉3—5年工作经验的人,最终只留下一个提需求的、一个审核和机器。更多的工作是喂给机器数据、素材,输出之后做初步筛选,慢慢让自己逐步自动化,最终只需要一个会使用这个机器的人。
从市场调研开始,确实ChatGPT能够给出一个比较完备的答案。但是它的答案是否准确,也取决于提问的人对这项事情的认知有多深。如果能立刻判断出答案有问题,给它一个反馈,那么ChatGPT能够比较好的沟通。比如问为什么没有提到运营层面,那ChatGPT就会说它遗漏了并进行完善。所以在市场调研方面,ChatGPT确实可以提升效率。包括有些文章不愿意写,交给ChatGPT后进行润色。包括竞品分析,只要是ChatGPT知道的,最终输出的结果还是可控的。
最早接触ChatGPT的时候认为它只会讲一些简单的东西,做一些很泛的事情。但随着数据量的更新以及问答的专业性和自然性,第二次使用ChatGPT的时候感受完全不同。比如我们直接问了他一款SLG怎么发,它给出的答案可能超出过80%以上3-5年经验的从业者。
所以,当我们喂给它的数据越多,它给出的回答越专业。当然对于8年以上的经验,ChatGPT还是会漏掉一些点。这个在接到API或SDK之后,可以进行定制化的设计。但最终使用体验,从调研到立项阶段,我认为可以节省至少80%的时间。
在研究AIGC的时候,我们发现了很多功能,包括自动生成PPT,自动生成日报,自动做图等,很多工具用起来很方便。市场数据的抓取,最终要落在更可控、更高效的立项报告。当然也不排除会漏掉一些点,毕竟是创意行业,让它做模板可以,需要思考需要创意的东西,还是需要人们思考。让工具配合我们进行合作,这样可以发展得更长久一点。
在团队组建的环节,我认为加一些AIGC的技术专家来调试工具和使用工具,还会加一些AIGC的算法工程师提升效率。如果公司规模比较大,这个队伍放在内部做全职就够了。如果是小团队,直接用一些现成的开源的工具也可以。这样会优化掉大量初级的人力,毕竟基础的重复的劳动已经被机器所取代,剩下的就是如何使用工具,如何形成高效解决方案等更有创意性的劳动。对行业来讲也是好事情,可以极大地提升生产效能。
到了Demo和研发阶段,可以高效地制作,同时极大的降低人力成本。游戏内容的话,目前对脚本的自动生成的成熟度较高;美术素材方面,很多公司已经开始用自己风格的素材喂养机器并输出图片再去挑选,可能节省了75%以上的美术成本;音视频方面的应用并没有图像和文本那么成熟,但我认为2-5年间就能发展到比较成熟,可以在创意行业大量使用机器输出内容、挑选内容,形成工业化体系。
到Soft Launch阶段,整个营销模型AI搭建也可以输出准确率更高的数据。因为以前搭模型的时候需要调用很多数据,抓取的数据越全数据越精准。以后这些事情都交给机器来做,那对生产力是极大的提升。
到了Release推广,包括运营数据分析,相信也会有AI来推送运营方案,如自动上架、自动推活动。自动化运营也能节省很大的人力,降低出错率,版本也更加稳定。
AIGC在游戏生态中的应用探究:如何提升效率与创意