探讨AIGC的崛起历程,浅析其背后技术发展
本文分享自华为云社区《AIGC:人工智能生成内容的崛起与未来展望-云社区-华为云》,作者:杜甫盖房子。
AIGC被认为是继专业生成内容(PGC)和用户生成内容(UGC)之后,利用人工智能技术自动生成内容的新型生产方式。随着技术的发展,如Stable Diffusion和ChatGPT等领先技术的出现,AIGC逐渐在文字、图像、音乐、视频、3D等多种形式内容的生产上发挥作用。然而,AIGC的快速发展同时也面临一系列挑战,包括技术、安全、合规等方面。因此,我们既要拥抱变化,也要直视挑战,以期在不久的未来,AIGC能够在更多领域大放异彩,开启云计算产业链新一轮的景气周期。
发展历程
AIGC(Artificial Intelligence Generated Content),国内产学研各界对它的理解是继专业生成内容(Professional Generated Content,PGC)和用户生成内容(User Generated Content,UGC)之后,利用人工智能技术自动生成内容的新型生产方式。
来源:中国信息通信研究院和京东探索研究院
2022.09.23红杉美国发表了文章:《Generative AI: A Creative New World》,认为AIGC将带来新一轮的范式转移。2022.11.30 ChatGPT发布,用户飞速增长,AIGC走进了大众视野中。无论是技术工作者、内容生产工作者还是营销推广工作者,都应该对AIGC有一定的了解。
AI的发展大致可以划分为三个阶段,我们用一张图简单展示一下有关AICG的发展历程与典型事件:
参考:中国信息通信研究院
目前,AIGC正处于蓬勃发展的时期,大型企业加强投资布局,发布多领域的预训练模型,如谷歌发布了BERT、Imagen等模型,Facebook发布了OPT-175B、M2M-100等模型,微软投资OpenAI,发布了GPT4、Codex等模型,百度也在大模型领域深耕,发布了文心系列模型。此外,创业企业融资高涨,2022年10月,Stability AI获得约1亿美元融资,估值高达10亿美元,Jasper拿下1.25亿美元A轮融资,估值15亿美元。在应用侧,热点AIGC应用的用户数量呈指数级增长,例如ChatGPT用户破亿仅用了两个月。我们认为,AIGC 技术正逐渐渗透到人们的生活、工作场景中,AIGC技术发展与产业形态已初步形成,处于方兴未艾大有可为之时。
现状及应用
AIGC的发展依托于底层算力、算法的发展,从生成对抗网络(Generative Adversarial Network,GAN)开始,AI生成高质量内容的能力快速提升,一些具有代表性的算法模型的发展历程如下:
图源:《A Comprehensive Survey of AI-Generated Content (AIGC): A History of Generative AI from GAN to ChatGPT》
依托于这些算法,不同任务领域内涌现了一批预训练模型与应用:
从技术场景上看,AIGC逐步在文字、图像、音乐、视频、3D等多种形式内容的生产上发挥作用,在新闻稿、财报等结构化写作场景有较好的表现,在图像生成领域可以在细粒度上遵循人类指导完成指定主题内容的创作,如Copilot等生产力工具也纷纷涌现。
从更多的延展场景上看,AIGC可以有更广泛的应用,如合成数据,生成虚构但与目标场景保持一致属性的虚拟数据,从而避免AI一直为人诟病的数据偏见与隐私泄露问题;基于AIGC的虚拟陪伴也会带来更多的社会价值,已经有一些企业将人工智能技术应用到精神健康的数字诊疗服务上,为临床患者和广大心理亚健康人群提供高质量、低成本、个性化、全天候的情绪支持、心理咨询和干预方案。
技术浅析
这一波火爆的AIGC技术中,Stable Diffusion 开源模型与 ChatGPT 分别引领了图像与文本生成领域的热潮,AIGC也逐渐从简单的降本增效(如结构化写作)向创造额外价值(如AI绘画)转移,我们将对这两个模型的发展与其中涉及到的图像与文本相关技术进行简单介绍。
Stable Diffusion
AI绘画在过去的一年中一直是AIGC领域的热点话题,随着Stable Diffusion的开源,众多不同风格的模型纷纷涌现。而高效参数微调方法LoRA(「链接」)与精细控制生成内容的ControlNet(「链接」)的发布,更进一步让AI绘画发展为产业可用的解决方案。
Stable Diffusion从实现原理上,可以通俗的理解为这几步:
-
为了提升模型训练推理效率,捕捉高维信息,Stable Diffusion首先使用图像编码器,将图像从像素空间压缩到低维度的潜在空间;
-
使用如CLIP的文本编码器,将描述文本转换为文本向量;
-
在低维度的潜在空间中,基于一些条件(如文本向量)进行Diffusion过程;
-
使用图像解码器将潜在空间中的向量转换回像素空间来生成最终图像。
图源:《The Illustrated Stable Diffusion》
我们对Stable Diffusion中涉及两个关键概念:CLIP与Diffusion进行简单解释:
-
CLIP(Contrastive Language–Image Pre-training)是 OpenAI 在 2021 年提出的图文对训练的多模态模型,可以通俗的理解,CLIP可以判断图片和文本的相似度。预训练的CLIP模型拥有建立文本潜在空间与图片潜在空间对应关系的能力,使用CLIP对文本进行编码可以实现文字描述控制图像生成的需求。
-
Diffusion Model是 AI 绘画中非常常用的模型,在训练过程中,正向过程通过随时间逐步向图片中加噪的方式,让图片变成纯噪点图;逆向过程则是学习如何将一张噪点图恢复为高清图。在推理时,网络会随机初始化一个噪声向量,训练好的Diffusion Model在条件向量(如文本向量)的控制下逐渐恢复出图像向量,再通过图像解码器恢复为像素图像。
ChatGPT
ChatGPT (GPT,Generative Pre-training Transformer) 是一个能够理解人类语言并做出相应反应的人工智能系统,在ChatGPT发布之前,GPT系列大模型已经经过几轮迭代。
然而,之前的模型中存在一个典型的对齐问题,即大模型生成的响应不一定符合用户意图。产生问题的原因是,从本质上讲,语言模型训练的目标是预测下一个词,而不是按照用户意图来生成。为了解决这个问题,在ChatGPT的训练过程中引入了基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)方法,通过手动收集反馈数据 -> 训练奖励模型 -> 强化学习的训练流程提升了模型理解人类思维的准确性,可以通过一个简单的图示来展示这一训练过程:
ChatGPT多数令人惊艳的行为,如响应人类指令,利用思维链进行复杂推理等都是RLHF的产物 。
参考:How does GPT Obtain its Ability? Tracing Emergent Abilities of Language Models to their Sources
ChatGPT的成功,在技术上可以给我们带来几点启示:
-
细致的数据工程是模型成功必不可少的工作;
-
监督微调和强化学习是矫正模型生成内容的关键技术。
AIGC与华为云
目前,AIGC的市场结构可以粗略的划分如下:
AIGC与云联系紧密,AIGC应用依托于大模型的能力构建,而大模型的开发与运行都依赖云侧充足的算力。以ChatGPT为例,根据OpenAI报告, ChatGPT是在InstructGPT 基础上微调而来,参数量约13亿,因此预计ChatGPT训练所需算力为27.5PFlop/s-day,如果用NVIDIA V100训练需要220天。可见,AIGC应用浪潮对算力的需求是前所未有的,这将迅速拉动云计算需求。知名投资机构a16z在报告中阐述,几乎所有的AIGC相关应用都或多或少依赖云端的算力,因此a16z预测AIGC市场的大量资金最终流向了基础设施公司,平均来说,AIGC应用开发公司将大约20-40% 的收入用于模型推理与微调,而这部分通常直接支付给算力提供的云厂商。
算力作为AIGC的重要支撑,是影响AIGC发展的核心要素;除此之外,构筑在算力底座上的AI平台,又能直接影响AIGC应用的开发和运行效率。华为云拥有全栈全场景的AI能力,基于鲲鹏、昇腾的算力底座,提供了稳定高效的AI开发平台ModelArts,从数据处理到模型训练、模型推理,可以大幅提升AI开发效率。
此外,在ModelArts的资产社区AI Gallery中,也有很多AIGC相关的低门槛案例,如一键运行的AI作画案例(「链接」),已有18,000+的累计运行:
如果对AIGC感兴趣可以到AI Gallery(「链接」)体验相关案例。
挑战及展望
随着AIGC的快速发展,一些问题也逐渐浮现。在技术上,目前语言模型是基于统计的,这一机制导致回答偏差的存在,进而导致虚假信息传播的法律风险;数理领域中的生成内容错误较多,无法应用到银行、医院等专业性强的领域;模型仍不可解释与不可控,可能存在后门攻击、数据中毒、训练数据泄露等问题。在安全合规上,AIGC模型在训练过程中的数据使用合规问题、生成内容的知识产权问题,甚至是训练推理过程中带来的碳排放问题等,仍然存在很多挑战。
身处人工智能的下一个时代,我们不仅要拥抱变化,也要直视挑战。在技术方面,如何理解大模型的基本工作机制对模型安全与继续发展至关重要;除此之外,大模型训练与迁移流程优化是AI走向通用人工智能的关键。在技术发展的同时,AIGC的合规与治理应该引起重视。相信在不久的未来,AIGC将在更多领域大放异彩,也将开启云计算产业链新一轮的景气周期。
-
上一篇
Ubuntu内网穿透搭建网站:为本地网站配置自己的域名13—17
系列文章Ubuntu内网穿透搭建网站:建立本地数据库1/17
-
下一篇
经济观察网 记者 邹永勤它的问世,有可能带来一场新的工业革命;如果搭不上这班车,就有可能被淘汰。
这两个可能,是360创始人周鸿祎于2月9日下午在与搜狐CEO张朝阳的直播对话中对近期异常火爆的ChatGPT的概括性点评。在他高度评价的背后,则是三六零(601360.SH)日前因涉AIGC概念而股价强势三连板,当周成交量更是创下该股上市以来的历史新高。
而这,只不过是近期全球掀起的追捧AIGC/ChatGPT浪潮中的一个小插曲。通联数据Datayes!的统计显示,A股市场的AIGC板块指数从2022年12月29日最低点的912.08点(当天成交金额仅70.60亿元)起步,至2023年2月10日最高点的1240.80点(当天成交金额约487.69亿元),短短一个多月时间指数涨幅已然高达36%,单日成交金额更是翻了约6倍。而总市值方面,亦从2022年12月29日的4702.14亿元增加至2023年2月8日的6114.46亿元,期间板块内多只个股涨幅翻番,造富效应显现。
因ChatGPT而火
AIGC(即AI生成内容)并非是一个新出的概念,在此前的元宇宙大潮中它就曾被视为WEB3.0时代主流而一度备受追捧,后来因市场担忧其在产品落地和商业变现方面存在不确定性而不了了之。
此番AIGC概念的再度崛起,源于ChatGPT的火爆出圈并由此带来商业变现模式的确立。
公开资料显示,ChatGPT是OpenAI于2022年11月底推出的一款人工智能对话聊天机器人,是基于GPT-3.5(GPT-3的改进版)模型的变体。该产品甫一上线便迅速走红,到2023年1月底,ChatGPT的月活用户已突破1亿,成为史上增长最快的消费者应用。
虽然完全实现认知智能仍然任重道远,但是ChatGPT代表着人工智能在认知智能方面向前迈了一大步,通联数据资深算法专家薛伟对经济观察网记者表示,人工智能大致分为三个层次,计算智能、感知智能、认知智能。计算智能指的是具有存储和计算的能力,机器早已超越人类。感知智能包括视觉、听觉、触觉等感知能力,这时机器已经做的不错,而且有很广泛的应用了。对于机器来讲,最有挑战的是认知智能,指的是机器具有理解和思考的能力,掌握了知识,并且能够利用知识做推理和决策。
他进一步指出,ChatGPT模型中存储了大量的知识,并且能够做一定水平的推理,表现出了一些在之前的小模型中不曾出现过的能力,打破了模型性能相对于模型规模的线性增长定律,实现了指数增长。未来随着使用更大规模的语料数据,以及其他的技术上的进步,大模型有望继续提升认知智能的水平,更广泛更深远的影响人类社会。
对于ChatGPT这个新品,科技圈的大佬们均纷纷点赞,其中尤以前世界首富、美国微软公司联合创始人比尔盖茨为最。他多次在公开场合表示对ChatGPT的赞赏,并认为它的重大历史意义,不亚于PC和互联网诞生。
而周鸿祎在2月9日下午的直播中更是直言,GPT模型(ChatGPT只是GPT里面的一个子模型)的问世,宣告了计算机或者这种大算力在大力出奇迹的方式下,它对人类自然语言的充分理解,有可能带来一场新的工业革命;所以这也是为什么那么多的公司争先恐后都要搭上这班车;因为如果搭不上这班车,就有可能被淘汰。
那么,ChatGPT的大热为何又能带火AIGC概念?它们两者之间存在何种关系?
AIGC是通过人工智能技术生成内容,包括文字、代码、图像、音频和视频等,而ChatGPT则属于AIGC领域中一个具有里程碑意义的模型,用来生成文字和代码两类内容;薛伟强调,由于ChatGPT在文字和代码生成上表现出了非常出色的能力,尤其是在知识存储和推理方面的质的飞跃,大大提升了AIGC在文本和代码生成上的可用性,极大的推动了AIGC的进一步发展。另外,ChatGPT属于OpenAI公司的GPT-3.5系列,有传言称OpenAI在2023年将发布GPT-4,而GPT-4有可能是多模型的大模型;也就是说除了文字和代码,它也可以生成图像、音频,甚至是视频。
中信证券在2月6日发布的研究报告中指出,ChatGPT的成功向我们展示了大模型是一个快速发展、快速引爆市场的机会型技术,未来具有巨大的商业化发展潜力。ChatGPT的出现以及相应产业化商业化的落地将会为从用户创作(UGC)到AI创作(AIGC)的转型提供关键的支持,在写作助手、在线翻译、情感分析、问答系统、代码开发、智能客服等领域商业化进程有望加速。并强调,ChatGPT有望率先落地AIGC领域,推动AI领域公司商业化进程加速,打开新的市场空间。
而东方证券的浦俊懿团队于2月8日发布的研报中表示,AIGC即人工智能内容生成,ChatGPT就是典型的文本生成式的AIGC,其目前的成功也有望带动AIGC在图像、音乐、视频等其他领域落地;随着ChatGPT开启付费订阅试点,AIGC的商业化进程正式拉开帷幕。
市场空间有望超万亿
浦俊懿在研报中还透露了AIGC领域已获得资本热捧。据CBInsights统计,ChatGPT概念领域目前约有250家初创公司,其中51%融资进度在A轮或天使轮。2022年,ChatGPT和生成式AI(AIGC)领域吸金超过26亿美元,共诞生出6家独角兽,估值最高的就是290亿美元的OpenAI,微软也在近期宣布将在未来几年向OpenAI持续投资100亿美元。
实际上,近期A股市场上亦有不少上市公司纷纷披露其在AIGC领域的投资进展,并因此引发股价的大幅上涨。比如云从科技(688327.SH)早于2022年11月底便在互动平台上表示他们在AIGC赛道上面已有所布局,并强调未来将继续在AIGC领域进行深耕。
此外,著名网络公司三六零于2月7日在互动平台上表态,该公司的人工智能研究院从2020年开始一直在包括类ChatGPT技术在内的AIGC技术上有持续性的投入;而昆仑万维(300418.SZ)则于2月8日在互动平台上透露,该公司在AIGC方向已有多项布局,且旗下的Opera浏览器目前正计划接入ChatGPT。
伴随着各大互联网巨头频繁介入AIGC领域,今年有望成为商业化落地大年,知名私募机构建泓时代资产管理有限公司副总裁赵媛媛在接受经济观察网记者采访时如是表态。
那么,这些在AIGC领域积极进取的上市公司又是如何看待这一产业的发展前景?记者日前以投资者身份致电云从科技董秘办进行咨询。
2023年会是AIGC的产业大年吗?