谈谈云端大规模预训练模型,及其普惠AI工具的趋势(从ScaleAI模式谈起)
【前言】:从云计算CSP的视角,其所有下游DSA伙伴的商业模式首选都不应是处理器芯片销售,而是为用户端所供应的domanial workload提供一个隐性而专用的算力,甚至是编程框架统一但加速器类型随时可以切换的算力。因此,从CSP的角度是鼓励DSA碎片化发展的,CSP希望通过多样性的DSA来吸引多样性的应用场景/workload,从而建立起混合算力和IDC成本控制的壁垒 ,最终这些算力会通过虚拟化而转化为上层服务型经济,转化成各类XaaS。那么从CSP的视角,它便会大力发展自己的Framework/编程框架/IDE工具链/编译器/APIs,以此要求DSA提供适配来换取云用户的消费转化;通过这套工具和API,CSP抽取take rate的同时,也获得了由DSA引导而来的domanial workload的专精适配;理想情况下,CSP甚至希望维护一个Marketplace来罗列包括各类DSA在内的所有算力机型。那么,CSP主张推动大规模预训练模型的初衷就清晰了,一方面用数据丰度来换取较高概率的样本相关性,一方面逐渐完善/收敛自己的AI/AGI大模型。因此,CSP欢迎DSA的百家争鸣式的繁荣、欢迎各领域的专精设计和数据集、也欢迎理论上的图灵完备,同时出于机架适配及成本也会关注物理芯片的集成度和板级设计;唯独不关心定位在通用前景的初创型处理器,当云具备足够workload、成熟模型、忠实客群及TAM的考量下,最终CSP会自己研发或收购。
正式谈谈CSP大规模预训练模型及其普惠AI工具之梦的趋势,取一个现实中ScaleAI公司为例。当下类似ScaleAI的标注公司有不少,云端有云端的算法,线下有线下的帮派,但不外乎都是需要 成千上万名社会标记员+算法协同调参 的方式。以及伴随着AI应用场景的市场化,从事 数据集-人工标注-前置调参 的生意也越加繁荣,尤其对于自动驾驶和安防摄像这样的需要快速发现bias、快速修正并收敛模型的应用。
先看数据驱动AI的趋势,读者从中可以自行推断ScaleAI的商业逻辑。虽然从数学上看,AI的很多路线并不算科学突破,而是工程技术;因为理论上通过一组多项式函数即可无限的线性逼近那个光滑函数直至准确结果【泰勒公式】,至于逼近到什么程度才能拟合精确解则是未知,当下能够梯度迭代得出的仅是次优解/概率解/近似解;然而,如今很多的神经网络科学家却是认为这种线性逼近可以Stop了,所得共识是,AI计算模型就是应当需要不断反复训练+手工调参的工作才能得到最佳的次优解,这才是一项工程的常态。
但并非海量数据中的每一条都需要标注的,有些数据集只要规模足够,那么样本间的彼此依存关系和连接规律是可以被轻易发现的,这预示一种趋势:来自云计算大厂的全领域大模型训练能力和云边协同模式,会演变为AI寡头时代来临。思维发散一下:以后,拥有大规模算力集群的云计算大厂就要自己构建无标签的大规模预训练模型了,随后将模型release给下游的应用场景公司/算法开发者使用,后者再通过携带有domain-specific标签的自有的小样本模型子集再跑一遍微调和抽取,做到轻量化,再交付予应用场景中,以较低的算力/模型/参数开销做逼近式的、快速和循环迭代的,不断接近场景可用的准确结果,如此往复,就自然演进成上下游绑定的云边协同生态了…;同时,这也意味着,有监督学习的红利已经慢慢弱化了。基本上业界下一代人工智能训练的形态会是:大规模上游预训练+小规模下游微调的思路。NLP基本走通了这个思路(虽然如今GPT-3被批评只有记忆没有常识),但仍然存在由多义词导致的结果多歧义的诟病;CV也会跟随这个思路,且不存在上述NLP的问题,由此会改变CV的产业格局和开发模式,在这种开发模式下,而对于场景应用的开发者而言,适应算法并不难,要取舍的是适应这种生态。
要知道,当下的很多AI团队仍旧依赖通过算法变现的传统商业模式,但场景算法开发并不难,小型团队即可完成任务,难点在于让算法复用于、普惠于其他更多的场景;所以需要工业化的AI开发,一个算子/算法开发完成,可以泛化/通用到尽可能多的场景,让更多的使用者受益并为之消费。
而获得更好的泛化能力,当下的依赖是大数据集/大模型。比如人脑神经元就具备极强的泛化能力,就是源自人类大脑在繁衍过程中不断学习和接受的海量数据,虽不如计算机存储空间,但这些知识都是千万年基因遗传所沉淀的有效知识。因此,普惠AI需要尽可能多的数据样本,且模型需要足够强大,强大到能够从海量的无标签数据中捕捉出事物规律,捕捉个体样本彼此之间的联系,才能形成有效知识,并将所学知识应用到更多场景之中。当然,大数据、大模型就意味着大算力支撑。另外,就是参数量是重要指标,但不是绝对衡量指标,人脑神经元数量约是1千亿级别,约有100万亿参数量(或称为突触),远高于GPT-3 1750亿参数量的1000倍,但GPT-3裸模型依旧不如大脑的训练和推理灵活;因此当下的演进是,往往先训练一个大模型,再把它蒸馏/压缩到更小(甚至压缩1000倍),进而提炼小模型发布给下游场景适用(但并不能一上来就训练一个小模型)。
尤其对于小样本和长尾分布的场景,这是两个困扰很多AI用户的问题,全领域大模型更适用。通过大数据样本+大模型,即使这些海量数据没有标签,也有益于捕捉样本彼此之间的关系/规律,比如你看了太多猫的图片,但突然某天看到一张老虎图片,进而可以关联老虎的头、腿与猫的关系和相较差异,这样一来,甚至不需要看大量老虎图片去训练,便可以藉此解决小样本和长尾分布的问题。回顾工业场景的例子,假设用户提供了20万张图片数据集,且告知你其中的缺陷样本仅有200张,即1/1000,但是这200张缺陷样本是如何找出的才是关键;倘若通过云端大模型训练,虽然模型并未事先标注过图片,但它仍可以判断图片之间的关系,以及判断个体图片与其它图片的相较差异,首轮可能遴选出1000张缺陷假定,用户仅需针对这1000个类做小规模标注即可,但是这1000个缺陷假定也许并不覆盖真实的200张缺陷,假设仅覆盖160个,那么便需要第二轮再用已得到的160个缺陷样本再与大模型训练一次,再次迭代出的小模型,再次付诸小范围标注,不断迭代和逼近200张缺陷的准确结果。用户可以不断把自己的领域小样本结合大模型做训练,通过不断获得样本数据间的关系,不断的梯度迭代,逼近收敛为准确的小模型。从这一段描述的场景,也可以看到全领域大模型的实用性。
当然,大部分用户用不到最大的那个模型,也吃不下庞大的算力开销,往往会通过剪枝/蒸馏/压缩等方法尽可能缩小模型,甚至以损失精度为代价,压缩后可以相差1000倍+,进而提炼出小模型给下游场景适用;尤其比如部署到边缘,用于云边协同。但核心是,不能一上来就训练小模型,而是必须从大样本、大模型开始训练,再收敛和按需抽取为领域专精的小模型(例如基于prompt-based的调优),两者对于非标注缺陷的识别率差异是很大的;同时,这也更适用于诸如自动驾驶这种终身学习的场景,可以低开销的快速收敛一个刚刚发现的识别错误,这是云计算的优势,也是云创造普惠AI的优势,仅有云平台才具备大规模的、动态弹性分配的算力;尤其对于那些非均匀输送样本的领域用户,云算力会随着样本输送规模而弹性扩缩。
另外,当下CV和NLP面临的共同困难,都是标注信息的不完善,人工输入的标签已经不能更优指导学习过程,越来越多的基于DL的机器视觉已经到了足以质疑人工标签的程度,这些标签的价值也即将被榨干了;因为人工标注永远无法模拟人脑的推理过程,也仅能提供一些间接、可量化的信息。
要知道无标签数据的增长是超线性(甚至指数级)的,但是受到人力成本约束,有标签的训练数据的增长只能是线性的。这也就意味着,随着时间的推移,将来的学习算法必然会面临无标签数据远多于有标签数据的情况。此时,利用海量无标签数据的最佳方式,就是把训练过程分为两段:先在上游任务中利用大量通用无标签数据对模型进行预训练,再在下游任务中利用少量有标签的领域内数据对模型进行微调。在NLP中这套思路已经趋于成熟,而CV领域也在跟随这一模式,但因为视觉的domain太多太杂,给实际应用带来不少麻烦。
但上述论点显然不是终极答案,长期发展和护城河的关节还在于大厂自己的无/自监督学习水平,以及对于无标签学习后的评价指标是否足够准确和被认可。另外国内的大厂暂时还不具备这种能力,这样的能力是模型创新和奠基的能力,当下也主要就是Google和FB…等。
Hinton也曾说过【未来AI系统主要是无监督的;无监督学习可以从未标记、未分类的测试数据中提取知识——在学习共性和对共性是否存在做出反应的能力方面,无监督学习的能力几乎达到人类水平。比如在人类视觉皮层寻找启发:人类的视觉采用一种重建的方法来学习,事实证明,机器视觉系统中的重建技术增强了它们抵抗对抗性攻击的能力。然而,如果你采用一个拥有数十亿参数的系统,对某个目标函数执行随机梯度下降,它的效果会比你想象的好得多,规模越大,效果越好。这让一种说法变得更合理:即大脑计算某些目标函数的梯度,并根据梯度更新神经突触的强度。我们只需要弄清楚它是如何得到梯度的,以及目标函数是什么】。因此,无/自监督学习是未来的方向,但是现在还有很长的路要走。至少两个问题待解决:一是如何设计更好的评价指标;二是如何扩展到更大体量的训练数据上去。
【总结】如今,对于AI变现模式;BAT+HW、旷视、商汤等云计算和AI大厂都在构建全领域大模型,以及大算力中心;预示着AI寡头优势的形成。未来,工业化的普惠AI开发,行业上下游分工明确,大厂负责提供全领域大模型、大算力池以及全部开发配套和算法生态配套,小公司则无需做出端到端的实现,仅需要学习使用平台,并专注于应用场景发掘、小模型维护和算法生态即可;而对于中大型的政企用户,领域knowhow更强,领域样本也更多,同时对于成本要求也更为苛刻,常见需求是通过联邦学习的模式,联合分布于多地的模型共同训练和迭代,并最终发布于混合云或自建应用场景中,由于前期的AI后端作业受限于庞大的资源/算力开销,因此政企用户依然会选择云平台和AI大厂的资源,包括混合算力/存储/算法算子生态/调参工具链等资源。当下AI的研发成本实际比它创造的价值更高,AI的变现需要激活更多商业模式,同时活用方法,摒弃算法变现的旧传统和碎片化,驱动更多应用场景使用AI,让NN模型获得更优的泛化和普惠能力:让小公司专注于场景和产品,加快开发和产品发布效率,后端大模型训练需求则直接通过云平台供应全领域模型以及混合算力,并藉以云边协同快速落实于多种场景;AI的变现模式一定是依赖大量的边缘累积的广阔应用场景。
【BTW:】那么对于ScaleAI类似的模式如何看待?分别从用户视角和云计算大厂视角即可。一方面,当下的融资额不说明问题,财务VC出于基金流动性的需要也会追涨热门故事和热点项目,项目早期投资者更加乐见此景,无关于项目当期表现;二方面,作为从事AI-Labling-Service的公司,有经年累月的样本标注和调参经验,手中积累的行业knowhow和数据规模不可小觑,自己构建或是联合云厂共同运营全领域大模型,甚至推出独门的框架和工具链都是有可能的故事。
【BTW:】如下文中介绍的Dall·E使用120亿参数版本的GPT-3。相比之下,Dall·E mini的模型小27倍,参数约为4亿。而Dall·E mini使用大量预先训练好的模型(VQGAN、BART编码器和CLIP),而OpenAI从头开始训练。Dall·E接受了2.5亿对图像和文本的训练,而Dall·E mini只使用了1500万对。
-
上一篇
AI软件技巧,如何提高设计效率
原标题:AI软件技巧,如何提高设计效率
-
下一篇
不同的测试大类中,我们以满分 10 分计,如果某款大模型在某个测试小项中不符合要求或者体验不好,根据轻重每次扣除 1-3 分,最后剩余的分数为该大模型在这个测试大类的评分。
评测以及评分过程中难免会存在主观的因素,因此分数仅供大家参考。
由于接下来详细评测部分内容较多,为了方便大家更好地抓住重点,小编不妨先将评测结果先简要透露一下。这次对比横评共 10 个大项,每个大项 10 分,总分也就是 100 分。而具体四款产品的得分分别是:
讯飞星火:93 分
文心一言:84 分
360 智脑:75 分
通义千问:71 分
国产AI大模型哪家强?十大维度横评四款主流大模型!
自从chatGPT火热出圈,由生成式AI掀起的全球人工智能新浪潮就拉开了序幕,围绕认知大模型的类ChatGPT技术和产品正在不断涌现。