AI大模型竟然“算”出1+1<2?AI算力那么贵,不能白给
文 | 木青
1+1=?
如果把这道题当作数学问题,答案无疑是「1+1=2」。如果是管理学导师,可能会告诉你:掌握好技巧,将人或事放在正确的位置,就能发挥「1+1>2」的效果。
不过这都是乐观的一面,成年人的世界不止这么简单,现实情况往往还有一种,如果没掌握对方式,单纯的叠加是带不来「1+1=2」的,甚至往往结果是「1+1<2」。
很残酷,就连风光无限的AI 大模型有时也逃不开「越努力越不幸」(越堆AI加速卡越慢)的魔咒。
例如,拥有成百上千加速卡的大模型算力平台,它们的整体资源利用率很难达到50%。
如今AI加速卡价格飙升,花大钱堆卡训练反而没达到理想效果,算力资源得不到充分发挥,这浓眉大眼的AI大模型怎么会如此不厚道?
在大规模的算力资源需求下,如何配置和维护高度复杂的算力基础设施以高效完成大模型的训练应用,已成为AIGC时代的全新挑战。
算力资源固然重要,高效利用好又是新的问题,既然已经从硬件层面垒好卡了,那就尝试从软件层面解决这一问题。
化繁为简,为算力硬件设施配备一个一站式管家
大模型支撑下的生成式AI时代来临了,随之而来的是对算力的强烈需求。
据OpenAI测算,2012年开始,全球AI训练所用的计算量呈现指数增长,平均每3.43个月便会翻一倍,目前计算量已扩大30万倍,远超算力增长速度。
根据OpenAI提出的PetaFlop/s-day衡量标准,GPT-3的计算需求约为3640 PetaFlop/s-day, 约等于64个A100 GPU训练1年时间。
简化大模型训练任务提交、确保算力资源的高效调度和训练健壮性是提高大模型算力平台效率的重要保证。
如同上述,大模型算力平台并不是算力的简单堆积,因此算力平台设计方面,考虑到庞大的算力节点规模带来的算力使用效率衰减的问题,以及在解决显存、通信优化问题时带来的系统层面变化问题。
浪潮信息智能业务生产创新平台AIStation凭借着专业的AI大模型开发与部署能力支撑,有效降低AI大模型算力平台的使用门槛,提升大模型算力平台效率,荣获2023全球智博会产品金奖。
AIStation现已开放试用
即刻申请↓↓
提升大模型算力平台使用效率
提高算力资源利用率,是一大整体目标,然而真正落在实处,却是细碎且繁琐的,因为大模型训练需要构建包含计算、网络、存储、框架等在内的系统性分布式训练环境。
而过去传统的分散化管理,缺少针对性优化的整体调度系统,导致大模型算力平台的整体协同性较差,训练算力效率低。
AIStation是专为人工智能开发和部署提供全流程支持的端到端平台,能够实现异构算力集群的统一池化管理,通过自研分布式任务自适应系统将训练底层的计算、存储、网络环境自动化配置,并提供自定义修改基本超参数功能,从而简化大模型训练前大量的、环境配置、依赖库适配和超参数调整工作。
同时,AIStation集成主流的大模型训练框架,支持针对大模型训练优化的框架如Megatron-LM、DeepSpeed、HunggingFace上的诸多开源解决方案,依托容器化技术,能够将运行环境、框架适配过程标准化、模块化,支持秒级构建运行环境,保障AI开发和AI业务的高效运行。
通过多种资源高效管理和调度策略,AIStation能实现万卡集群的毫秒级调度,提升整体资源利用率到70%以上。
全流程加速大模型训练,打通训练推理释放应用价值
除了一站式整体化繁为简,AI大模型均要经历训练和推理两大过程,针对这两大过程,AIStation也研发了自研调度和加速的策略。
首先是AI大模型训练阶段,针对这一过程遇到的算力网络搭建、数据加速、网络通信优化等瓶颈,AIStation通过镜像分发加速、数据缓存加速、网络拓扑调度、资源动态弹性伸缩的等特性,在提高计算资源利用率的同时加速整个训练过程。
来看下效果,AIStation通过数据缓存机制可让模型训练效率获得200%-300%的提升,与自研的网络拓扑调度与优化策略配合后,大模型的分布式训练线性加速比能够高达0.9,有效抑制性能损耗。
当前影响大模型训练效率的重要标准之一就是健壮性与稳定性,AIStation也通过提供全生命周期管理、故障容错、集群监控运维等一体化能力,能够实现训练异常和故障的全面检测和自动处理。
这样的一体化能力,方便复盘大模型训练中出现的问题,可以掌握具体哪个环节出现异常,有效缩短断点续训时间,降低故障处理的复杂度,以持续稳定的训练降低大模型训练成本和周期。
而推理则是支撑AI大模型走向应用落地的重要过程,AIStation实现了训练和推理全流程的打通。
AI迎来第三次浪潮后,以深度学习为代表的人工智能已经进入应用阶段,相比于训练阶段,推理方面,通常在数据量方面要求没有那么高,因此普惠落地的门槛相对更低,但需要的是尽可能快的响应和能耗效率优化。
对大模型实际应用中的调用突发性,AIStation可根据推理服务资源需求的变化及时调整资源配给,平台根据实时业务的请求量实现秒级服务扩缩容,可支持百万级高并发的大规模AI推理服务场景,服务响应平均延迟低于1ms,突发的访问高峰的响应效率提升50%。
一旦解决快速响应与能耗效率优化问题,AI大模型的落地应用将不再是难题,从而实现真正的问世。
如此,从训练到推理,AIStation进行全流程支撑,释放大模型应用价值。
浪潮信息——大模型先行者,用实践与创新赋能AIGC时代同路人
打造AIStation的浪潮信息,在AI大模型领域有相当丰富的积累和实践,对于如何更高效地训练AI模型更是颇有心得。
如何在大模型算力平台上获得更高的训练算力效率会直接影响到模型训练时长以及算力消耗成本,这对于提升生成式AI研发创新效率有着非常重要的影响。
早在2021年,浪潮信息就推出2457亿参数的大模型源1.0,对于像源 1.0 这样的巨量模型而言,需要专门设计算法来解决训练中的显存占用问题,同时还要兼顾训练过程中的GPU计算资源的利用率。
为此,浪潮信息基于AIStation进行大模型训练,通过合理设计张量并行、流水并行和数据并行三合一策略,精准调整模型结构和训练过程的超参数,最终实现源大模型训练算力效率达到44.8%。据公开资料表明,GPT-3大模型在其V100 GPU集群上的训练算力效率为21.3%。
源1.0消耗的总算力为4095 PetaFlop/s-day,每个GPU的实际训练性能达到140 TFlops。
对比一下其他的大模型,OpenAI推出的GPT-3消耗的总算力为3640 PetaFlop/s-day,其单GPU计算性能为12 TFlops;而微软和英伟达打造的5300亿参数量的MT-NLG模型用了4480个A100 GPU,其单GPU计算性能为113 TFlops,也低于源1.0。
积累了丰富的实践经验,浪潮信息AIStation正在助力AI新时代的合作伙伴更好更高效地拥抱人工智能。
在第七届IDC中国数字化转型年度盛典上,浪潮信息助力某大型商业银行打造的中高算力GPU并行运算集群创新实践项目凭借领先的智能化算力调度、大模型分布式训练能力以及高性能可扩展的软硬件系统设计,荣膺2022 IDC中国未来企业大奖中的未来数字基础架构领军者奖项。
背后正是浪潮信息AIStation的全力支持,为金融行业前沿的大规模人工智能模型开发训练和场景应用打下了坚实的技术基础,助力金融新业务新场景创新。
释放AI大模型潜能,普惠千行百业。作为领先的AI算力基础设施提供商,浪潮信息能够提供完整的算力平台设计能力以及模型训练能力,聚星成光,为更多AIGC的同路者提供支持,共同助力智算时代变革。
如果您有什么想说的,欢迎屏幕前你们在评论区留言讨论!我们将为点赞、评论、关注的同学们送上红包不限量哟~
2月13日,北京市经济和信息化局发布的《2022年北京人工智能产业发展白皮书》提出,2023年要全面夯实人工智能产业发展底座。支持头部企业打造对标ChatGPT的大模型,着力构建开源框架和通用大模型的应用生态。这是地方政府首提对于大数据、大模型方面的支持政策与发展目标。
在2023全球人工智能开发者先锋大会上表示,上海市副市长李政也表示,将建设更具影响力的人工智能上海高地,
ChatGPT受益分支!AI大模型引科技巨头争相入局,这些上市公司有相关业务