通用算力与专用算力:构筑大型AI模型的秘密武器是什么?

在21世纪的今天,如果你问科学家们什么是制约人工智能(AI)发展的关键因素,他们的回答无疑会包含这三个字:算力。大模型的训练和运行需要的计算能力远超我们日常生活中的任何设备。但是,什么是大算力呢?对于初涉这一领域的人来说,他们可能会有些迷惑。不过,要理解这个概念,我们需要首先区分两种类型的算力:通用算力和专用算力。
当我们谈论通用算力时,我们通常指的是传统的CPU(中央处理器)计算,这种类型的算力主要应用于各种常规计算任务。另一方面,专用算力,如GPU(图形处理器)或TPU(张量处理器)等,是为特定的任务或应用而设计的,例如深度学习或图形渲染。
AI领域的一个重要科学家,英伟达公司的CEO黄仁勋就曾指出,如果我们将AI视为未来的软件,那么算力就是新时代的燃料。没有足够的算力,我们就无法充分发挥大型AI模型的潜力。

当我们构建更大、更复杂的模型时,我们需要更大的算力。例如,OpenAI在训练GPT-3这样的大型语言模型时,就使用了大量的GPU和TPU。其巨大的计算需求,以及对数据处理能力的高要求,使得专用算力变得至关重要。
然而,挑战并非来自于获取大算力本身,而是如何有效、高效地使用这些算力。当我们在构建大型AI模型时,我们需要考虑的不仅仅是算力本身,而是如何有效地使用这些资源,同时也要考虑如何将大数据集和复杂的训练算法结合起来。
此外,大算力的获取并非无坑无陷。除了昂贵的成本,大算力的应用还面临着能源消耗、热量控制等问题,这些都是实际操作中必须要考虑的问题。
"大算力"不仅仅是一个关键的组成部分,更是AI发展的重要引擎。无论是通用算力还是专用算力,都在各自的领域内扮演着重要的角色。在未来,我们还需要更加深入地理解和掌握。
-
上一篇
NovelAI模型各参数解析以及对应关系
因为最近AI绘画比较火,但是很多人对这个里面的参数不太了解,所以希望这篇文章可以对大家有所启发。
-
下一篇
今天的演讲主要介绍我们公司做的开源软件 Colossal-AI 的一些技术原理和应用。
首先简单介绍一下我本人。我在加州大学伯克利分校获得博士学位,现在在新加坡国立大学任教,同时创立了潞晨科技。公司另外一位核心成员 James Demmel 教授是美国科学院工程院院士,也是加州大学伯克利分校前计算机系主任兼院长。
今天的演讲分四个部分。第一部分简单介绍大模型的挑战以及目前 Colossal-AI 社区的发展情况,接下来两个部分介绍一些技术细节,最后一部分介绍具体应用上的效果。
首先给大家展示一张图:横坐标是时间,纵坐标是 AI 模型的参数量。过去六年中,最好的 AI 模型参数量已经上升了 1 万倍左右。
比如,2016 年 ResNet-50 只有 2000 万参数,2020 年 GPT-3 已经达到 1750 亿参数的规模。据说 GPT-4 也是用的混合专家系统,跟谷歌 Switch Transformer、智源的「悟道」都是同一种技术。Switch Transformer 参数规模大概 1.6 万亿,据说 GPT-4 有 16 个专家(模型),每个专家(模型)有千亿左右(参数)。
所以说,过去六、七年 —— 从 ResNet-50 到 GPT-4—— 最好模型的参数量刚好大了 10 万倍左右。
但是,以 GPT-3 为例,模型构造没有到 100 层,ResNet-50 也是 50 层左右,层数基本上没变化,模型不是变得更深而是变得更宽,大了 1-10 万倍左右,也给 GPU 内存造成更大压力,但 GPU 内存每 18 月只增长 1.7 倍,这就需要对下一代人工智能基础设施进行优化或者重建。
所以,我们打造了 Colossal-AI 系统。这是 Colossal-AI 系统结构图,包括三个层次。
第一个层次是内存管理系统,因为大模型太吃内存。
第二部分是N-Dim 并行技术(N 维并行技术)。据说 OpenAI 已经用 10 万张 GPU 卡训练大模型。前两天一家美国创业公司融资了 13 亿美金,背后基础设施据说已经有 2 万张 GPU 卡。未来,从 1 个 GPU 到 10、100、10000 个 GPU ,自动扩展效率会对训练系统产生根本性影响,所以我们打造了 N 维并行系统。
第三部分是低延迟的推理系统,也是目前 Colossal-AI 的主要模块。模型训练好后要服务用户,用户每调用一次模型就是做一次推理,这跟成本有直接关系。所以,推理的延迟要很低,成本要降到最低。
虽然 Colossal-AI 开源社区只推出了 20 个月左右,但发展速度非常快。(下图)横坐标是时间,纵坐标是 GitHub 上的星数,可以看出 Colossal-AI 增长速度远超于传统开源软件。
Colossal-AI 增速也远超与 Colossal-AI 类似软件,比如 DeepSpeed。
目前 Colossal-AI 用户遍布全球。中国、美国、欧洲、印度、东南亚都有很多用户。在全球 AI 生态系统中也都发挥了更重要的作用。
WAIC2023新加坡国立大学尤洋教授:AI大模型的挑战与系统优化