后 ChatGPT 时代下的大模型" 算力难 "问题," 快、好、省 " 的解法,又来了一个。
就在今天,享有 "AI 界奥运会 " 之称的全球权威 AI 基准评测MLPerf Inference v3.0,公布了最新结果——
来自中国的 AI 芯片公司,墨芯人工智能(下文简称 " 墨芯 "),在最激烈的 ResNet50 模型比拼中夺冠!
而且在此成绩背后,墨芯给大模型时代下的智能算力问题,提供了一个非常具有价值的方向——
它夺冠所凭借的稀疏计算,堪称是大模型时代最不容忽视的算力 " 潜力股 "。
不仅如此,墨芯此次还是斩获了开放任务分区 " 双料冠军 " 的那种:
墨芯 S40 计算卡,以 127,375 FPS,获得单卡算力全球第一;
墨芯 S30 计算卡,以 383,520 FPS 算力,获整机 4 卡算力全球第一。
而且墨芯靠着这套打法,在制程方面更是用首颗稀疏计算芯片12nm 的 Antoum Ⓡ打败了 4nm。
不得不提的是,这次对于墨芯而言,还是 " 梅开二度 ";因为它在上一届 MLPerf,凭借 S30 同样是拿下了冠军。
在与 GPT-3 参数相当的开源 LLM —— 1760 亿参数的 BLOOM 上,4 张墨芯 S30 计算卡在仅采用中低倍稀疏率的情况下,就能实现 25 tokens/s 的内容生成速度,超过 8 张 A100。
那么稀疏计算为什么对大模型有这般良效?
算力纪录再度被刷新
我们不妨先来看下,墨芯所刷新的纪录到底是怎样的一个水平。
以墨芯 S40 为例,在 MLPerf 数据中心的图像任务主流模型 ResNet-50 上,且在相同数据集、相同精度条件下,算力达 127,375 FPS。
这个 " 分数 " 是老牌玩家英伟达 H100、A100 的 1.4 倍和 2.9 倍!
△1、评测条件:MLPerf 相同条件、数据集、精度;2、A100 单卡算力数据选择近两届 MLPerf 最佳成绩;3、"*" 代表稀疏等效算力。
而墨芯 S30 计算卡,正如我们刚才提到的,获得了 ResNet-50 模型 " 整机 4 卡 " 冠军,其算力 383,520 FPS;是英伟达 H100 的 4 卡成绩的 1.8 倍,并且超过英伟达 A100 的 8 卡成绩。
△1、评测条件:MLPerf 相同模型、数据集、精度;2、"*" 代表稀疏等效算力。
再从自身对比角度来看,墨芯 S40 计算卡比上届冠军 S30 计算卡的算力增幅达 33%。
并且与上一次 MLPerf 相比,墨芯产品相较 H100 和 A100 的算力优势分别扩大了 20% 和 90%。
△1、评测条件:MLPerf 相同条件、数据集、精度;2、A100 单卡算力数据选择近两届 MLPerf 最佳成绩;3、"*" 代表稀疏等效算力。
在 NLP 模型 BERT 上,墨芯 S40 计算卡算力 5,069 SPS 达到英伟达提交的 A100 算力的 2.7 倍。
△1、评测条件:MLPerf 相同模型、数据集、精度;2、"*" 代表稀疏等效算力。
更重要的一点是,随着 AIGC 的大爆发,加速推理速度、可以在线实时交互,成为了亟待解决的需求,而这也是大模型落地的一大痛点。
而在本次 MLPerf 中,墨芯 S30 与 S10 计算卡在离线(Offline)与在线(Server)两种模式下,均展现出了优异的表现。
△1、评测条件:MLPerf 相同模型、数据集、精度;2、"*" 代表稀疏等效算力。
这一点,便证明了稀疏计算是具备同时兼顾高吞吐、低延时的独特优势的。
为什么稀疏计算会成为正解?
简单理解,稀疏化就是一种聪明的数据处理和模型压缩方式,它让神经网络在计算时,能够仅启用所需的神经元。
而稀疏计算就是将原有 AI 计算的大量矩阵运算中,含有零元素或无效元素的部分剔除,以加快计算速度,由此也能进一步降低模型训练成本。
自从 Transformers 掀起大模型浪潮后,稀疏计算也成为了大厂关注的重点方向。
2021 年,谷歌研究和 OpenAI 就罕见合作论文《Sparse is Enough in Scaling Transformers》,力证稀疏计算能为大模型带来数十倍加速。
而更早以前,2017 年 OpenAI 就发布了稀疏计算内核,实现了在同等计算开销的情况下,能计算更深的神经网络。
谷歌这几年也密集发布了稀疏计算方面的多项工作,包括 Pathways、PaLM、MoE、GLaM 等。
其中 Pathways 架构是稀疏计算领域的一项重要工作。谷歌在当初发布时将其称为 " 下一代人工智能架构 ",其技术博客由谷歌大脑负责人 Jeff Dean 亲自操刀撰写。
由此可见谷歌对 Pathways 架构及稀疏计算的重视。
这篇博客中写道,当今的模型是稠密、低效的,Pathways 能将它们变得稀疏、高效。
Pathways 能做的事,就是实现训练一个模型,完成成千上万件事情。
其核心原理在于稀疏计算,即在执行任务时仅稀疏激活模型的特定部分,计算真正有用的元素。
并且在该架构发布没几天后,谷歌就跟进了稀疏计算领域的另一项重要工作:发布基于 Pathways 架构的5400 亿参数大模型 PaLM。
之后,谷歌还提出了首个多模态稀疏化模型 LIMoE,它在降低模型计算量上的优势非常突出。
因为采用了稀疏计算,可以实现执行一次任务只调用模型中的一个子模型,那么这次任务的成本将会和标准 Transformer 差不多。比如 LIMoE-H/14 总共有 5.6B 参数,但是通过稀疏化,它只会使用每个 token 的 675M 参数。
就在今年 ChatGPT 大火后,稀疏化 GPT 方法也被提出,能够实现不降低模型效果的情况下,将大模型权重降低一半。
除了在算法架构方面以外,硬件计算侧对于稀疏化的关注也在提升。
比如英伟达就在其 Ampere 架构中首次支持 2 倍稀疏计算。
Ampere 架构为英伟达 A 100 带来了第三代 Tensor Core 核心,使其可以充分利用网络权值下的细粒度稀疏化优势。
相较于稠密数学计算(dense math),能够在不牺牲深度学习矩阵乘法累加任务精度的情况下,将最大吞吐量提高了 2 倍。
以上大厂的动作,无疑都印证了稀疏计算会是大模型时代下 AI 计算的有效解之一。
由此也就不难理解,为什么墨芯会押中稀疏计算这一方向,并取得最新战绩。
一方面是很早洞察到了行业的发展趋势;另一方面也是自身快速准确做出了定位和判断。
墨芯创始人兼 CEO 王维表示,他们从 2018、2019 年就看到了稀疏计算给 AI 计算带来了数量级上的性能提升。
与此同时,Transformers 开启了大模型时代,让 AI 从 1.0 时代步入 2.0,推动了 AI 在应用场景、算力需求等方面的改变。
尤其是算力方面,王维认为已经产生了质变:
" 小模型时代,用场景数据训练小模型,研发和部署周期短,对算力的需求主要是通用性、易用性。到了大模型时代,大模型主要基于 Transformers 模型架构,更追求计算速度和算力成本。"
而做稀疏计算,不只是墨芯一家想到了,前面提到英伟达也在推进这方面进展,不过王维表示,这对于 GPU 公司而言可能是 " 意外收获 ",但如果专注稀疏计算的话,需要做的是十倍甚至百倍加速。
因此,墨芯选择的路线是从算法提升上升到软硬协同层面。
2022 年,墨芯发布首颗高稀疏倍率芯片 Antoum Ⓡ,能够支持32 倍稀疏,大幅降低大模型所需的计算量。
墨芯在 MLPerf 中开放分区的提交结果刷新记录,也是对这一路线的进一步印证。
据透露,不仅在 MLPerf 上表现出色,墨芯的产品商业落地上也进展迅速。
墨芯 AI 计算卡发布数月就已实现量产,在互联网等领域成单落地。ChatGPT 走红后墨芯也收到大量客户问询,了解稀疏计算在大模型上的算力优势与潜力。
如今,ChatGPT 开启新一轮 AI 浪潮,大模型领域开启竞速赛、算力需求空前暴增。
如微软为训练 ChatGPT 打造了一台超算——由上万张英伟达 A100 芯片打造,甚至专门为此调整了服务器架构,只为给 ChatGPT 和新必应 AI 提供更好的算力。还在 Azure 的 60 多个数据中心部署了几十万张 GPU,用于 ChatGPT 的推理。
毕竟,只有充足的算力支持,才能推动模型更快迭代升级。
以上老师们自行阅读,从chatgpt暂定plus版订阅,到今天下午中国广电召开人工智能技术应用会 要求加快打造智慧广电“算网大脑” 无一不在强调算力为重中之中,在这抽象的行情里点了一盏明灯。
而墨芯的优秀表现,无疑为浪潮 将来面对国外芯片垄断的意外情况,多了一项强有力的选择。强强联合