大模型训练三堵墙一场少数人的游戏

公司新闻 | 2023-07-03 00:22

作者 | 张帅

“只要有GPU卡，把服务器买走都行”。3月份开始，张阳明显感受大模型带来的冲击，作为一家云厂商利来w66算力平台负责人，他意识到市场甚至有些盲目。“当时客户比较慌，相当于对产品都没有什么要求，不关心网络和存储，就是感觉大家都在抢机器，先抢过来固定住时间，然后再去看怎么用，那会大家还没有想明白怎么用。”

到了4月，有些客户已经尝试过或者见过大模型训练，逐渐开始想明白，大概知道想要什么样的配置。要一堆GPU卡，实际上是一个认知误区，大模型训练的实现依靠的是一个算力集群，包含整套的服务。

但不是所有企业都能驾驭大规模算力集群，这注定是一场少数人的游戏。事实上，微软和OpenAI的合作也已经证明，用云来训练大模型，似乎是更合理的选择。

作为中间层，云厂商向下屏蔽底层软硬件的复杂性，向上对接企业的研发和算法工程师、个人开发者等，此外背靠集团的云厂商，还具备资金、人才、数据等优势，也就最先开始声势浩大的进军大模型。

AI算力芯片、服务器/交换机、光模块/光芯片、数据中心、云计算……算力产业链条的每个角色，仿佛齿轮般咬合在一起，构成数字经济的产业发动机，如今，大模型让每个齿轮都极速传动起来。

训练基础模型，是一切大模型产业生态的起点，也只有闯过算力关，才能拿到大模型竞赛的入场券。

大模型训练的三堵墙

技术的发展有其延续性，正如微软Azure为OpenAI打造的“超级计算机”，经历了数年的演进才有成果，现阶段大模型训练比拼的，其实是过去几年厂商的战略预判与技术积累，能上牌桌的大多是老玩家。

“大模型存在明显的炒作过热倾向，行业应该更加理性，而不是套着大模型概念做资本或者业务的炒作。我自己的观点是，真的不要去考虑端到端地去做一个大模型，对于非要做的企业，我只能说有机会，但是挑战很大。”一家互联网大厂大模型产品负责人对钛媒体表示。

在学术界看来，OpenAI并没有做出革命性的创新，本质是围绕AGI产品进行的“工程创新”，但正是工程化造就了OpenAI和大模型的成功，工程化体现在大模型研究、工程、产品、组织各个环节，算力训练集群也是如此。

“工程化做得好也很难，它证明了往上堆算力，堆数据是可以往前推进的。”微软技术中心首席架构师韩凯对钛媒体表示。

这一看似简单的逻辑背后，对企业而言却是极大的考验——看不见可能的出路，担心巨大的投入没有产出，这是最大的风险，也是为什么国内没有先做出“ChatGPT”的原因——他们更多选择跟随，而不是对一条没被验证过的路投资。

算力集群的工程化，至少要突破三堵墙。

首先是“算力”墙。“完成一个千亿参数级别的大模型例如GPT-3需要314ZFLOPs算力的模型训练，而单卡只有312TFLOPS算力时，一张卡训练一个模型要耗时32年。所以需要引入分布式训练的方法，使用多机多卡的方式来加速模型的训练，包括比较常见的数据并行和张量并行。”天翼云资深专家陈希表示。

其次是“存储”墙。单显卡的显存已经无法加载千亿级参数。千亿级参数完全加载到显存大概需要几个TB，如果再考虑梯度、优化器状态等训练过程产生的一些中间结果，占用的显存量就更大了，往往需要上百张卡才可以支持。

所以厂商一般会引入流水线并行，将模型不同的层放到不同的节点的显卡内进行计算。对于这一组节点只需要加载某一些层的参数，降低显存的压力。

随之而来的是“通信”墙。大模型并行切分到集群后，模型切片间会产生大量通信，包括节点内多卡通信，节点间通信。几种并行方式都会涉及到大量的节点与节点间的通信，这时候就会对总线和总带宽都有很高的要求，要达到几百G的吞吐。

另外除了这三堵墙以外，还有一些其他问题：如大模型参数的增长速度和芯片工艺发展之间的矛盾也日趋明显。最近几年随着transformer结构的引入，平均每两年，模型参数数量增长15倍。而相应的芯片制程从7nm提升到4nm，单卡算力增长不超过4倍，芯片工艺发展落后于大模型的需求

大模型训练需要的不单单是算力，对存储，对安全，对训练框架都有一定的要求，需要一套比较完整的平台或服务来提供支持。“大家最近的一个普遍的感受，就是能满足大模型训练平台的提供商不多，高性能算力供应整体比较紧张。”陈希说。

为什么“他们”能成？

现在仍有不少企业毫无准备或者自我感觉有所准备，就冲进基础模型领域。

然而，如果细细研究现阶段做出基础模型的厂商，无一例外在AI领域都有足够积累，特别是底层基础设施层面，他们的实践也在验证“云是规模算力的最佳承载平台”这一判断。

“为了打造AI超级计算机，微软早在2018年就开始布局，除了OpenAI还投资了几个小公司，大数据是AI的前序，云计算基础设施是算力平台，大模型是算力、算法和数据的集合，微软的成功在于全栈能力。”韩凯表示。

回到国内，百度也遵循类似的逻辑。百度副总裁谢广军提到，算力和存储一定要达到更高的密度，才能够支持大模型。显著的问题还有网络互联，大模型训练用的比较多的显卡是带有NVLink高速互连的A800，需要比传统云计算做到更低延时、更高带宽，大量的小文件，也需要低延时、高存储的基础设施。

“大模型跑起来之后，还有非常多的地方需要加速，像通信需要加速、显存需要压缩、整个推理也需要加速。百度智能云能够把调优手段集成到基础库，对于大模型计算和推理非常有帮助。”谢广军说。

从平台的视角来说，不管是训练任务还是推理任务，单个的任务就需要非常长的时间，需要占用很多资源。怎么能够保证资源的充分利用，以及降低它的训练和推理时间。这里面需要切任务、调度、并行，对于模型训练的加速比和并行度的支撑。

同时，一个平台上往往有有很多任务，如何灵活调度，进而能够让这些任务充分地使用资源，甚至能够感知到异构算力的拓扑，使得平台效率得到提升……这类AI任务调度、容器化支持方面都有非常多的工作需要去做。

以文心一言的训练为例，千卡规模的A100或者A800数据并行加速比达到90%，其中用了非常多的调优手段和技术，百度智能云围绕着大模型一层一层做优化，在平台上分成了AI 计算、AI 存储、AI 加速和 AI 容器等四层，共同组成了 AI IaaS，这些基础设施可以支持上万亿参数大模型的训练。

此外，预训练模型需要通过千卡以上的集群训练，而在大多数情况，精调或者微调更普遍，基于大模型训练行业模型，相当于在树干上长树枝，不需要超大规模的集群，小几十张卡足以满足企业所需训练资源。

达观数据将在7月份正式推出国产版GPT“曹植”系统，也是得益于多年文本智能技术积累和垂直领域场景业务经验，算法和数据层面有所储备，而在测试阶段的算力层面，达观数据CEO陈运文表示，自建算力数据中心较为吃力，达观寻求了多种算力平台的支持，包括运营商算力中心、鹏程实验室等。

达观数据也曾尝试某家头部云厂商的GPU算力，但经过测算成本太高，租一年半下来的成本，足够达观数据自家购置一个自己的算力平台，达观数据选择了英伟达DGX高性能工作站方案，相当于英伟达自身做了很多集群优化，解决了存储和网络的大部分问题，直接买GPU卡自建集群和英伟达解决方案相比，综合性能相差一倍。

“我们自己的模型训练成本其实还是很高的，但是我们帮客户算过账，模型在推理阶段需要的算力投入并不大，很多客户只要单机多卡就够，硬件投入不算很大，但是给客户带来的效果和体验提升非常明显。”陈运文表示。

英伟达不只有GPU

小厂商用英伟达的商业技术补齐能力，大厂商以英伟达的硬件为核心构建高性能计算集群、提升性能，进一步缩短训练时间……基本所有厂商的大模型的推理、训练都高度依赖英伟达的GPU。

来自市场的消息显示，A800的价格一度超过8万元人民币，A100更贵，甚至超过9万元。

“英伟达的策略是既要确保每家大客户都能拿到货，同时又不会完全满足其短时大量的需求，这使得英伟达GPU保持在一个供应紧张的状态。”一位业内人士表示，英伟达全球A100的产能并不缺，供货没有问题，对于禁售A100之后，特供中国的替代品A800，英伟达特意开了一条产品线，因其产能相对有限，造成了供需矛盾。

一些厂商也在想其他办法，比如在香港建立算力集群，同时H800和A800复用了一部分产品线，未来H800的产能上来之后或许会压制A800，不排除英伟达会继续增加适用于中国市场的产线。

除了产量，高企的价格也源于英伟达芯片的工程化能力，这是其成为大模型训练核心的决定性原因。

业界内外对英伟达有两种极端认知：一种认为，英伟达难以战胜；另一种是诸多厂商在PPT上“吊打”英伟达。然而，即便在理念和先进性上领先，但这一切只停留在芯片设计环节，没有真正工业落地，也就无从对比。

现实情况是，在大模型算力领域，英伟达的壁垒在于GPU+NVlink/Infiniband网络+CUDA的组合能力。

以英伟达最新发布的GH200GraceHopper超级芯片，以及拥有256个GH200超级芯片的DGXGH200超级计算机为例，产品性能上至少领先其他厂商一个身位。

涉及到算力集群，RDMA网络成为大模型时代的底层通信技术，业内主要使用的是Infiniband、RoCE，NVlink仅用于GPU之间通信，InfiniBand网络则为通用高性能网络，既可用于GPU之间通信，也可用于CPU之间通信。

Infiniband网络以往在超算领域应用较为广泛，随后扩展至人工智能计算，2019年，英伟达以69亿美元收购迈络思，补全了自己了网络短板，目前IB较为成熟，很多厂商都在尝试自研RoCE路线，在部分场景下较IB网络还有一定差距。

例如文心一言，早在2021年6月，百度智能云开始规划全新的高性能GPU集群的建设，联合NVIDIA共同完成了可以容纳万卡以上规模的IB网络架构设计，集群中节点间的每张GPU卡都通过IB网络连接，并在2022年4月将集群建设完成，提供单集群EFLOPS级别的算力。

2023年3月，文心一言在这个高性能集群上诞生，并不断迭代出新的能力。目前，这个集群的规模还在不断扩大。NVIDIA中国区解决方案与工程总经理赖俊杰也提到，高速IB网络互联的GPU集群是大模型时代的关键基础设施。

据了解，百度仅半年时间就采购了数万片英伟达A800，其他互联网厂商的采购量也在上万片，刨除一开始发生了挤兑现象导致供不应求外，目前英伟达产品的供货周期在三个月以内。

CUDA（ComputeUnifiedDeviceArchitecture）软件生态，也是备受开发人员好评的产品，它允许开发者使用C/C++、Fortran等编程语言在英伟达GPU上进行并行计算，提供了强大的计算能力和高效的数据传输方式，使得GPU在科学计算、机器学习、深度学习等领域得到了广泛的应用。

目前，英伟达是大模型热潮中最受益的厂商，没有之一，即便是微软为OpenAI搭建的超级计算机，也依赖于英伟达的产品，绝大多数训练算力都来自于英伟达GPU，面对全球如雪花般飞来的订单，英伟达赚的盆满钵满。

其最新的2024财年第一季度财报显示，英伟达数据中心业务营收为42.8亿美元，创下历史纪录，与上年同期相比增长14%，与上一财季相比增长18%，股价也创下历史新高。财报具有滞后性，大模型带来的业绩增收还没有完全体现在财报上。

国产算力的机会

在自主创新的大背景下，大模型算力也在加速拥抱国产化，大家的态度是远期普遍看好，短期仍有挑战。大模型时代到来之后，很多国产芯片虽然有所准备，但是在最高端的芯片上存在一定的差距。

燧原COO张亚林表示，当前所有人在做大模型训练的时候，时间至关重要，现在大家需要成熟的产品，不会倾向于选用国产化芯片，避免遇到一些稳定性或者成熟度的问题。

但推理层面是国产芯片的机会，张亚林表示，推理模型本身支持的方向比较单一，只要在推理模型上做到极致的调优，把性价比拿出来，很多用户反而愿意用国产化芯片。“我认为现在国产芯片应该倒过来，先做推理和微调，然后慢慢通过研究所、高校、国家级实验室的研究，牵引到集群化的能力，从推理到训练的曲线会更加合理。”他说。

谢广军提到，AI芯片的发展比摩尔定律更加激进，也会有更大的下降空间。算力短缺一方面算力跟不上需求，另一方面，还是由于整个供应形势所带来的问题。

“大模型的需求也会加速国产芯片的迭代。以昆仑芯来讲，今年年底昆仑第三代，更加适合大模型，不管是训练还是推理，包括通信、显存都会有非常大的提升。我相信其他的国产算力也是这样的，国产算力更具备竞争力，会使得整个算力成本进一步下降，而且是加速下降。”谢广军说。

钛媒体App了解到，今年国产芯片的发展呈现错位状态，国产芯片还没有对标到英伟达最高端的产品，比如A100。有几家国产芯片厂商已经预备在今年晚些时候，推出类似的对标产品。不论是训练还是推理，国产芯片的发展或多或少有一些滞后。

与之对应地，英伟达芯片供应相对紧张，国产算力在明年之后，会有比较大的机会，现在算力市场还在急剧增长，国产芯片的匹配度不够，主要还是英伟达在增长，如果需求匹配上之后，国内芯片会有很大的机会。

张亚林表示，如果燧原要真的“杀”到互联网客户场景，一定是在他们需要的场景和业务下，具备1.5倍的英伟达产品性能，和两倍的性价比。

“互联网客户普遍追求极致性价比，但是在集群方面要看TCO（总体拥有成本），集群的软硬件整体价格、运维服务部署等，比如我1000卡的集群，跟英伟达的600卡集群对比，可能性能差不多，但是我性价比更高，同时我提供更好的定制化的服务支持，在市场上也是很有竞争力的。”他说。

6月，关于大模型算力的讨论渐歇，基础模型厂商初窥门径，要么身体力行地去训练大模型，要么买到更有性价比的算力，但总体来说，以算力为中心的大模型基础设施，成本依然处于较高的水平。

IT产业总是遵循否定之否定的钟摆定理，在大模型的产业热潮中，接下来算力的各个环节如何进化，也更值得期待。（文中张阳为化名）

大模型训练三堵墙 一场少数人的游戏

大模型训练三堵墙一场少数人的游戏