聊聊这个算力新时代-韭研公社

异动

关注

社群

产业库

时间轴

公社AI

登录注册

聊聊这个算力新时代

古北路烧烤哥

2023-10-29 23:55:52

太长时间没有写深度帖子了，以至于很多粉丝都以为烧烤哥是不是换人了。。。

不过很久没有写深度帖子的原因，应该大部分人都清楚，这是因为当下的市场，没有那么大的持续性的逻辑和行情。很难像以前一样找到一个大板块大方向，有很好的产业基础和产业趋势，写一个帖子出来足以让诸多逻辑驱动的机构等大资金一起共振。

不过最近算力租赁这个方向实在炒的太火了，不得不仔细研究分析。

在经过与诸多产业公司和产业专家的深入沟通，查阅相当多的资料之后，还是有一些心得分享给大家的，主要结论如下：

1、算力租赁属于新兴行业，是一个非常值得重视的行业；

2、市场对行业的认知还在非常初级阶段，目前炒作也仅限于到卡数卡和规划算力的段子，非常表面；

3、未来胜出的以及股价最后能走出来的将是具备拿卡能力，拥有稳定客户，且在运维上拥有独特竞争力的公司。

下面讨论几个问题：

一、算力租赁行业的需求从何而来？

1、算力需求井喷

去年底今年初，以ChatGPT为代表的语言大模型应用惊艳世界，人工智能商业化落地预期不断抬高，全世界范围内涌现了一大批大模型创业公司，全球对于大模型科研的热情持续高涨，随之而来的大模型训练、微调、推理需求急剧增加，催生了大量AI算力需求。

AI应用根据其开发阶段，对算力的需求也不同。

在开发周期中，需要大量的训练侧算力；当模型开发完成上线后，则不再需要训练算力而是推理算力。

现阶段AI应用的开发如火如荼，需求主要为能够满足训练模型要求的算力；当AI应用落地潮到来后，对于推理侧算力的需求将更为旺盛。

以训练算力为例，根据英伟达和斯坦福大学合作的论文，GPT-3假设使用1024张A100（约600P）进行训练，端到端训练时间大约需要34天。

然而随着模型参数量的增加，需要的GPU数量非线性增加。

以GPT-3到GPT-4的迭代为例，参数规模增大10倍，对应训练计算量增加至少60倍。根据媒体SemiAnalysis报道称GPT-4参数量为1.8万亿，且采用更大的训练集，GPT-4训练过程中A100卡数量达到万张量级。

2、这些需求为什么没有完全被云计算厂商承接住？

上面第一小点大致解释了为何AI算力需求如此旺盛，但有个问题是这些需求为什么没有完全被云计算厂商承接住？

由于模型训练时要求大量GPU对同一个模型进行同时计算，但除了总峰值运算能力外，GPU间的连接方式同样直接影响了总体GPU的利用率。

传统的GPU集群在节点（单个服务器）内部可以使用大带宽机内连接，而在服务器之间仍然使用传统架构，故无法进行高效的多节点并行训练。

对于绝大部分业务级大模型来说，单节点（至多8GPU）是无法进行训练的。

而高性能集群大量在节点间使用大带宽光模块进行互联，能够极大的提升多节点训练时的GPU利用率。对于生产AI应用的客户，高性能集群的设计建设直接关系到对于客户能够提供多少的有效算力。Nvidia同样关注这个市场，发布了自己的集群Nvidia DGX GH200。

简单来说，大模型训练需要的是具备高速互联基础的高性能GPU集群，传统的单个的计算是解决不了这些问题的。

传统云计算厂商提供的服务为可伸缩的单节点，关注点为节点的可用性与可靠性，并无节点间超高带宽互联的基础设施，正如前文所说，无法满足大模型训练客户的需求。

若要满足客户训练的需要，只能规划建设新的集群，而无法重复利用现有的基础设施。

而高性能集群专长为模型的训练，若用于普通互联网业务，从成本角度出发是非常昂贵的不划算的。

综上，云计算厂商在高性能集群的业务开展上并无优势，所以算力新时代爆发的时候，云计算厂商承接不住这么大的井喷需求，不然就没有其他算力租赁公司什么事了。

3、为何大模型研发厂商不自建算力中心？

倘若只比较服务器采购成本与租金成本，算力租赁并不具备明显优势，但考虑到对算力的弹性需求，硬件采购、调试、维护成本，工程师研发时间成本，自建算力中心的模式对除了一部分算力资源复用率较高的互联网大厂外均不合适，算力租赁成为大多数大模型研发厂商的最佳选择。

除了大模型厂商，还有更多有训练和推理需求的客户，更是需要有算力租赁供应方的存在。

因为从推理侧来看，需求则更为旺盛。前面提到GPT-3大约需要1024张A100训练34天，而根据西部证券测算，ChatGPT的推理大约需要7000张A100算力卡持续运行来支持。

4、算力租赁业务的增速和规模

算力租赁业务应运而生，算力租赁行业是一个兼具确定性与成长性的新兴行业。

根据IDC数据显示，受AI影响，从2022年到2026年，中国区人工智能算力规模年复合增长率将达到52.3%。

燧原科技产品市场总经理高平表示：“往年，算力的年化增长率为20%至30%；今年，保守估计增速在50%以上，呈现井喷的状态。”

华为数字能源中国区副总裁胡春池称：“我们未来要真正掌握和占据数字经济的高地，中国人工智能的发展还有很长的路要走。站在未来十年来看，至少我们的算力需求的增长应该是在百倍以上。”

二、算力租赁行业的核心竞争力

算力租赁，简单来说就是一家公司进行高性能集群设计建造后出租其能够提供的真实算力。

集群的设计决定了不同规模任务下能够提供的理论算力上限。

之后主要需要采购浪潮、新华三等厂家的AI服务器（又称节点，内含8张英伟达算力卡），采购高性能网络模块，建设机房（自有或租赁），做好电源等配套，做好硬件维护，运行好软硬件调度，再将集群提供的真实算力出租给有大模型训练需求客户。

市场不少人对于算力租赁业务的认知还处于初级阶段，我在这里先指出几点细节：

1. 这里所指的算力卡特指支持高速互联基础的数据中心用卡（如H100、H800），不包含4090、3090等滥竽充数的卡，4090这些基本上只能租给视频渲染用户或者小型科研用户。如果一家公司只说自己有多少P算力而没有说明卡的类型，需要研究清楚。
2. 带GPU服务器的整租和高性能GPU集群出租具有本质区别，GPU服务器整租仅为多个单节点的整体出租，由于大多数普通集群节点间没有高速连接，客户无法将多个单节点组成集群进行训练。从商业模式的角度来说，服务器节点出租后使用权属于客户，客户如何使用、亦或闲置与出租方无关，与传统的IDC并无区别。
3. 具备算力调度平台的高性能GPU集群除了能提供极大的高于普通集群的吞吐量（算力使用率），还可以实现算力资源智能管理，通过合理的峰谷算力调度,可以通过多个客户间的共享实现大于100%的真实算力使用率，即“超售”。

超售对于利润提升有极大帮助，根据东吴9月测算微软A800服务器毛利约为42%，净利率约为20%，假设一家公司能通过提高算力资源利用率超售10%，将直接使净利率提升50%达到30%，这也是为什么云计算厂商能逐渐取代传统IDC厂商。

也就是说具备算力调度平台的高性能GPU集群厂商和服务器整租/托管厂商之间，在未来是逐渐取代和逐渐被取代的关系。

在此基础上，算力租赁厂商的核心竞争力还展现在以下方面：

1、拿卡能力

美国新一波封锁后拿卡更加困难，拥有拿卡渠道的公司拥有巨大优势。现在市场上谣言满天飞，经常出来哪个公司说只有他能拿到卡，其他人都拿不到。

其实现在的情况是，只要你有钱，愿意出相对高的价格，总能想方设法的拿到卡的。

所以拿卡说是非常重要，但是也没有传言的那么那么不可一世。

2、资金

在10月之前一套8卡H800服务器大概需要200万人民币，每1000P算力（按H800具备2P算力计算）光服务器就需要1.25亿，英伟达出口限制之后服务器价格涨幅可达50%。

现在最贵的基本上要按20万一匹的算力成本来毛估了。。。

想想现在那么多公司，动不动说几万匹几万匹的，他们知道是几十亿几百亿的生意吗？

这些公司有那么多钱吗？

算力租赁需要投入大量一次性成本，这是一次性资本开支哦，所以只有现金充裕及融资能力强的公司才能搞定这些。

3、机房等基础设施

那些说买了卡和服务器就能大干特干的都是吹牛逼的，尤其是超大规模的。难道卡买到了，服务器买到了，不需要机房和地方的吗？不需要配套的吗？建设周期哪里有那么快。。。

自有布局，自有高散热能力、高功率电源的机房，或者拥有良好的网络资源的公司拥有这个的绝对优势。

4、客户

训练算力的租赁对象主要是大模型公司等，国内的大模型公司主要就是那几个大厂，如果都搞不定这几个大厂的话，那训练算力买来租给谁还都不清楚。

推理算力的客户分布会非常广，需要有强大的客户组织和协调能力。

能够获取稳定的大客户，或者和运营商有较好合作关系的公司更具优势。
5、运营能力

具备持续运营、运维能力的公司更具优势。

类比光伏电站，前期行业兴起的时候，投资回报率高，IRR可达10%以上，催生了一批光伏电站运营公司。

到后期组件价格升高，光伏上网电价补贴下调，行业IRR一度降低至5%以下，一些运营能力差的公司就开始亏钱了，行业逐渐出清，留下的都是路线选择正确，运营能力优秀，能做好整个产业链的公司，能够有整体解决方案的公司。

要想在算力租赁行业活下来活得好，光靠现在的吹牛逼拿卡是远远不行的，除了拿卡，还需要有大量的资金、客户、基础设施等支持，还要有具备强大的运维能力，还要有高技术壁垒的算力调度平台的公司。

三、接下来算力租赁板块如何演绎？

通过以上分析，本文已经阐明了为何会语言大模型的进化会催生出一个新的行业，算力租赁公司的核心在于拿卡能力、资金实力、自有布局、客源、运营能力、调度平台、专注GPU集群等等。

接下来还有更大的催化就是人工智能应用的落地，近期，OpenAI 发布 GPT-4V、谷歌发布 RT-X、Meta 发布 AnyMAL，标志着多模态大模型进入加速迭代阶段，同时大模型监管政策不断完善，全面商用化的时点渐行渐近，大模型推理需求爆发的时间点越来越近，接下来一定要重视能做好推理侧算力租赁商业模式的公司。

假如一家公司像矿场一样找个电费便宜又好散热的偏僻地方建厂，那他的商业模式将只支持大模型训练，因为大模型推理（应用），需要良好的网络资源，需要低延迟和大带宽，将推理内容高效分发给客户。

总结来看，就是算力租赁是新兴行业，接下来是一个去伪存真的行情，蹭热度的公司会逐渐被淘汰。

而上游能拿到卡，自身有现成的大型基础设施，还有强大的运维能力，下游又能搞定诸多大厂客户的公司，将整合好全产业链，拥有整体解决方案，将从整个产业链脱颖而出。

究竟哪些公司能胜出呢？

估计每个人自己都有自己的答案，同样，我也有，不过我能看得上眼的起码账上现金要有这么多的吧。。。