5月29日,英伟达CEO黄仁勋在COMPUTEX大会上发布了算力“杀器”DGX GH200超级计算机。这款超算专为大规模生成式AI的负载所设计,由256块GH200超级芯片组成,拥有1 exaflop超凡AI性能、144TB内存(是英伟达目前DGX A100系统的近500倍)、150英里光纤、2000多个风扇。
天风:总结来说这个GH200适用于部分特定场景,假设跟H100相比较的情况下,GH200算力提升角度对800G光模块需求砍半,但是端口角度需求变成原来的2.3-5.1倍,所以这部分特定场景的800G光模块需求是提升的,相当于原来的1.15-2.3倍。
广发:基于DGX GH200 900GB/s的GPU-GPU速率,以及两层的交换网络架构,我们测算得到铜线方案下的GPU与800G光模块比例为1:9,全光方案此比例是1:18。传统IB架构下此比例为1:2.5。由于DGX GH 200定价还未公布且其适用于中小规模训练(大型云商大概率选择IB架构或自研架构),目前尚无法定量测算其对800G光模块需求的拉动,但是边际上对800G光模块的消耗是提升的。由于英伟达未来更倾向于以整体解决方案交付而非单GPU,所以我们判断今明年英伟达对于800G光模块的需求将进一步增加。
华泰:①英伟达最新发布的DGX GH200方案,单位算力所需要匹配的800G光模块用量是H100方案的2-3.2倍;②但DGX GH200适用于部分场景,并不会对H100方案形成全面替代。
国金:DGX GH200虽然是小型算力集群,但在此架构下假设GH200与L1交换机、L2交换机全部采用光模块连接,从各环节osfp端口角度测算一个集群约需要5504个800G光模块,一片Superchip对应21个,与之前单片H100 GPU对应2.5个相比有较大提升。
民生:光模块:新架构全光方案GPU:800G光模块数量比1:18,半光方案GPU:800G光模块数量比1:9。测算方法:每个Node单向带宽450GB/s(900GB/s双向带宽),8颗Superchip累计3.6TB/s单向带宽,800G光模块实际传输能力为100GB/s,即一个Node单向传输需要36个800G光模块,全系统共2个上行方向+2个下行方向,累计需要144个800G光模块(对应8颗Superchip),即800G全光方案比例关系为1:18。类似的,400G全光方案比例关系为1:36,800G半光方案比例关系为1:9。