要点
以下观点来自行业资深专家:
1.液冷白皮书主要是两部分内容。第一部分介绍了对液冷的需求情况,过去的存量机柜主要是风冷,现在因为PUE原因需要改造;第二部分是希望引入第三方液冷厂商,起到一个降低成本的效果。
2.数据中心的液冷评价指标主要看三个:PUE、系统安全性和在线维护。不同行业侧重点略有不同,但PUE一般都是最重要的。
3.关于液冷的成本,基本上是每千瓦风冷/冷板/单相浸没/双相浸没对应6000/10000/12000/15000元。浸没式技术虽然成本贵一点,但是能够提升算力功率,并节省占地面积,总成本还是划算。
4.服务器厂商的液冷项目绝大部分是自己液冷团队做,曙光在其中技术是领先的,并且优于第三方厂商。
S中科曙光(sh603019)S S浪潮信息(sz000977)S S高澜股份(sz300499)S
Q:数据中心评价液冷主要看哪几个指标?
A:主要指标有三个,其中最重要的一个是PUE。PUE的1实际上是指IT的耗电量,小数点后的数值表示数据中心的空调加照明的耗电量。然而,照明的耗电量很小,可以忽略不计。因此,对于液冷系统,冷板PUE指数基本上是1.15,好的可以做到1.1。另一个评价指标是系统的安全性和可靠性。例如,液冷系统可能会出现漏水问题,以及快速接头和热插板时是否会漏水。此外,换热效率、冷板的大小和尺寸,以及系统停息的时间和次数也是重要的参考。另外,冗余和在线维修维护也是重要的评价指标。对于一些数据中心来说,系统是不能停的,因此制冷系统需要连续运行,而制冷系统中的运动部件,特别是液冷系统中的水泵和阀门系统,会随着长时间运行而损坏。因此,能够实现在线维修、在线更换和在线检测是一个重要的目标。所以主要指标包括PUE指数、系统的安全性和可靠性,以及冗余和在线维修维护。
现在权重最重要的是PUE指标。
Q:服务器厂商很多都在做液冷,您能不能把各家之间给我们简单的对比一下?
A:现在市场份额主要由4家厂商占据。这4家厂商是头部的4家,排名第一的是曙光。曙光在2012年开始涉足这个领域。其他厂商则在17年和18年才开始进入市场,因为当时PUE降价后,大家开始寻找新的解决方案,所以进入市场的时间相对较晚,规模也较小。曙光的技术是最全的,冷板和浸没都有。排名第二的是华为,他主要是冷板技术。华为在17年开始介入智算中心,为采矿业等项目提供液冷技术支持。排名第三的是阿里,阿里自己为自己提供技术支持。从18年开始,阿里已经建立了五六个液冷数据中心,其技术偏向于浸没技术,主要侧重于自用,但现在由于团队规模较大,他们也开始向外部提供服务。第四家是联想,联想在超算领域的时间可能比其他厂商更长。联想最早是在中科院集团下的一家公司开始研发超算,但后来发现超算并不赚钱,于是转向其他业务。现在由于其他业务不景气,联想又回到超算领域,并希望在这方面取得突破。所以他们在技术方面有一定的积累,基本上还是技术上很有竞争力的。第五家是浪潮,浪潮主要侧重于冷板技术,这种技术含量并不高,只需要组建一个团队花费几百万就可以实现。浪潮目前有一些优势,比如改造和新建的服务器数量较多,服务器占有率也较高,所以他们在项目方面可能更有优势,虽然技术并不是最前沿的,但他们可能做的项目更多。另外还有一些第三梯队的厂商,如英维克、高澜股份等。这些厂商以前主要从事风冷空调和空调行业,因为他们本来就与数据中心行业有关。他们也意识到市场趋势,国家政策要求数据中心基本上采用真空冷却技术。如果你的数据中心新建小于1.5的,甚至1.5都不允许建设,否则就会被淘汰。
Q:您刚才说运营商希望引入第三方企业,哪些企业会比较快?
A:联通移动在技术上都了解,他们对这个行业已经进行了近两年的考察。他们对液冷的各个厂家也进行了一两年的考察,也知道行业技术含量不高。现在的关键问题是如何清楚地界定服务器与液冷之间的责任关系,这是一个非常复杂的问题。我给你举一个最简单的例子。目前市场上占有率较高的是冷板技术,它基本上占到了液冷60%到70%的份额。冷板技术是这样的,它的末端需要直接在CPU或者GPU服务器内部,通过一块中空的铝合金板或者铜板与CPU、GPU进行连接。铜板上面有一根管子,从服务器内部拉出来,然后连接到换热器板上,这个板里面流动的是去离子水,也就是纯水。然后再连接到水泵节能塔等一套系统,所以这套系统与CPU是紧密相连的。现在最大的问题是,如果要让其他厂家进入这个领域,首先要解决的问题就是如何明确责任。一旦出现问题,责任应该由谁承担,这是一个非常重要的问题。如果不能解决这个问题,其他厂家是不敢进入的。
Q:关于责任划分这个事,什么时候会出文件?
A.这个我不好预测,但估计不会太久。
Q:如果责任划分清楚后,字节阿里这些还是会用自己的团队么?
A:很有可能,因为他们也有自己的团队。
Q:服务器里现在液冷的比例有没有20%?
A没有达到。新建的占比可能有50%,旧的没改造的没达到这个比例。
Q:曙光和阿里联想相比,在液冷上是不是最领先的?
A:对,曙光的液冷设备在行业中处于领先地位,其项目数量和历史经验也是最多的。
Q:比如联想招标,其他团队能拿到这个项目么?
A:联想的项目基本上都是由他们自己的团队接手,而浪潮则拥有自己的团队。基本上浪潮做不了曙光的项目,曙光也做不了浪潮的项目。
Q:服务器厂商是否都掌握了浸没技术?
A:掌握了,阿里的技术非常成熟,同样,联想技术也经过了长时间的发展和完善,具备了相当的成熟度。中国曙光在单相和双相浸没节目方面的技术应用已经有多年的历史。总体而言,浪潮目前主要以冷板为主,浸没做的不多。
Q:曙光数创也拓展了一些第三方的项目,这个是靠什么?
A:拓展难度也不小,目前正在进行一个移动的项目,确保在服务器出现问题时能够承担责任。只要你能够承诺解决问题,别人就会选择与你合作。举个例子,如果你是一个服务器供应商,我可以提供维修服务。一旦你涉及到服务器的维护问题,就需要考虑到服务器供应商的角色。就像曙光公司,他们本来就是一个服务器供应商,他们可以提供服务器的维修和保养服务。无论是曙光的服务器还是其他品牌的服务器,他们都可以维修。
Q:您之前参与过超算中心建设,能否介绍一下具体需要多少液冷设备?
A:超级计算中心今年有一个特别大的项目,总投资额为123亿。该项目是在深圳,从去年12月份就开始动工了。这个项目实际上是从2017年开始筹备的,总共涉及320个液冷机柜。每个机柜的制冷量是40个刀片服务器,每个刀片服务器的功率为5000瓦,因此每个机柜的功率为200千瓦。每个机柜的造价基本上是500万,加上服务器的话,一个机柜的成本大约为6000万到8000万。整个项目中,320个机柜占据了80%的成本。此外,项目还包括了2000个存储机柜和40多个网络交换机。网络交换机采用了冷板技术,每个交换机柜的功率为24千瓦。项目还包括了8台冷塔和8个冷却泵,用于集中供能。冷塔放置在屋顶上,冷却泵用于将冷却液送到冷板后面的换热器中,然后再将冷却液送到服务器中。对于浸没液冷这一部分,是把45度的气体,通过壳管式换热器将45度的气体转化为液体,然后再用泵将液体送入320个机柜中。
Q:一台柜子500万是不是指液冷的金额?
A:对,一个柜子的价格为500万,这可能听起来很昂贵。然而,这个柜子是有两组,每个柜子的功率为400千瓦。400千瓦的功率相当于多少个普通机柜呢?根据计算,它相当于80个5000瓦的机柜。因此,一个400千瓦的柜子的算力非常强大。考虑到这一点,如果我使用这样的柜子,我能够缩小占地面积,使用这样的柜子会减少电缆母线的长度。虽然液冷技术的成本较高,但它可以降低总成本。在这个项目中,液冷技术完全可以满足需求。基本上,一个柜子需要占用10平米的空间,对于深圳这个项目来说,可能只需要几千平米的建筑面积就足够了,能节省很多其他成本。
(文章首发于同名gz号:【周期合伙人】)