联想AI+丨让每一度电,都用于“计算”
在数据中心的世界里,每消耗1度电做“有用功”,整个数据中心为了支持其运转,就要额外支付一些电“做无用功”——这1度电加上额外支付的电,就是PUE值(平均电能利用效率,PUE=数据中心总能耗/IT设备能耗)。以健身房举个通俗的例子,如果PUE值=1.5,则意味着你花1500办的健身卡,有1000真正花在了“撸铁”,另外500则用作了其它方面的花销。
目前,处于国际领先水平的超大规模数据中心的PUE值,可至1.05-1.2,根据中国信通院数据,2023年我国在用算力中心平均PUE为1.48。值得注意的是,随着AI技术的发展和大模型算力需求的指数级增长,更高效率的散热技术成为大势所趋。追求更低的PUE值,在AI时代不仅是节能降本的考量,更是保障算力稳定、高效输出的关键基础。联想今年推出的“双循环”相变浸没制冷系统,实际落地的PUE值达到了世界顶尖的1.035。这意味着,你可以将96.6%的电费,都用在AI训练、推理上。
采用“双循环”相变浸没制冷系统的服务器所在的浸没式箱体
和此前提到的“飞鱼”仿生散热器(感兴趣的朋友可以点击《联想AI+丨用抱着冬瓜睡觉的原理,看“散热”的奇思妙想》)一样,“双循环”相变浸没制冷系统所在的服务器也“泡”在一个浸没式箱体之中。与“飞鱼”表面的冷却液慢慢吸收热量不同的是,在该系统中,冷却液在接触发热元件的瞬间发生汽化,吸走大量热量,变成气体的冷却液上升到顶部后,又通过冷凝器重新液化,回到设备继续循环散热。就像自然界中的水循环,水蒸发吸收热量,变成水蒸气上升,遇冷又液化成水滴落下,周而复始。
打开“双循环”相变浸没制冷系统所在的浸没式箱体,你可以看到附着于CPU/GPU之上的散热器表面,正不断地吐着“气泡”:
微孔设计
在散热器表面,存在肉眼难以看到的、密密麻麻的凹坑,冷却液在流经散热器时会被精准引导至凹坑内,瞬间汽化成气泡,吸走大量热量。
针肋设计
在微孔群上方,矗立着数十个金属立柱的针肋,通过特殊的环形沟槽设计,如同将低矮的平房改造成摩天大楼,可有效增大与冷却液接触的散热面积达60%。
针肋阵列
针肋之间的间隙,相当于为气泡形态的冷却液预留的一座座“高架快速路”,其采用“阵列”设计,让冷却液形成的气泡沿着“高架快速路”迅速撤离,避免了因气泡停留时间过长致“堵车”而形成“隔热云层”,云层一旦形成,就会像棉被般盖住芯片,让散热失效。
当工程师们将这套协同运行的“系统”注入铜铝之间,通过“微孔”、“针肋”和“针肋间隙”的协作,1000W级CPU的散热在工程层面被彻底驯服。
在传统的相变浸没式液冷散热系统中,大功率芯片散热器表面的液体冷却液汽化形成气泡并脱离后,若冷却液补充不及时,将导致局部换热能力下降,从而限制芯片的最大散热能力。在极端情况下,可能引发散热系统失效,影响设备稳定运行。那么,是不是有一种让吸热后的冷却液快速“冷静”下来,并补充到散热器表面的办法?
联想“双循环”相变浸没制冷系统示意图
为此,联想工程师们业界首创了“气液双相循环制冷架构”——为气体冷却液修了一条通道,将其送到外面的冷凝器“冷静”,同时又修了一条液体专用的辅助通道,让吸热后的液体冷却液“冷静”后再快速精准地回流到芯片散热器表面继续“吸热”,采用这种设计有三个好处:
及时补液:当芯片的功率越来越高时,其功耗也越来越大。此时,散热器表面的冷却液开始“咕嘟咕嘟”地冒小气泡,得益于“气液双相循环制冷架构”,促进了冷却液的流动,使得“冷静”的冷却液能马上流过来,把冒气泡的地方“补上”,进而防止某个区域的冷却液干涸,保证了散热效果。
避免气液相互干扰:这种双通道设计规避了传统相变系统中因蒸汽淤积导致的冷凝失效问题,气体冷却液和液体冷却液各自在专属于自己的通道上畅通无阻,使得气体冷却液不会挤在液体冷却液的路上形成“路障”,液体冷却液不会被乱窜的蒸汽气泡干扰或者堵住。
精准调控:配合工程师开发的“气-液相变”温控算法,可精准调控系统内气相压力及液体冷却液的温度、流量及流场分布,满足1000W级芯片散热,提高冷却液的制冷效率。
从实验室数据到落地的成果,这中间要经历一次次的创新尝试,新技术的应用也是其中一环。为了追求更极致的PUE值,联想的工程师们业界率先尝试了相变浸没式液冷领域的温差发电技术,利用一种叫做“热电材料”的特殊材料,将其两端分别置于两处存在高温度差的地方,实现了“废热回收”,回收电能可供给IT设备、制冷系统及照明等负载,进一步降低PUE。
举例来说,这种材料的一端是你37℃体温的皮肤,另一端是冬天0℃左右的空气,三十几度的温度差就会让这种材料发电,进而抵消甚至超过“做无用功”的电能。从理论上看,PUE值最低是1,但温差发电技术的出现,让PUE值小于1成为了可能。只是受限于这种技术的效率较低,距离PUE值小于1仍有很长的路要走。
但技术发展的脚步永不停歇,创新将赋予未来无限可能。从精密的微孔结构、高效的针肋阵列,到开创性的气液双相循环架构,再到探索废热回收的温差发电技术,联想的工程师们以一次次颠覆性的突破,重新定义数据中心散热效率的极限。也许在不久的将来,数据中心所消耗的每一度电,都将转化为支撑AI算力洪流的有效计算。