大模型浪潮下,数据中心如何“退烧”?

2023-08-09 18:00:00 0浏览

pmkvorn3lagzqiuw5t65db3yg5oq4h795831.gif

6enqowlk8neyfg6tr3i03o125wx8ff740805.jpg

世界迫切地需要算力。OpenAI数据显示,2012年以来,全球头部AI模型训练算力需求约3-4个月翻一番,每年所需算力增长幅度高达10倍。截止目前,算力需求已增长了超过30万倍。尤其是今年ChatGPT引发的大模型浪潮,进一步推动算力需求更上一层楼。

算力,作为数据中心的服务器通过对数据进行处理后实现结果输出的一种能力,对其需求的暴增,开创了数据中心的建设高峰——中国信通院、中商产业研究院共同发布的数据显示,2023年,全球数据中心市场规模可望突破800亿美元,我国则将向2400亿元人民币的整体规模发起有力冲击。

随着多元异构算力需求的持续增长,单柜算力密度的不断提升以及算力网络的逐渐体系化,数据中心难以避免的深陷能耗泥沼。

双碳”划下 PUE 红线

                 鞭策数据中心深谋远“绿”               

国家能源局数据显示,2020年我国数据中心耗电量突破2000亿千瓦时,占全国总用电量的2.7%,创历史新高。IDC预计,2024年数据中心耗电量将占全社会耗电量的5%以上,俨然成为了我国第九大高耗能产业。

大模型时代,这一问题更加突出。据悉,电力支出占大模型训练成本的60%,一次需要720万美元的电费开支。众所周知,高排放的化石能源发电仍是我国主要的电力来源,耗电越高,间接碳排放就越高。经换算,我国的数据中心产业年排放超过1.08亿吨的二氧化碳和5万吨的污染物。

p6g0fdmug6dhefrmdyldm0ik5ka0jm705768.jpg

在国家“双碳”战略的大背景之下,作为能耗巨大的底层基础设施,数据中心不仅承担支撑数字经济发展的重任,也是实现“双碳”目标的重要组成部分。

近年来,“东数西算”大型工程的启动、《新型数据中心发展三年行动计划(2021-2023年)》以及《贯彻落实碳达峰碳中和目标要求推动数据中心等新型基础设施绿色高质量发展实施方案》等,都在表明国家从政策层面鼓励和重视数据中心的绿色低碳发展。

“PUE”(电源使用效率)是衡量数据中心能源效率标准的行业指标,降低PUE值能在不影响数据中心算力的情况下,降低碳排放与运营成本。PUE值越接近于1,数据中心的绿色化程度越高。

基于此,国家及多地均推出了相应的政策法规,为PUE划下了明确的红线。到2023年底,新建大型及以上数据中心PUE降低到1.3以下,严寒和寒冷地区降低到1.25以下;“东数西算”工程中,要求内蒙古、贵州、甘肃、宁夏4处枢纽设立的数据中心集群PUE控制在1.2以内;京津冀、长三角、粤港澳大湾区、成渝4处枢纽设立的数据中心集群PUE控制在1.25以内。

红线之下,数据中心的“绿色建设”不再是附加题,而是必答题。走一条低碳和高质量的可持续发展之路,成为数据中心深谋远“绿”的所在。

            数据中心“热浪”来袭             

 风冷式微液冷崛起

前瞻产业研究院指出,散热系统是数据中心的能耗主力,占比超30%。降低散热能耗,算是数据中心“绿化”的头等大事。

CDCC发布的《2022年中国数据中心运营质量分析发展报告》显示,我国数据中心在业务需求的加持下,继续向高功率密度方向发展。相应的芯片热功率密度也在急剧上升,CPU已达到单芯片300W以上,GPU更是达到单芯片700W以上。

这些变化除了带来巨额能耗问题外,高热密度也对散热效率提出更高要求。

据《绿色高能效数据中心散热冷却技术研究现状及发展趋势》数据显示,现有数据中心建设中广泛采用的风冷散热方式,或是利用室外机+冰水机的冷却系统输出冷气对机房服务器进行散热的方式,单机柜密度一般只支持8-10kW,在机柜功率超过10kW后性价比大幅下降。而2025年AI集群算力单机柜密度将会达到20-50kW,这远超风冷的散热上限。此外,风冷散热下,数据中心的PUE值通常在1.5左右,难以满足建设绿色数据中心的要求。

与空气相比,液体的吸热能力更强,在同等单位体积下吸收热量是空气的近3000倍,能有效保障芯片在较低的温度范围内进行超频工作而不出现过热故障,具备“压住”计算卡的能力。同时,液冷数据中心无需机房制冷机和末端空调,可以让数据中心的空间利用率、算力密度和运维效率大幅提升,契合数据中心高密化的发展趋势;并且,服务器等数据中心核心设备也无需风扇,利用液体代替空气,有效降低数据中心PUE值——有数据显示,液冷系统约比风冷系统节省电量30%—50%。此外,液冷服务器还可以排除海拔、地域和气温的差距,保证运行效率和性能,具备规模化能力。

hr63af4l4eu01ferfpsm7fhc0aa7z2338320.jpg

成本方面,据施耐德《大型数据中心浸没式液冷与风冷投资成本分析》数据来看,在功率密度为10kW/机架状况下,风冷和液冷数据中心的投资成本大致相等。当提升2倍功率密度后,初投资可降低10%。当提升4倍功率密度,可节省高达14%的投资成本。

IDC报告显示,2022年中国液冷服务器市场规模达到10.1亿美元,同比增长189.9%。工信部2022年11月发布的节能技术装备推荐目录提及应用液冷技术,能使PUE低于1.1。显然,液冷正逐渐替代风冷,成为降低数据中心能耗的可靠方案。

                 联想温水水冷技术                 

打造能效新标杆

联想不仅是国内领军的科技企业,也是国内最早践行ESG理念的企业之一。依托自身硬核科研实力,联想独立研发的温水水冷技术,汇集材料学、流体力学、传热学等领域科研结晶,帮助解决数据中心散热过程中能耗高的问题。

0g83n5hdwrp9e5o4qydswxyykygcro085244.gif

温水水冷技术是指通过温水对数据中心服务器进行散热的液冷解决方案,不同于业内常见的水温保持在40~45摄氏度,联想通过大量实验数据分析认为,进水的温度最高50度,出水温度60度左右,可以获得最佳的能耗比和经济效用,这样服务器的水冷循环系统将实现全年自然冷却。通过联想温水水冷技术的应用,可减少对精密空调和系统风扇的需求,为数据中心节约42%的能耗和间接碳排放。相较于普通水冷技术,联想温水水冷技术可实现数据中心高达90%热能的回收利用,将数据中心的PUE降到1.1以下。这一数值不仅低于国内平均PUE值1.69,也低于“东数西算”对东西部节点要求的PUE值。

以采用温水水冷技术打造的上海交通大学“思源一号”绿色水冷高性能计算机群为例,“思源一号”总计算力为6千万亿次/秒(双精度),在中国高校高性能计算中排名第一。其计算密度是通用数据中心的5倍,需要的机房面积却不足通用机房的1/10。计算机运算过程中产生的余热,能够用于研究所球形大厅的冬季供暖、食堂厨房的热水加热、地下室除湿,以及实验室的空调温控,实现每年950吨的额外碳补偿。不仅于此,在去年北京冬奥会上,联想为北京气象局搭建了绿色高性能计算系统,通过温水水冷技术的运用,系统核心算力提升近20倍,年用电减少近200万度。

tqzcjh7iqr369q2temzi27wz9dc3oo924694.gif

在实践中取得成绩的同时,联想温水水冷技术还连续三年入选工业和信息化部编制的《国家绿色数据中心先进适用技术产品名录》,今年更是入选“携手构建网络空间命运共同体精品案例”,标志着联想集团得到国家级权威认可。

未来,随着“双碳”等国家级战略的稳步推进,在AIGC、东数西算等带动数据中心建设需求的趋势下,联想温水水冷技术将融合更多计算产品,推动数据中心温控市场的量价齐升。

一起发现更好的联想

ONE LENOVO

yxrq1r4szswyhmmdv9pket1ukj20gj972303.jpg