数智QA|运力缘何成为算力关键一环?

2024-09-20 18:00:00 0浏览

chhk2j9g242odhiy3mw36xp60pu5t5396425.jpg

要把PB甚至EB、ZB级别的数据从北京挪到广州,最快、最经济的方式是什么?

答案可能出乎很多人的意料:既不是用光纤,也不是用5G,而是用卡车运硬盘。

对,你没听错,就是装满硬盘的卡车。理论上一条千兆光纤理想状态下一天只能传输10TB数据,但一辆在高速上狂飙的卡车,只需不到30个小时就能把数千甚至数万块16TB规格的硬盘运送到目的地,“带宽”高达4TB/s以上。

98s9kedb6qdmsns0fvi39wsa2epm5b564421.jpg

AI时代,数据作为新型生产要素,正成为推动经济社会高质量发展的重要动力。数据的爆发式增长也对网络传输提出了前所未有的挑战。AI模型的训练、大数据分析、云计算服务等应用场景,无一不需要高速、稳定的数据传输作为支撑。用卡车运硬盘时“带宽”没得挑,但实话实说,网络延时、稳定性、可靠性这些“软实力”,卡车可就差强人意了。

那么,对于企业内部或数据中心而言,什么样的网络基础设施才能为包括AI应用在内的业务提供高性能、低延时、高稳定、强可靠的网络保障呢?本期《数智QA》,我们就来一起探讨网络运力的重要性。

7x3qwb6d6yguw6cp9r7xlu11k2y208943477.jpg

m41fqnb8rujuohmg98dwblksrsmg6s238443.jpg

在此背景下,算力的定义也被赋予了新的内涵。网络运载力(运力),这一衡量数据传输与连接能力的关键指标,与信息计算力(算力)、数据存储力(存力)一起,构成了算力不可或缺的三大“金刚”。

不仅如此,为了加强信息网络建设,“十四五”以来,国家相关部门也发布了一系列相关政策或文件,旨在推动国家信息化进程,提升信息网络基础设施水平,促进数字经济发展。其中,《关于推动新型信息基础设施协调发展有关事项的通知》,更是明确了新型信息基础设施是以信息网络为基础的基调,凸显信息网络及网络基础设施的重要性。

e9nha9rb6cx7vyd427wzsaieebk4ff182356.jpg

IB网络:InfiniBand网络通过信用流控机制实现无丢包传输,并提供QoS服务质量优化特定流量。虽说IB网络配置起来有点复杂,价格也不菲,但在科学计算和AI领域,那可是备受追捧的明星。

以太网:作为数据中心的基础网络技术,以太网也是紧跟时代步伐,不断进化升级。例如,使用RoCEv2技术可以实现远程直接内存访问,降低CPU负载并提高数据传输效率,拥塞流控可显著降低网络拥塞和丢包率。

g4is45pc0cnvaezux338qunjdifbwm902579.jpg

pk8m0lgk26zyzsjtatk3ssm2j9vwty516209.jpg

j54upbakt87hu16tc9oisf6fmkyiux707288.jpg

尤其是在AI应用场景中,网络吞吐量低下、转发时延增大、网络抖动等问题将严重影响数据传输,导致AI算力无法充分释放,拖累AI训练速度。

如何打破传统以太网的“紧箍咒”,构建更加高效、低时延、低抖动、低丢包率的网络设施,成为新形势下数据中心亟需解决的重大挑战。

bvkb4fpl9gz2vop997vq0vsu08ugi6687570.jpg

面向AI时代,联想中国基础设施业务群更是在“一横五纵”战略助推下,面向传统以太网、IB网络、RoCEv2以太网络构建了健全的网络交换机产品线,成为“全能”选手。今年以来,通过与锐捷网络全方位战略合作,联想网络基础设施更是全面囊括数据中心交换机、企业园区交换机、AI交换机等产品形态,全面覆盖千兆到800G,可满足大、中小企业及大型数据中心组网、智算、科学计算等不同场景网络需求。

48bgs21or0vgp90pjmta7ol4x9cuhp053835.jpg

近期,在原有网络产品线基础上,联想又发布了四款全新网络产品。包括问天NE8570-4C核心交换机、联想问天NE5530G-24/48GT4XS千兆交换机以及联想问天NE6730G-48XS8CQ 48端口国产化万兆交换机,进一步丰富和壮大了联想数据网络产品线。

7czql16xe0wpuduzteisns6lbg32t0265062.jpg

nw4o3iuo9ckv6iw68uglhc5bm4f5z6325406.jpg

同时,在数据中心组网方面,NE8570-4C核心交换机还具备了三大亮点:

去二层。使用Spine-Leaf三层组网架构,避免了传统数据中心二层架构在遭遇ARP(地址解析协议)广播、风暴、攻击时造成的网络阻塞、中断、拒绝服务等问题。整网CLOS(无阻塞网络)架构可为数据中心提供稳定、可靠的网络服务。

去框式。传统框式核心交换机由于涉及各个板卡之间的数据交换,延时性较高。NE8570-4C核心交换机采用高密度单芯片Box,免去了网板与板卡之间的交换环节,具备超低延时。可满足AI应用、智算、科学计算等应用需求。

去堆叠。采用Spine-Leaf架构后,Spine层可利用三层横向扩展,Leaf层每台机器都可独立运转,可确保即使在升级时也不断网,保证了业务的连续性。

经过实测,联想问天NE8570-4C核心交换机部署之后,硬件成本降低47%、电力成本降低71%、空间占用节省一半机柜空间,空间成本降低24%。另外,由于NE8570-4C绿色低碳特性,数据中心上线时不涉及改电等前期工作,上线周期相比框式产品缩短80%。在日新月异的AI发展浪潮中,有力提升了数据中心及企业的竞争优势。

mz3529c1zq1d1t1b9c9yg1u49cw4r2365558.jpg

以某央企研究院为例。依托联想问天NE2580E/NE10032E等网络产品,联想为该研究院成功部署了高速RoCE网络CLOS架构,构建了高效、可靠的IT基础设施基座。在联想成熟的科学计算解决方案支持下,实现了HPC集群间无疑、高效的协同作业。项目稳定运行后,人工成本直降50%,计算效率提升80%,业务团队得以解脱繁琐运维,专注新领域技术创新。

6qtyu3zwbd9xwnel33xbjlug62351j793501.jpg

而在助力“东数西算”战略方面,联想也为西部某国资云项目提供了SDN(软件定义网络)服务平台,并部署了云网融合平台和私有云平台。通过软硬结合的SDN服务,联想为客户构建了安全、稳定、弹性的云网底座,实现了两朵云之间的数据按需流动,满足等保2.0三级安全要求。目前该项目已经成为西北地区最大的算力平台,满足气象、能源、人工智能、生物医疗、生命科学、智能制造等领域的应用,并入选“数字化转型创新案例”。

数据网络是联想AI基础设施“一横五纵”战略的重要组成部分。面向未来,联想将依托万全异构智算平台,通过优化数据网络架构及“网络+”一体化方案组合,突破智算网络场景,实现服务器、存储、软件及超融合、边缘计算等资源的高效协同,加速千行万业智能化转型进程。

srgpsc1oo5e27nwkwtksw98lp0nkko272638.jpg