数智QA|揭开“智算”的秘密

2024-06-11 18:00:00 0浏览

p07i4anafis1w162hln1vclwm1t0ib903656.gif

以大模型为代表的人工智能技术异军突起,业界对算力的需求也犹如坐上火箭,开始极速飙升。你知道吗?从2018年开始,基于Transformer架构的大模型,训练算力以每年10倍的速度“狂飙”,简直比通用算力时代的摩尔定律增长要快上好几倍!

ug4qjhmv8hl3sow1al2batv9rqx4p6148735.jpg

这其中,智能算力(智算)已然成为算力增长的领头羊。仅仅2023年上半年,我国新建的数据中心项目中,就有一半是智能算力。这期《数智QA》,我们就来深入剖析智算的内在增长机制,揭开它的神秘面纱。

Q:什么是智能算力或者智算?

A:

智算听起来就很高大上。其实它是专门用于人工智能训练和推理的算力。其背后离不开GPU、ASIC、FPGA、NPU等这类异构芯片的支持。

智算的独门绝技是拥有强大的并行处理能力,可充分利用内置的成百上千个AI处理器同时展开“助攻”,在处理和分析数据时更加高效。

q1yabtw91ijk29msfb7id3n0zc0im2333836.jpg

Q:智算能干啥?

A:

智算的特性特别适合AI领域的各类应用,包括但不限于大模型训练、推理等。具体来讲,智算在科学计算、金融、医疗、交通、工业视觉、自然语言处理、多模态等领域的应用都已大放异彩,“6”到飞起。

就拿金融领域来说,智算已经是风险控制、金融建模的得力助手。医疗健康领域,智能算力在医学影像处理、基因组学、药物研发方面也都扮演着个不可或缺的角色。当然,炙手可热的智能交通领域,也离不开智算的加持,无论是智能驾驶,还是交通路况优化,它都能轻松应对。

aim0qhng82elt52ahomwz60qiz62ub751928.jpg

特别值得一提的是自然语言处理方面,智算已经渗透到了智能客服、机器翻译和文本挖掘等场景。广为人知的大语言模型如GPT4.0等,背后就离不开这位“大佬”的支持。可以说,智算是人工智能领域的“扛把子”,没有它的帮助,传统算力根本无法应对AI应用的算力需求。

Q:为什么要强调异构智算?

A:

打个比方,A厂或者B厂自家相近系列的GPU,各自组成集群,两队之间互不掺和。虽然没那么理想,但也可以算作一种“同构智算”。但在实际情况中,甲方为了成本、利旧升级、供应链等多种原因,往往希望把多家的GPU混合使用,共同扛活。这可以称为“异构智算1.0”。

你以为这就完了?还有很多企业觉得光GPU加速卡异构还不够劲,还想让GPU和CPU异构,更灵活地适应各种训练、调优、推理负载这些大活儿。甚至CPU还是多种型号、不同指令集,可以称为“异构智算2.0”。而随着智算的发展,又出了一种需求,就是把之前建设的HPC数据中心跟现在的智算中心融合,让HPC干点智算的事儿,让智算也帮HPC数据中心扛点活儿,这就来到了“终极”异构智算方案。不仅是多种GPU、CPU异构,还要实现智算集群和超算集群的异构。

3n0sdu1tbp4yjf2sevyk4xmwemzbdl965161.jpg

你说这像不像咱们人类社会?人体内脏各有各的功能,人与人各不相同,所处的组织也五花八门,但大家的目标都是让社会这个大机器运转得更顺畅。所以,异构智算现在被大家这么强调,也不是没有道理的。

Q:异构智算落地存在哪些挑战?

A:

在联想看来,算力使用者在使用异构智算时面临着四大挑战:

第一是如何选择和匹配算力。目前已有五种以上主流算法框架和十种以上算子库支持不同的应用场景。同时不同类型的GPU、服务器、存储和网络组成上百种不同的集群配置。场景、算法和集群之间的选择和验证,不但技术繁杂而且周期长。

其次是如何减少故障中断时间。目前千卡集群每月至少有15次故障断点,每次恢复训练需要几个小时,产生的额外费用超过百万元。随着AI集群规模从千卡到万卡,故障中断次数及恢复所需时间呈指数级增长。

第三是如何改善AI算力利用率。当前业内MFU普遍在30%左右,顶尖的集群利用率也只能做到50%。行业需要解决GPU卡利用率、集群通讯效率、AI故障恢复、算法匹配度等系统性问题。

第四是如何突破散热瓶颈,降低数据中心PUE

qohr8ng9ecrhutxq4zmb869u1bdwi9653324.jpg

Q:如何以技术创新化解挑战?

A:

联想万全异构智算平台的出现,则可以帮助应对如上极大挑战。在算力基础设施层,实现了各种协议和硬件的异构支持,计算支持海外和国产芯片(CPU、GPU、NPU、FPGA等),网络通信支持IB、RoCE以及各种私有协议,存储则实现了对各种主流并行文件系统、对象存储的兼容。

在基础设施的上层,联想拿出了5大“绝技”,从不同层面帮助用户解决实际问题。

4otdcbjna369jatofj3skmw9bcf1c7230650.jpg

首先是智能匹配算力的算力匹配魔方。用户只需输入场景和数据,算力魔方即可自动加载最优算法,并调度最佳集群配置。其次是GPU内核态虚拟化,可充分挖掘处理器潜力,让vGPU利用率从80%提升到95%。第三是联想集合通信算法库,可突破集群计算瓶颈,使训练效率提升10%—15%。第四是AI高效断点续训技术,实现了“用AI来预测AI”,能将断点续训恢复时间从数小时缩减到分钟级别。第五是异构集群超级调度器,破局算力孤岛,1小时内自动完成跨集群资源调度和共享。

简单总结一下就是,联想万全异构智算平台不仅支持多种AI加速器硬件架构的异构,还能实现智算集群、超算集群与通用计算集群之间的异构算力调度。

这里就不得不提到联想万全异构智算平台的独特之处——用创新技术打破计算效率的桎梏,提升算力利用率和可用性。在五大技术创新的支持下,联想万全异构智算平台就像是个加速器,能让你的应用部署飞速提升。同时还能帮客户省下不少“银子”。

Q:如何加快异构智算发展?

A:

以异构智算加速千行万业的智能化转型,这背后可不仅仅是技术革新那么简单,还得有强大的生态系统支撑。

bdapw87lz4eg0d7tq3e7gt0auc46e8679141.jpg

联想已经发起成立了异构智算产业生态联盟。该联盟框架由AI芯片层、AI设备与系统层和AI平台与应用层,实现了从IaaS平台、AI训练与推理到行业场景解决方案的全覆盖。

异构智算产业生态联盟首批共计16家成员单位,将陆续发布异构智算最新成果,同时计划推动《国际人工智能算力性能排行榜——AIPerf500》评选,共创及发布《异构智算白皮书》以及《2024国家行业发展报告(智能计算方向)》等内容,引导中国智算产业健康发展。

在智算浪潮下,联想将持续聚焦三大能力,包括为用户匹配经过验证优化的最佳算力、赋能用户充分利用算力提升计算效率,以及以先进液冷技术帮助用户节能增效,助力中国企业打造算力基石,释放数字经济新动能。