制作网站代码吗,网站如何做长尾词排名,网站开发晋升空间 路径,seo主要优化哪些当前#xff0c;“百模大战”带来了算力需求的爆发#xff0c;AI芯片产业也迎来巨大机遇#xff0c;“创新架构开源生态”正在激发多元AI算力产品百花齐放。面对新的产业机会#xff0c;AI算力产业链亟需通过上下游协作共同把握机遇。
近日#xff0c;浪潮信息AIHPC…当前“百模大战”带来了算力需求的爆发AI芯片产业也迎来巨大机遇“创新架构开源生态”正在激发多元AI算力产品百花齐放。面对新的产业机会AI算力产业链亟需通过上下游协作共同把握机遇。
近日浪潮信息AIHPC产品线高级产品经理Stephen Zhang在开放计算中国峰会就AIGC时代的算力需求趋势与开放加速计算发展之道进行了洞察分享他指出开放加速计算生态协作将有效赋能多元的AI算力产品创新发展为应对AIGC时代的算力挑战提供有益的解决之道。
以下为演讲要点
大模型带来对AI计算性能、互连带宽、可扩展性的爆发式需求开放加速计算技术为大规模深度神经网络训练而生应用导向的算力基础设施架构设计以及算力和算法的协同设计能够实现更高效的大模型训练开放加速计算在性能、扩展性、节能、生态兼容层面积累了丰硕成果
以下为演讲原文
大模型时代的算力需求及趋势
自ChatGPT发布以来大家可以明显地感受到全社会对于生成式人工智能技术的广泛关注ChatGPT出圈之后带来了更多参与者模型的数量和模型参数量不断激增。据不完全统计我们国家的大模型数量已经超过110个这就带来了对于AI算力需求的剧增。 针对大模型发展带来的严峻算力挑战我们进行了大量的需求分析和趋势判断。从AI服务器算力及功耗随时间变化的趋势来看要解决大模型的算力短缺问题最直接的方式是提高单机的算力。从2016年到现在AI服务器单机算力增长近100倍功耗从4千瓦增长到12千瓦下一代AI服务器的功耗继续增长到18千瓦乃至20千瓦以上。AI服务器的系统架构供电、散热方式以及数据中心基础设施建设模式将难以满足未来高功耗AI服务器的部署需求。
其次大模型参数量增长对GPU数量的需求也随之增加需要更大的显存容量承载。2021年一个千亿规模的大模型需要3,000 GB显存容量空间承载换算过来需要将近40张80G的GPU才能放得下这个模型包括权重参数、梯度数据、优化值数据和激活值数据。今天很多大模型的参数量已经超过了万亿规模显存容量将会达到30,000GB需要将近400块80G显存的GPU才能承载这意味着需要更大规模的算力平台才能进行如此规模大模型的训练。
更大规模的平台会带来另外一个问题即卡与卡之间、不同的节点之间的更多通信大模型的训练需要融合多种并行策略对卡间P2P互连带宽以及跨节点互联带宽提出了更高的要求。
以2457亿参数的“源1.0”大模型训练的工程实践为例“源1.0”训练共有1800亿Token显存容量需求7.4TB训练过程中融合了张量并行、流水行并行、数据并行三种策略。单节点张量并行通信频次达到每秒82.4次节点内通信带宽最低需求达到194GB/s。计算节点内会开展流水线并行跨节点通信带宽达到26.8GB/s至少需要300Gbps通信带宽才能满足流水线并行训练的带宽需求。在训练“源1.0”过程中实际用到两张200Gbps网卡进行跨节点通信数据并行通信频次低但数据量大带宽需求至少要达到8.8GB/s单机400Gbps的带宽可以满足。
随着模型参数量进一步增加以及GPU算力的成倍增加未来需要更高的互连带宽才能满足更大规模模型的训练需求。
开放加速计算 为超大规模深度神经网络而生
面向AIGC大模型训练的计算系统需要具备三个主要特征一是大算力二是高互联三是强扩展传统的PCIe CEM形态的加速卡很难满足三个特征需求因此越来越多的芯片厂商都开发了非PCIe形态的加速卡。
开放计算组织OCP在2019年发布了专门面向大模型训练的加速计算系统架构核心是UBB和OAM标准特点是大算力。Mezz扣卡形态的加速器具备更高的散热和互联能力可以承载具有更高算力的芯片。同时它有非常强的跨节点扩展能力可以很轻易地扩展到千卡、万卡级的平台支撑大模型的训练。这个架构是天然适用于超大规模深度神经网络训练的计算架构。 但是在OAM产业落地过程中很多厂商所开发的加速卡依然存在硬件接口不统一、互连协议不统一同时软件生态互不兼容带来了新型AI加速卡系统适配周期长、定制投入成本高的落地难题导致算力供给和算力需求之间的剪刀差不断加大行业亟需更加开放的算力平台以及更加多元的算力支撑大模型的训练。
对此浪潮信息开展了大量工作包括技术上的预研和对产业生态的贡献。2019年开始浪潮信息牵头主导了OAM标准的制定发布了首款开放加速基板UBB同时开发了全球首款开放加速参考系统MX1并协同业界领先的芯片厂商一起完成了OAM形态加速卡的适配证明了这条技术路线的可行性。为了推动符合OAM开放加速规范的系统产业化落地浪潮信息开发了第一款“ALL IN ONE” OAM服务器产品把CPU和OAM加速卡集成到一台19英寸机箱中实现数据中心级的快速部署并在众多客户的智算中心落地应用。
此后OAM 芯片的算力和功耗在不断提升同时数据中心对于绿色节能的要求也越来越高。对此我们开发了第一款液冷OAM服务器可以实现8颗OAM加速器和两颗高功耗的CPU的液冷散热整个液冷散热覆盖率超过90%基于这款产品构建的液冷OAM智算中心解决方案千卡平台稳定运行状态下PUE值小于1.1。而浪潮信息刚刚发布的新一代的OAM服务器NF5698G7基于全PCIe Gen5链路H2D互联能力提升4倍为新一代OAM研发提供了更加先进的部署平台。
通过平台架构设计和算力算法协同设计解决能耗问题
仅仅提供算力平台是不够的目前数据中心面临着巨大的能耗挑战尤其是面向大模型训练的AI服务器单机功耗轻易超过6-7千瓦。 一个公式可以快速计算训练一个大模型所需要的整体耗电量E分子用6倍模型参数量和训练过程中所用到的Token数量表征大模型训练所需要的算力当量分母用加速卡的数量还有单张加速卡的算力性能表征智算基础设施所能够提供的整体算力性能二者相除的结果代表的是训练大模型所需要的时间乘以Ecluster指标大模型训练平台每日耗电量即可得到整体耗电量。那么在选定模型并且有确定卡数和规模的情况下只有通过优化单卡算力值或者降低单个平台的耗电量才能优化大模型训练所需的整体耗电量。
针对这两个参数的优化我们做了进一步研究。通过两张表格了呈现不同大模型训练平台网络架构设计下平台功耗和相应的大模型训练整体功耗的对比。以单机2张网卡NIC组网方案和单机8张网卡NIC组网方案为例虽然不同网卡数量带来的单机功耗影响并不显著然而放到整个计算平台层面网卡数量增加导致交换机数量增加总功耗会有显著差异8网卡方案总功耗可达2000多千瓦2网卡方案只有1600多千瓦2张网卡方案可以节省功耗18%。
因此面向实际应用需求通过精细化地计算大模型训练所需要的网络带宽可以在不影响性能的前提下显著地优化总功耗。“源”大模型训练过程当中仅仅使用了两张200G的IB卡就完成2457亿参数模型的训练这是我们发现的第一个优化训练平台总功耗的技术路径。
第二提高单卡算力利用率以实现提效节能也是非常重要的一个命题。经我们测试采用算法和算力架构协同设计的方法基于算力基础设施的技术特点深度优化模型的参数结构和训练策略可以用更短的时间完成同等规模模型的训练。以GPT-3模型的训练为例模型训练时间可以从15天优化为12天总耗电量节省达到33%。
以上两点可以说明应用导向的架构设计以及算力和算法的协同设计能够实现更高效的大模型训练最终加速节能降碳目标的实现。
绿色开放加速平台赋力大模型高效释放算力
基于上述在开放计算、高效计算的技术、产品和方法的创新和研究浪潮信息正在积极构建面向生成式AI的绿色开放加速智算平台。
去年协同合作伙伴发布的液冷开放加速智算中心解决方案首先具有非常高的算力性能其次可以实现千芯级大规模扩展支撑超千亿规模模型训练同时先进液冷技术使整个平台的PUE大幅优化。
同时浪潮信息也在积极构建全栈开放加速智算能力除了提供底层的AI计算平台上层有AI资源平台能够在资源管理层通过统一接口实现对于30余种多元算力芯片的统一的调度和管理。再往上是AI算法平台提供开源的深度学习算法框架、大模型以及开放的数据集。在此之上是算力服务包括算力、模型数据、交付、运维等多种服务模式。最上层是拥有4000多家合作伙伴的元脑生态浪潮信息和生态合作伙伴共同开展开放加速计算方案的设计并成功地推向产业落地。
基于开放加速规范的AI计算平台目前已经适配20多种业界主流的大模型包括大家非常熟悉的GPT系列、LLaMA、Chat GLM、“源”同时还支持多类扩散模型适配。
“助百芯智千模” 加速多元算力落地
在AIGC技术和产业快速发展过程中虽然业界已经制定了开放加速计算相关规范但产业落地还存在一些问题。比如开放计算系统定制化程度高规范覆盖的领域不足包括多元算力芯片的系统适配、管理和调度以及深度学习环境的部署等等。
在OAM规范基础上日前《开放加速规范AI服务器设计指南》发布基于当前AIGC产业背景下客户的痛点定义了开放加速服务器设计的原则包括应用导向、多元开放、绿色高效、统筹设计。同时对服务器设计方法进行深化和细化包括从节点层到平台层的多维协同设计方案。方案充分考量适配和研发过程中遇到的问题进一步细化了节点到平台的设计参数最终目的是提高多元算力芯片的开发和适配、部署效率。
由于面向AIGC训练的服务器具有非常多的高功耗芯片以及高互连带宽设计稳定性问题严峻需要更加全面的测试保证系统稳定性减少断点的发生和对大模型训练效率的影响。因此《指南》提供了从结构、散热、压力、稳定性、软件兼容性等全面系统的测试指导。
最后多元算力要推向产业应用最关键的是性能包括芯片性能、互连性能、模型性能以及虚拟化性能。《指南》基于前期积累的Benchmark调优经验提出了性能测评和调优标准及方法帮助合作伙伴更快、更好地将他们最新的芯片产品推向应用落地提高算力的可用性。最终目标是推动整个AI算力产业的创新和发展协同产业链上下游合作伙伴推动整个开放加速生态共同应对AIGC时代的算力挑战。 谢谢大家