什么网站可以做期刊封面,山西山西省建设厅网站,手机网站模板 html5,公司建网站的好处近年来#xff0c;推荐场域为提升模型的表达能力和计算能力#xff0c;模型规模和计算复杂度大幅增加#xff0c;同时#xff0c;高规格硬件资源为模型迭代、算法优化带来了更大的机遇和挑战。为了应对模型规模和算力升级带来的存储、IO和计算挑战#xff0c;京东零售广告…
近年来推荐场域为提升模型的表达能力和计算能力模型规模和计算复杂度大幅增加同时高规格硬件资源为模型迭代、算法优化带来了更大的机遇和挑战。为了应对模型规模和算力升级带来的存储、IO和计算挑战京东零售广告技术团队基于新型硬件充分利用硬件优势提出新一代多机多卡全GPU计算全同步训练架构参数通信基于GPU-RDMA硬件带来的高速带宽优势采用集合通信方案结合五级流水线并行训练模式极大的提升了训练过程中数据通信交换效率。同时研发CPU-DRAM GPU-HBM二级参数服务器缓存训练机制解决稀疏参数更新时带来的梯度过期问题为稀疏大模型的落地应用提供了坚实的技术支撑。
一、前言
京东广告训练框架随着广告算法业务发展的特点也在快速迭代升级回顾近几年大致经历了两次大版本的方案架构演变。第一阶段随着2016年Tensorflow训练框架的开源业界开始基于Tensorflow开源框架训练更复杂的模型。模型对特征规模和参数规模需求不断提升大规模稀疏模型具有更强的表征能力逐渐成为算法的主流趋势。但是Tensorflow在大规模稀疏参数的训练机制不完备因此第一次最大能力升级是通过自研高性能参数服务器支持超大规模TB级稀疏参数模型的建模能力以及基于此架构支持在线学习的能力。 第二阶段随着用户行为序列建模、多模态建模、多目标等算法技术的发展模型变得既宽且深计算算力、通信性能和存储容量逐渐成为瓶颈。基于之前的方案虽然有可能通过扩大训练集群规模满足训练需求但是在节点拓扑的复杂度、参数通信性能、集群稳定性和模型效果等多个方面都存在较大的问题。随着更先进的NVIDIA A100 等训练GPU硬件资源的出现基于高性能GPU算力构建的新一代软硬深度结合的训练方案成为第二次架构演变的主要方向。接下来本文将针对大规模稀疏场景结合模型的发展趋势详细介绍各阶段的训练方案。
二、持续演进的大规模稀疏场景训练方案
2.1 基于分布式参数服务器的TB级大规模稀疏场景训练方案
2.1.1 Tensorflow在大规模稀疏场景的局限性
随着业务规模和算法能力不断发展训练样本规模扩展到百亿级训练参数规模达到千亿级为了提高模型训练效率和规模业界通常采用数据并行和模型并行方式来进行分布式训练。由于Tensorflow采用静态Embedding机制来存储稀疏参数限制了参数规模对训练的效率和效果并不友好
◦静态存储局限性词表空间过小hash冲突加剧词表空间过大浪费内存资源难以支持大规模参数存储。
◦在线学习不支持针对在线学习场景无法淘汰不重要的特征也无法单独释放该特征Embedding的内存参数更新时效性成为瓶颈。
2.1.2 自研高性能参数服务器
为了解决静态Embedding的问题我们通过自研动态Embedding的高性能参数服务器将不同的Embedding映射到不同的内存空间优化存储空间支持大规模稀疏参数的高效存储并考虑高并发读写场景针对稀疏参数设计高性能二级检索方案优化数据结构减少并发读写冲突。 图1 动态Embedding参数服务器训练架构 ▪参数二级检索
▪一级参数分片支撑分布式千亿甚至更大规模参数存储。
▪二级参数分桶并行无锁读写支撑数据并行模式下的高并发读写场景。
▪ 稀疏参数存储训练
▪基于Map实现稀疏参数存储支撑动态Embedding、增量导出等复杂功能。
▪稀疏参数延迟初始化支撑特征准入淘汰等复杂策略。
▪参数优化器状态同构存储支撑复杂优化算法带一二阶动量的高性能实现。
▪离在线一体化设计
▪通用化服务接口模型参数格式一套核心框架服务离在线场景支持在线学习。 图2 动态Embedding高性能参数服务器实现设计 在2020年底广告实现了高性能参数服务器架构2021年初在搜索广告场景构建了离在线一体实时在线学习闭环系统。性能方面支持千亿参数规模提升算法建模空间对比TF原生PS训练性能提升25%对比阿里DeepRec和腾讯TFRA内存节省约15%至20%。效果方面在搜索精排模型场景落地京东零售首个OnlineLearning架构模型时效性从天级提高到分钟级。
2.2 基于高性能算力的全GPU训练方案
2.2.1 分布式参数服务器方案的局限性
为了精细刻画用户的行为捕捉用户的兴趣变化推荐系统模型进入到更深层次的序列化、多模态建模。推荐领域模型建模逐渐发展到以一定规模Transformer结构结合大规模Embedding为主抽象结构则是中等规模稠密参数 大规模稀疏参数对模型训练架构的存储、计算、IO等方面都提出了更高的要求。虽然可以通过更大的参数服务器规模 更大的数据并行规模来提升整体训练集群吞吐但该方案存在一定局限性
▪参数服务器规模仅能满足大规模Embedding稀疏模型但是针对Transformer等稠密模型无法分片会导致模型训练性能效果显著下降
▪训练节点规模急剧扩大到上百导致通信拓扑复杂训练稳定性下降梯度过期问题加剧
▪大量参数IO使得参数服务器与训练节点之间的参数传输成为通信性能瓶颈。 图3 分布式参数服务器存在的问题 随着Nvidia推出新一代NVIDIA A100 80GB SXM GPU服务器伴随NvLink、IB网络等GPU-RDMA硬件加持相较P40在存储容量显存640GB、内存1~2TB、SSD10TB级别、通信性能 由PCIe总线提供的32GB/s升级到NVLink卡间互联的600GB/s的高速带宽多机之间通过IB网络采用RDMA进行通信通信带宽相比于TCP而言从1G/s 提升到50G/s以及计算能力从12TFLOPS升级到156 TFLOPS 都有质的突破。更高算力的硬件资源为模型迭代和优化带来了更大的机遇同时也给训练架构设计带来了更大的挑战基于高性能GPU算力构建的新一代软硬深度结合的训练方案成为第二次架构演变的主要方向。
2.2.2 基于高性能算力的全GPU训练方案
如何把分布式训练中上百个节点的复杂拓扑结构融入到高算力GPU的一体化方案中实现千亿甚至更大规模参数在GPU上的高性能计算在业界是一个比较有挑战的问题在新一代训练架构的落地实践中我们主要面临三个核心挑战
▪存储挑战不同于传统NLP、CV几十G模型规模推荐领域大规模稀疏模型通常在几百G以上远超单显卡80G显存上限需要设计一种新的参数存储和计算策略
▪IO挑战大规模稀疏参数、稠密参数的拉取与计算为训练集群带来极高的IO需求需要设计一种新的交互式策略实现卡与卡间机与机间参数高性能通信
▪算力挑战CPU的算力性能限制了推荐模型的规模与计算复杂度需要设计一种新的训练并行策略实现CPU与GPU的算力均衡。
结合对业界方案的调研以及广告推荐算法的业务场景特点我们设计了基于高性能算力的全GPU训练方案基于GPU-HBMCPU-DRAM两级交叉缓存来实现全参数的GPU存储计算结合GPU-RDMA集合通信技术突破大规模参数训练的通信瓶颈同时构建CPUGPU异构的分布式流水线并行训练框架实现了CPU和GPU计算算力的最大化协同。 图4 基于高性能算力的全GPU训练方案
基于GPU-HBM和CPU-DRAM的两级交叉参数服务器实现稀疏参数的跨域存储。GPU作为一级缓存有效利用GPU高带宽、高算力的优势极大提升训练吞吐CPU作为二级缓存有效利用CPU内存的高容量、易扩展的优势提升参数的规模上限。该方案可以进一步扩展SSD固态硬盘形成HBM-DRAM-SSD的三级参数服务器方案支撑更大规模万亿参数级别的高性能训练。 图5 GPU-HBMCPU-DRAM 两级交叉存储方案
基于GPU-RDMA集合通信的全参数同步训练范式。在参数通信方式上参数的拉取方式相比于传统的分布式参数服务器架构由CPU-to-CPU的TCP通信升级为GPU-to-GPU的RDMA通信带宽吞吐量实现了数量级的显著提升1GB/s-600GB/s。在参数更新方面通过AllReduce、AllToAll等集合通信技术实现全参数同步训练范式保证模型效果。基于上述能力框架一体化设计实现了参数交互参数训练的最佳配速。
CPUGPU异构的分布式流水线并行训练框架将模型按CPU密集型子图重逻辑与GPU密集型子图重计算进行分图部署于CPUGPU异构集群进行分布式分图训练在发挥各自硬件算力优势的同时解决CPU与GPU算力不匹配的问题达到算力均衡。同时构建多级流水线并行训练模式使训练集群整体IO、计算吞吐最大化 图6 CPUGPU异构的分布式流水线并行训练框架
多机多卡算力水平扩展基于上述核心能力借助 IB 网络进一步实现单机多卡到多机多卡的算力水平扩展训练加速比达到1.85做到业界领先。
三、总结与展望
综上新一代基于高性能算力的全GPU训练方案在广告多个业务线进行了落地实践推荐首页CTR模型规模从30G扩展到130G资源0增长的情况下训练性能提升55%并通过技术迁移仅一个月时间将技术方案复用至商详、中长尾信息流核心位置实现模型规模百G的突破算法迭代效率提升400%助力推荐、搜索等核心业务线取得显著的效果收益。
算法在不断的迭代发展硬件也在不断的推陈出新广告训练框架也在持续的演变我们正在规划设计下一代算法架构体系其最显著的特点就是算法、算力、架构的深度融合以及在线、离线一体化的设计方案。算法架构体系建设是一个充满挑战的新的技术领域需要不断探索、学习和创新。我们欢迎对此感兴趣的同事联系我们一起加入讨论共同探索解决方案汇集智慧共同成长。让我们携手应对挑战共同开拓这一前沿领域为技术创新和团队发展贡献我们的热情与智慧。 作者京东零售-广告研发部-算法应用组 来源京东零售技术 转载请注明来源