中山营销型网站建设,乐陵seo排名,网站建设技巧,便宜网站建设 优帮云背景
在分布式集群上执行大模型任务时候#xff0c;往往使用到数据并行#xff0c;流水线并行#xff0c;张量并行等技术#xff0c;这些技术本质上也就是对数据进行各种方案的切分#xff0c;然后放到不同的节点上运算。不同节点在计算的过程中需要对数据分发或者同步等… 背景
在分布式集群上执行大模型任务时候往往使用到数据并行流水线并行张量并行等技术这些技术本质上也就是对数据进行各种方案的切分然后放到不同的节点上运算。不同节点在计算的过程中需要对数据分发或者同步等操作的通信本文将通过图解的方式帮助快速区分并理解不同的通信原语所代表的含义。
通信原语集合
broadcast
在并行计算领域广播Broadcast用于将数据从一个进程或节点发送到所有其他进程或节点。通常由一个源进程或节点发送数据然后所有其他进程或节点都接收相同的数据。
用途广播通常用于在并行计算中将全局数据分发给所有参与者以便它们可以共享相同的信息 scatter
在并行计算领域分散scatter用于将数据从一个进程或节点发送到多个进程或节点。通常由一个源进程或节点发送数据然后所有其他进程或节点都接收部分数据。
用途分散通常用于将全局数据分配给各个参与者以便它们可以分别处理自己的部分数据。 gather
在并行计算领域收集gather用于将来自多个进程或节点的数据收集到单个进程或节点中。结果是将来自各个进程或节点的数据聚合到一个目标进程或节点中。
用途收集通常用于在并行计算中汇总数据进行统计分析或在单个节点上进行处理。 all-gather
在并行计算领域全收集all-gather类似于收集操作但不同之处在于它将来自所有进程或节点的数据收集到所有其他进程或节点中而不仅仅是一个目标进程或节点。
用途全收集通常用于在分布式计算中共享数据进行全局汇总或进行全局同步。 reduce
在并行计算领域归约reduce用于将来自多个进程或节点的数据合并成单个值。通常由一个目标进程或节点执行归约操作并将来自其他进程或节点的数据聚合成一个结果。
用途归约通常用于在并行计算中汇总数据计算全局统计量或合并各个部分的计算结果。 all-reduce
在并行计算领域全归约all-reduce类似于归约操作但不同之处在于它将来自所有进程或节点的数据合并成单个值并将结果分发给所有其他进程或节点。
用途全归约通常用于在分布式计算中计算全局统计量合并全局计算结果或进行全局同步。 reduce-scatter
在并行计算领域归约-分散reduce-scatter结合了归约和分散操作。它首先将来自多个进程或节点的数据归约成单个值然后将结果分散到所有进程或节点中。
用途归约-分散通常用于将全局计算结果分发给各个参与者以便它们可以在本地处理部分结果。 all-all
在并行计算领域全-全all-all它在所有进程或节点之间进行全局数据交换。每个进程或节点都向所有其他进程或节点发送数据并接收来自所有其他进程或节点的数据。
用途全-全通常用于实现全局同步、全局数据交换或分布式计算中的其他全局操作。