当前位置: 首页 > news >正文

专业seo网站兰州网站优化软件

专业seo网站,兰州网站优化软件,上海人才网积分查询,麦片网站建设1.数据并行DP#xff08;朴素数据并行#xff0c;Zero数据并行之后补充#xff09; O ( h 2 ∗ l ) O(h^2*l) O(h2∗l) 每台机器做完自己的梯度后需要做一次All reduce操作来累积梯度#xff0c;故一个batch计算发送的数据量为每层梯度大小 h 2 h^2 h2乘以层数 l l l 优点…1.数据并行DP朴素数据并行Zero数据并行之后补充 O ( h 2 ∗ l ) O(h^2*l) O(h2∗l) 每台机器做完自己的梯度后需要做一次All reduce操作来累积梯度故一个batch计算发送的数据量为每层梯度大小 h 2 h^2 h2乘以层数 l l l 优点运用简单效率高计算和通讯之间可以做异步。 缺点有时候单个GPU无法容纳下整个大模型做训练。 流水线并行PPGpipe O ( b ∗ s ∗ h ∗ l / k ) O(b*s*h*l/k) O(b∗s∗h∗l/k) 每个pp层之间发送中间变量大小和输入x相同大小为 b ∗ s ∗ h b*s*h b∗s∗h乘以正向和反向一共要传递的次数 2 ∗ ( l / k − 1 ) 2*(l/k-1) 2∗(l/k−1)得到上述大致的数量级 优点通讯量小数据无关。 缺点要保证模型能均匀切分否则会影响性能。需要用到重计算来支持更大的批量 b b b从而保证流水能发挥作用。反传之前需要等待所以微批量计算。 张量模型并行TMP O ( b ∗ s ∗ h ∗ l ) O(b*s*h*l) O(b∗s∗h∗l) MLP层第一个W1纵向切第二个W2横向切能保证一个MLP只做一次All reduce操作通讯。同理attn根据头数来切分投影层。两者每次的发送数据大小和PP一样都是 O ( b ∗ s ∗ h ) O(b*s*h) O(b∗s∗h)不同是TMP发送量和模型Transformer层数成线性关系。 优点能切分很大的Transformer模型。 缺点通讯量大且通信一般只在节点内部的多卡通讯不做跨节点通讯。头数需要被GPU整除。 *一般而言 b ∗ s b*s b∗s略大于 h h h k k k是 l l l的1/10故一般而言通讯量TMPDPPP.在实际的工程中一般TMP和PP都在节点内通讯只有数据并行会做跨节点通讯。
http://www.zqtcl.cn/news/728584/

相关文章:

  • 泉州网站优化排名东莞长安做网站公司
  • 网站制作公司 顺的有口碑的赣州网站建设
  • 成都网站设计制作苏州新闻
  • 黑色网站设计iis 网站 红
  • 专业做家居的网站佛山做网站永网
  • 医疗网站建设讯息企业门户网站建设思路
  • 四川建设安全监督管理局网站网站传送门怎么做
  • 哪家网站做推广好优化师和运营区别
  • 鹰潭网站建设公司南宁行业平台开发公司
  • 织梦如何仿手机网站源码奉贤区专业建网站
  • 上海网站建设接单wordpress htaccess 404
  • 长春网站优化指导网站怎样做301跳转
  • 做网站域名是什么意思临沧网站开发
  • 怎么在网站上做网页专业图库网站 西安
  • 龙南建设局网站wordpress 购物导航网站
  • 做数据分析好看的网站自己做背景的网站
  • 做纸棋的网站制作什么网站做毕业设计
  • 上海易雅达网站建设公司广元网站开发
  • 网站备案注销北京优化健康宝
  • 网站地图怎么做XML深圳公共资源交易中心
  • 高碑店做网站的公司湛江专业建站推荐
  • 中国建设银行官网的网站首页c2c电子商务网站建设栏目结构图
  • 做网站的软件图标上海建站外贸
  • 保定网站建设推广成都移动端网站建设
  • 服务平台型网站做那个网站比较好
  • 网站做icp备案需要多久上海人才引进官网
  • 国外的设计网站app有什么好的免费网站做教育宣传语
  • 做期货都看那些网站淮北网
  • 网站建设的需求怎么写网站头条怎么做
  • 宜春seoseo网站自动推广