当前位置: 首页 > news >正文

1688网站建设企业建设网站的需求分析

1688网站建设,企业建设网站的需求分析,西安做网站微信公司哪家好,网站基础建设巴巴商友圈近日#xff0c;阿里云机器学习PAI关于大模型稀疏训练的论文《Parameter-Efficient Sparsity for Large Language Models Fine-Tuning》被人工智能顶会IJCAI 2022接收。 论文提出了一种参数高效的稀疏训练算法PST#xff0c;通过分析权重的重要性指标#xff0c;得出了其拥有…近日阿里云机器学习PAI关于大模型稀疏训练的论文《Parameter-Efficient Sparsity for Large Language Models Fine-Tuning》被人工智能顶会IJCAI 2022接收。 论文提出了一种参数高效的稀疏训练算法PST通过分析权重的重要性指标得出了其拥有两个特性低秩性和结构性。根据这一结论PST算法引入了两组小矩阵来计算权重的重要性相比于原本需要与权重一样大的矩阵来保存和更新重要性指标稀疏训练需要更新的参数量大大减少。对比常用的稀疏训练算法PST算法可以在仅更新1.5%的参数的情况下达到相近的稀疏模型精度。 背景 近几年各大公司和研究机构提出了各式各样的大模型这些大模型拥有的参数从百亿级别到万亿级别不等甚至于已经出现十万亿级别的超大模型。这些模型需要耗费大量的硬件资源进行训练和部署从而导致它们面对着难以落地应用的困境。因此如何减少大模型训练和部署所需的资源成为了一个急需解决的问题。 模型压缩技术可以有效的减少模型部署所需的资源其中稀疏通过移除部分权重使得模型中的计算可以从稠密计算转换为稀疏计算从而达到减少内存占用加快计算速度的效果。同时稀疏相比于其他模型压缩方法结构化剪枝/量化可以在保证模型精度的情况下达到更高的压缩率更加合适拥有大量参数的大模型。 挑战 现有的稀疏训练手段可以分为两类一类是基于权重的data-free稀疏算法一类是基于数据的data-driven稀疏算法。基于权重的稀疏算法如下图所示如magnitude pruning[1]通过计算权重的L1范数来评估权重的重要性并基于此生成对应稀疏结果。基于权重的稀疏算法计算高效无需训练数据参与但是计算出来的重要性指标不够准确从而影响最终稀疏模型的精度。 基于数据的稀疏算法如下图所示如movement pruning[2]通过计算权重和对应梯度的乘积作为衡量权重重要性的指标。这类方法考虑到了权重在具体数据集上的作用因此能够更加准确的评估权重的重要性。但是由于需要计算并保存各个权重的重要性因此这类方法往往需要额外的空间来存储重要性指标(图中S)。同时相较于基于权重的稀疏方法往往计算过程更加复杂。这些缺点随着模型的规模变大会变得更加明显。 综上所述之前的稀疏算法要么高效但是不够准确(基于权重的算法)要么准确但是不够高效(基于数据的算法)。因此我们期望提出一种高效的稀疏算法能够准确且高效的对大模型进行稀疏训练。 破局 基于数据的稀疏算法的问题是它们一般会引入额外的与权重相同大小的参数来学习权重的重要性这让我们开始思考如何减少引入的额外参数来计算权重的重要性。首先为了能够最大化利用已有信息来计算权重的重要性我们将权重的重要性指标设计成如下公式 即我们结合了data-free和data-driven的指标来共同决定最终模型权重的重要性。已知前面data-free的重要性指标无需额外的参数来保存且计算高效因此我们需要解决的就是如何压缩后面那项data-driven重要性指标所引入的额外训练参数。 基于之前的稀疏算法data-driven重要性指标可以设计成 因此我们开始分析通过该公式计算出来的重要性指标的冗余性。首先基于之前的工作已知权重和对应的梯度均具有明显的低秩性[3,4]因此我们可以推导出该重要性指标也具有低秩性从而我们可以引入两个低秩小矩阵来表示原始与权重一样大的重要性指标矩阵。 其次我们分析了模型稀疏后的结果发现它们具有明显的结构性特征。如上图所示每张图的右边是最终稀疏权重的可视化结果左边是统计每一行/列对应稀疏率的直方图。可以看出左边图有30%的行中的大部分权重都被移除了反之右边图有30%的列中的大部分权重都被移除了。基于这样的现象我们引入了两个小结构化矩阵来评估权重每一行/列的重要性。 基于上述的分析我们发现data-driven的重要性指标存在低秩性和结构性因此我们可以将其转换成如下表示形式 其中A和B表示低秩性R和C表示结构性。通过这样的分析原本和权重一样大的重要性指标矩阵就被分解成了4个小矩阵从而大大减少了参与稀疏训练的训练参数。同时为了进一步减少训练参数我们基于之前的方法将权重的更新也分解成了两个小矩阵U和V因此最后的重要性指标公式变成如下形式 对应算法框架图如下所示 最终PST算法实验结果如下我们在NLU(BERT、RoBERTa)和NLGGPT-2任务上与magnitude pruning和movement pruning进行比较在90%的稀疏率下PST可以在大部分数据集上达到与之前算法相当的模型精度但是仅需1.5%的训练参数。 PST技术已经集成在阿里云机器学习PAI的模型压缩库以及Alicemind平台大模型稀疏训练功能中。为阿里巴巴集团内部落地使用大模型带来了性能加速在百亿大模型PLUG上PST相比于原本的稀疏训练可以在模型精度不下降的情况下加速2.5倍内存占用减少10倍。目前阿里云机器学习PAI已经被广泛应用于各行各业提供AI开发全链路服务实现企业自主可控的AI方案全面提升机器学习工程效率。 论文名字Parameter-Efficient Sparsity for Large Language Models Fine-Tuning 论文作者Yuchao Li , Fuli Luo , Chuanqi Tan , Mengdi Wang , Songfang Huang , Shen Li , Junjie Bai 论文pdf链接https://arxiv.org/pdf/2205.11005.pdf 参考文献 [1] Song Han, Huizi Mao, and William J Dally. Deep compression: Compressing deep neural networks with pruning, trained quantization and huffman coding. [2] Victor Sanh, Thomas Wolf, and Alexander M Rush. Movement pruning: Adaptive sparsity by fine-tuning. [3] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. [4] Samet Oymak, Zalan Fabian, Mingchen Li, and Mahdi Soltanolkotabi. Generalization guarantees for neural networks via harnessing the low-rank structure of the jacobian. 作者李深、李与超 原文链接 本文为阿里云原创内容未经允许不得转载。
http://www.zqtcl.cn/news/330581/

相关文章:

  • gif放网站有锯齿策划公司宣传语
  • 淘宝客做网站怎样推广空间购买后打不开网站
  • 信阳网站设计银川网站建设nx110
  • 建设安全协会网站58招聘运营网站怎么做
  • 做原创的网站做游戏平面设计好的素材网站有哪些
  • 校园网站wordpress 防攻击插件
  • wordpress 更好的主题丁的老头seo博客
  • 上海市工程信息网站北京专业网站翻译影音字幕翻译速记速记速记速而高效
  • 网站建设心得体会500字网页制作三剑客是指什么
  • 大连做网站优化一级a做爰片 网站就能看
  • 网站优化页面中山seo网络推广
  • 建设网站一定要数据库吗湖北百度seo
  • 下载了wordpress然后怎么用怎样健建设一个有利于优化的网站
  • 网站开发心得500字做代售机票网站程序
  • php电影网站开发凡诺网站建设
  • 兰州道路建设情况网站南宁网站开发
  • 网站开发服务费投资者网站建设
  • 网站开发 如何备案新站点seo联系方式
  • 自动全屏网站模板贵州网站制作公司电话
  • 南昌购物网站制作国外免费网站空间
  • 网站地图模版企业做网站etp和源程序
  • 电子商务企业网站的推广方式外贸长尾关键词挖掘网站
  • 靓号网建站网站商城html模板
  • 广东顺德网站建设wordpress 我爱搜罗网
  • 基金网站建设需求书昆明网站制作工具
  • 京东网上购物商城官方网站国外网站页头设计图片
  • 芯片设计公司排名安卓优化大师app
  • 如何进行网站域名解析网站开发的工作方法
  • 专门做衣服的网站有哪些南宁企业官网seo
  • 网站 建设 内容中铁建设集团有限公司招聘官网