韩城做网站,海外购物app排行,wordpress 文章 来源,做画册好的网站LLM在SFT之后会产生大量的冗余参数(delta参数)#xff0c;阿里团队提出DARE方法来消除delta参数#xff0c;并将其合并到PRE模型中#xff0c;从而实现多源模型能力的吸收。
DARE无需GPU重新训练#xff0c;其思路非常简单#xff0c;就跟dropout类似#xff1a; m t ∼…LLM在SFT之后会产生大量的冗余参数(delta参数)阿里团队提出DARE方法来消除delta参数并将其合并到PRE模型中从而实现多源模型能力的吸收。
DARE无需GPU重新训练其思路非常简单就跟dropout类似 m t ∼ Bernoulli ( p ) δ ~ t ( 1 − m t ) ⊙ δ t δ ^ t δ ~ t / ( 1 − p ) θ D A R E t δ ^ t θ P R E \begin{gathered} \boldsymbol{m}^t \sim \operatorname{Bernoulli}(p) \\ \widetilde{\boldsymbol{\delta}}^t\left(\mathbf{1}-\boldsymbol{m}^t\right) \odot \boldsymbol{\delta}^t \\ \hat{\boldsymbol{\delta}}^t\widetilde{\boldsymbol{\delta}}^t /(1-p) \\ \boldsymbol{\theta}_{\mathrm{DARE}}^t\hat{\boldsymbol{\delta}}^t\boldsymbol{\theta}_{\mathrm{PRE}} \end{gathered} mt∼Bernoulli(p)δ t(1−mt)⊙δtδ^tδ t/(1−p)θDAREtδ^tθPRE 两个步骤
drop随机mask参数为0rescale对保存的参数rescale这样可以保证神经元期望值不变 E n o t m a s k x , E m a s k p ∗ x p E_{not_{mask}}x,E_{mask}\frac{p*x}{p} Enotmaskx,Emaskpp∗x
传统的模型融合只是对神经元进行加权求和这样会导致模型能力骤降。DARE方法通过dropout避免了这种问题。
多源模型融合 θ D A R E t k DARE ( θ S F T t k , θ P R E ) , for 1 ≤ k ≤ K , θ M θ P R E λ ⋅ ∑ k 1 K δ ^ t k θ P R E λ ⋅ ∑ k 1 K ( θ D A R E t k − θ P R E ) . \begin{gathered} \boldsymbol{\theta}_{\mathrm{DARE}}^{t_k}\operatorname{DARE}\left(\boldsymbol{\theta}_{\mathrm{SFT}}^{t_k}, \boldsymbol{\theta}_{\mathrm{PRE}}\right), \text { for } 1 \leq k \leq K, \\ \boldsymbol{\theta}_{\mathrm{M}}\boldsymbol{\theta}_{\mathrm{PRE}}\lambda \cdot \sum_{k1}^K \hat{\boldsymbol{\delta}}^{t_k}\boldsymbol{\theta}_{\mathrm{PRE}}\lambda \cdot \sum_{k1}^K\left(\boldsymbol{\theta}_{\mathrm{DARE}}^{t_k}-\boldsymbol{\theta}_{\mathrm{PRE}}\right) . \end{gathered} θDAREtkDARE(θSFTtk,θPRE), for 1≤k≤K,θMθPREλ⋅k1∑Kδ^tkθPREλ⋅k1∑K(θDAREtk−θPRE). 流程图
实验结果 参考
丢弃99%的参数阿里团队提出语言模型合体术性能暴涨且无需重新训练和GPUMergeLM