当前位置: 首页 > news >正文

网站服务器和网站wordpress标题转英文

网站服务器和网站,wordpress标题转英文,企业建立自己的网站,无极网最新招聘信息今天跟大家分享华南理工大学和阿里巴巴联合提出的将ViT模型用于下游任务的高效微调方法HSN#xff0c;该方法在迁移学习、目标检测、实例分割、语义分割等多个下游任务中表现优秀#xff0c;性能接近甚至在某些任务上超越全参数微调。 论文标题#xff1a;Hierarchical Side…今天跟大家分享华南理工大学和阿里巴巴联合提出的将ViT模型用于下游任务的高效微调方法HSN该方法在迁移学习、目标检测、实例分割、语义分割等多个下游任务中表现优秀性能接近甚至在某些任务上超越全参数微调。 论文标题Hierarchical Side Tuning for Vision Transformers机构华南理工大学、阿里巴巴论文地址https://arxiv.org/pdf/2310.05393.pdf代码地址即将开源https://github.com/AFeng-x/HST#hierarchical-side-tuning-for-vision-transformers关键词Vision Transformer、迁移学习、目标检测、实例分割、语义分割 1.动机 近年来大规模的Vision Transformer简称ViT在多个任务中表现优秀很多研究人员尝试利用ViT中的预训练知识提升下游任务的性能。然而快速增长的模型规模使得在开发下游任务时直接微调预训练模型变得不切实际。 Parameter-efficient transfer learning简称PETL方法通过选择预训练模型的参数子集或在主干中引入有限数量的可学习参数同时保持大部分原始参数不变来解决该问题。 尽管PETL方法取得了重大成功但主要是为识别任务而设计的。当将其用于密集预测任务时比如目标检测和分割与完全的微调相比其性能仍有很大的差距这可能是由于密集预测任务与分类任务有本质上的不同。为了解决这一性能差距作者提出了一种更通用的PETL方法Hierarchical Side-Tuning简称HST作者构建了Hierarchical Side Network简称HSN能产生金字塔式的多尺度输出使得整个模型能适应不同的任务。 2.Hierarchical Side-TuningHST 2.1 HST总体结构 HST的总体结构如下图所示 上图中蓝色部分为普通的ViT其权重被冻结绿色部分为Adaptive Feature Bridge简称AFB用于桥接和预处理中间特征粉色部分是Hierarchical Side Network简称HSN由1个Conv Stem和 L L L个Side Block组成。 对于ViT部分输入图像首先通过patch embedding然后进入 L L L个Transformer encoder对于HSN部分输入图像通过Conv Stem从输入图像中引入局部空间上下文信息。HSN由4个stage组成下采样率分别为 { 4 , 8 , 16 , 32 } \{4,8,16,32\} {4,8,16,32}输出4种不同尺度的特征。每个Transformer encoder都有1个对应的Side Block信息流从backbone流向Side Block。 2.2 Meta Token 与其他prompt-based的微调方法不同作者令prompt的数量为1并将其称作Meta Token简称MetaT其结构如下图所示 作者并没有丢弃prompt对应的输出特征而是将其与输出的patch token一起作为Adaptive Feature Bridge的输入。由于MetaT的输出特征分布与patch token的分布有差异这会影响HSN的性能因此要微调Transformer中的Layer Normalization简称LN层以改变特征的均值和方差即改变了特征分布有助于保持同一样本中不同特征之间的相对值。下图展示了MetaT的输出特征与ViT中patch token之间的余弦相似度显然通过微调LN层MetaT的输出与patch token的向量方向能更好地对齐从而有效地利用MetaT的输出特征。 2.3 Adaptive Feature BridgeAFB 由于ViT的输出特征与HSN中的特征形状不同因此引入了Adaptive Feature BridgeAFBAFB包括2个重要部分双分支分离Dual-Branch Separation和权重共享Linear Weight Sharing如下图所示 Dual-Branch Separation MetaT的输出和patch token先经过线性层进行维度变换线性层的输出分为2个分支patch token进行全局平均池化输出1个token将其称作GlobalTGlobalT与MetaT拼接得到 F m g i \mathcal{F}_{m g}^i Fmgi​。通过双线性差值改变patch token的形状使其与HSN中对应stage的特征形状一致。整体流程表示如下 F m g i [ W j F MetaT  i , AvgPooling ⁡ ( W j F patch  i ) ] ; F f g i T ( W j F v i t i ) \mathcal{F}_{m g}^i\left[W_j \mathcal{F}_{\text {MetaT }}^i, \operatorname{AvgPooling}\left(W_j \mathcal{F}_{\text {patch }}^i\right)\right] ; \mathcal{F}_{f g}^i\mathcal{T}\left(W_j \mathcal{F}_{v i t}^i\right) Fmgi​[Wj​FMetaT i​,AvgPooling(Wj​Fpatch i​)];Ffgi​T(Wj​Fviti​) 上式中 i i i表示第 i i i个Vit block W j W_j Wj​表示第 j j j个stage中线性层的权重矩阵。 Linear Weight Sharing 同一个stage中的多个AFB共享线性层权重以减少可学习参数此外这样能在同一个stage中实现特征间的信息交互达到与使用多个线性层相当的效果。 2.4 Side Block Side Block包含1个cross-attention层和1个Feed-Forward Network简称FFN其结构如下图所示。 Side Block对ViT的中间特征和多尺度特征进行建模考虑到这两个输入分支的特点作者通过不同的方法将它们引入到Side Block中。 Meta-Global Injection 将HSN输出的多尺度特征作为Query记作 Q Q Q使用meta-global token作为key记作 K K K和value记作 V V Vcross-attention表示如下 ( ( Q h s n ) ( K m g ) T ) V m g A V m g \left(\left(Q_{h s n}\right)\left(K_{m g}\right)^T\right) V_{m g}A V_{m g} ((Qhsn​)(Kmg​)T)Vmg​AVmg​ 上式中 Q h s n ∈ R L × d Q_{h s n} \in \mathbb{R}^{L \times d} Qhsn​∈RL×d ( K m g ) T ∈ R d × M \left(K_{m g}\right)^T \in \mathbb{R}^{d \times M} (Kmg​)T∈Rd×M V m g ∈ R M × d V_{m g} \in \mathbb{R}^{M \times d} Vmg​∈RM×d L L L表示多尺度特征输入序列的长度 M M M表示meta-global token的长度 d d d表示特征维度。 将Meta-Global Injection的输出记作 F ^ h s n i \hat{F}_{h s n}^i F^hsni​可表示如下 F ^ h s n i F h s n i CrossAttention ⁡ ( F h s n i , F m g i ) \hat{\mathcal{F}}_{h s n}^i\mathcal{F}_{h s n}^i\operatorname{CrossAttention}\left(\mathcal{F}_{h s n}^i, \mathcal{F}_{m g}^i\right) F^hsni​Fhsni​CrossAttention(Fhsni​,Fmgi​) 上式中 i i i表示HST和ViT的第 i i i个block。 Fine-Grained Injection 将Meta-Global Injection的输出 F ^ h s n i \hat{F}_{h s n}^i F^hsni​与 F f g i F_{f g}^i Ffgi​进行元素相加然后使用FFN进行建模表示如下 F h s n i 1 F ^ h s n i F f g i FFN ⁡ ( F ^ h s n i F f g i ) F_{h s n}^{i1}\hat{F}_{h s n}^iF_{f g}^i\operatorname{FFN}\left(\hat{F}_{h s n}^iF_{f g}^i\right) Fhsni1​F^hsni​Ffgi​FFN(F^hsni​Ffgi​) F h s n i 1 F_{h s n}^{i1} Fhsni1​作为下一个Side Block的输入。 3.实验 3.1 实验设置 3.2 实验结果 1图像分类 2目标检测和实例分割 3语义分割 更多消融实验及分析请查看原文。 4.总结 作者提出了一种新的参数高效的迁移学习方法Hierarchical Side-TuningHST可训练的side network利用了backbone的中间特征并生成了用于进行预测的多尺度特性。通过实验表明HST在不同的数据集和任务中表现优异显著地减少了在密集预测任务中PETL与完全微调的性能差距。
http://www.zqtcl.cn/news/281503/

相关文章:

  • 软件毕设代做网站广告设计公司资质
  • 织梦网站模板如何安装网页设计教程心得体会
  • 网站开发 男生网站二维码怎么做的
  • net网站开发教程网站防御怎么做
  • 手机网站设计只选亿企邦哪个选项不属于网络营销的特点
  • 繁昌网站建设如何用易语言做网站
  • 电子商务网站建设财务分析建立网站方法
  • 大专学网站开发wordpress显示数据库请求
  • 诸暨网站制作设计公众号文章怎么导入到wordpress
  • 网站死链怎么办青岛网站制作企业
  • 已经有域名 怎么修改网站网站推广找客户
  • 网站的制作建站人增加网站流量
  • 向国旗致敬做时代新人网站广州网站建设公司排名
  • 阿里云域名怎么做网站对网站进行seo优化
  • 响应式网站建设合同11月将现新冠感染高峰
  • 做网站客户一般会问什么问题百度云网盘资源分享网站
  • 网站设计中超链接怎么做艺术设计
  • 卡盟网站建设wordpress优化代码
  • 做网站需要什么技术员商城型网站开发网站建设
  • discuz做地方门户网站网站大全免费完整版
  • 莆田人做的网站一天赚2000加微信
  • 阿里云网站访问不了怎么办做网站二维码
  • 手机商城网站建设可采用的基本方式有
  • 网站备案管理做广告公司网站建设价格
  • 绵阳专业网站建设公司上海外贸公司排名榜
  • 如何做英文系统下载网站快速排名工具免费
  • 苏州建网站必去苏州聚尚网络网页视频提取在线工具
  • 网站建设服务市场分析百度集团
  • 网站怎么企业备案信息做网站业务员如何跟客户沟通
  • 如何网站推广知名的集团门户网站建设费用