做结婚视频储存网站,甘肃网站推广,做网站所需的知识技能,视频托管平台作者#xff1a;Google Research, Brain Team
泛读#xff1a;只关注其中cv的论述
提出了一个简单的网络架构#xff0c;gMLP#xff0c;基于门控的MLPs#xff0c;并表明它可以像Transformers一样在关键语言和视觉应用中发挥作用 提出了一个基于MLP的没有self-attentio…作者Google Research, Brain Team
泛读只关注其中cv的论述
提出了一个简单的网络架构gMLP基于门控的MLPs并表明它可以像Transformers一样在关键语言和视觉应用中发挥作用 提出了一个基于MLP的没有self-attention结构名为gMLP仅仅存在静态参数化的通道映射channel projections和空间映射spatial projections
gMLP由 L 个如上图所示的模块堆叠而成
具有空间门控单元SGU的gMLP架构的概述。该模型由具有相同结构和大小的L个块的堆叠组成。所有的投影运算都是线性的“ ⊙” 指的是逐元素乘法线性门控
CV上使用gMLP做图片分类并在ImageNet上取得了与DeiT、ViT等Transformer模型相当的效果。与先前的MLP模型MLP-Mixer相比gMLP做到了参数更少参数减少66%效果更强效果提升3% 总的来说研究了Transformers关键语言和视觉应用中自我注意模块的必要性。具体来说提出了一种基于mlp的Transformers替代方案其中没有自我注意它只是由通道投影和静态参数化的空间投影组成。我们对这种结构的几个设计选择进行了实验发现当空间投影是线性的并与乘法门控配对时效果很好。该模型命名为gMLP因为它是由带有门控的基本MLP层构建而成的。