当前位置：首页 > news >正文

网站栏目添加文章不显示教育类网站开发公司

news 2025/11/14 22:19:00

网站栏目添加文章不显示,教育类网站开发公司,怎么做网站里的资讯,网站建设免责申明书一只小狐狸带你解锁炼丹术NLP秘籍作者#xff1a;苏剑林 (来自追一科技#xff0c;人称“苏神”)前言《Attention is All You Need》一文发布后#xff0c;基于Multi-Head Attention的Transformer模型开始流行起来#xff0c;而去年发布的BERT模型更是将Transformer模… 一只小狐狸带你解锁炼丹术NLP秘籍作者苏剑林 (来自追一科技人称“苏神”)前言《Attention is All You Need》一文发布后基于Multi-Head Attention的Transformer模型开始流行起来而去年发布的BERT模型更是将Transformer模型的热度推上了又一个高峰。当然技术的探索是无止境的改进的工作也相继涌现有改进预训练任务的比如XLNET的PLM、ALBERT的SOP等有改进归一化的比如Post-Norm向Pre-Norm的改变以及T5中去掉了Layer Norm里边的beta参数等也有改进模型结构的比如Transformer-XL等有改进训练方式的比如ALBERT的参数共享等...以上的这些改动都是在Attention外部进行改动的也就是说它们都默认了Attention的合理性没有对Attention本身进行改动。而本文我们则介绍关于两个新结果它们针对Multi-Head Attention中可能存在建模瓶颈提出了不同的方案来改进Multi-Head Attention。两篇论文都来自Google并且做了相当充分的实验因此结果应该是相当有说服力的了。arxiv访问慢的小伙伴也可以在订阅号后台回复关键词【0415】下载论文PDF。再小也不能小key_size第一个结果来自文章《Low-Rank Bottleneck in Multi-head Attention Models》它明确地指出了Multi-Head Attention里边的表达能力瓶颈并提出通过增大key_size的方法来缓解这个瓶颈。Multi-Head Attention首先简单回顾一下Multi-Head AttentionMulti-Head Attention的基础是自然是Single-Head Attention也叫Scaled-Dot Attention定义如下公式可以左右滑动哦其中。而Multi-Head Attention就是将分别用个不同的投影矩阵投影次然后分别做次Single-Head Attention最后把结果拼接起来即Attention里有个瓶颈在实际使用中一般具有相同的特征维度即hidden_size比如BERT Base里边是768一般选择12、16、24等比如BERT base里边是12确定了之后通常的选择是让投影矩阵也就是说每个Attention Head里边是将原始的维投影到维然后在进行Attention运算输出也是维最后把个维的结果拼接起来得到一个维的输出。这里的我们通常称为head_size。在Attention中关键的一步是这一步是描述了与的两两向量之间的联系我们可以将看成一个二元联合分布实际上是个一元分布不过这个细节并不重要如果序列长度都为也就是每个元有个可能的取值那么这个分布共有个值。但是我们将分别投影到低维后各自的参数量只有总的参数量是所以式就相当于用的参数量去逼近一个本身有个值的量而我们通常有尤其是比较大时更是如此因此这种建模有点“强模型所难”这就是原论文中的“低秩瓶颈Low-Rank Bottleneck”的含义.不妨试试增大key_size那么解决办法是什么呢直接的想法是让增大所以要不就是减少head的数目要不就是增加hidden_size大小。但是更多的Attention Head本身也能增强模型的表达能力所以为了缓解低秩瓶颈而减少的做法可能得不偿失如果增加的话那自然是能够增强模型整体表达能力的但整个模型的规模与计算量也会剧增似乎也不是一个好选择。那没有其他办法了吗有当我们用投影矩阵将都投影到低维时前面都是将它们投影到维但其实它们的维度不一定要相等而是只需要保证的维度相等就行了因为要做内积为了区别我们通常称的维度为key_size的维度才叫head_size改变key_size的大小而不改变head_size的话也不影响模型的hidden_size。所以这篇论文提出来的解决方法就是增大模型的key_size它能增加Attention的表达能力并且不改变模型整体的hidden_size计算量上也只是稍微增加了一点。补充说明事实上原论文考虑的是同时增大key_size和head_size、然后Multi-Head Attention的输出拼接之后再用一个变换矩阵降维但笔者认为由于拼接降维这一步只是一个线性变换所以本质上的提升还是来源于增大key_size所以本文只强调了增大key_size这一步。此外如果同时增大key_size和head_size那么会导致计算量和显存消耗都明显增加而只增大key_size的话增加的资源消耗就小很多了。来看看实验结果增大key_size这个想法很简单也容易实现但是否真的有效呢我们来看看原论文的实验结果其实验都是以BERT为baseline的实验结果图表很多大家直接看原论文为好这里只分享比较有代表性的一个这个结果显示如果固定一个比较大的key_size比如128那么我们可以调整模型的hidden_size和head数使得参数量可以跟原始的BERT设计一致但是效果更优所以增加key_size确实是有意义的哪怕将总体参数量重新调整到原来的一样大也能一定程度上提升模型的效果。这无疑对我们设计新的Transformer模型尤其是小规模的模型有重要的指导作用。最后附上我们预训练的两个增大了key_size的RoBERTa小模型欢迎大家使用我们称之为RoBERTahttps://github.com/ZhuiyiTechnology/pretrained-models再缺也不能缺Talking对Multi-Head Attention改进的第二个结果来自论文《Talking-Heads Attention》这篇论文虽然没有显式地指出它跟前一篇论文的联系但笔者认为它们事实上在解决同一个问题只不过思路不一样它指出当前的Multi-Head Attention每个head的运算是相互孤立的而通过将它们联系Talking起来则可以得到更强的Attention设计即标题的“Talking-Heads Attention”。从单一分布到混合分布在前一篇论文里边我们提到了低秩瓶颈也就是由于key_size太小所以表达能力不足因此softmax之后无法很好地建议完整的二元分布。为了缓解这个问题除了增大key_size之外还有没有其他方法呢有比如这篇论文使用的混合分布思路。所谓混合分布就是多个简单分布的叠加比如加权平均它能极大地增强原分布的表达能力。典型的例子是高斯混合模型我们知道高斯分布只是一个常见的简单分布但多个高斯分布叠加而成的高斯混合分布也叫高斯混合模型GMM就是一个更强的分布理论上来说只要叠加的高斯分布足够多高斯混合分布能逼近任意概率分布。这个例子告诉我们想要增加Attention中分布的表达能力又不想增加key_size那么可以考虑叠加多个低秩分布。那么“多个”低秩分布哪里来呢不是有Multi-Head嘛每个head都带有一个低秩分布就直接用它们叠加就行了这就是Talking-Heads Attention了。具体来说它的形式是写起来很复杂事实上很简单就是在“之后、softmax之前”用一个参数矩阵将各个的结果叠加一下而已。这样就把原本是孤立的各个Attention Head联系了起来即做了一个简单的Talking。对上述公式做两点补充说明1、简单起见上述公式中笔者省去了缩放因子如果有需要读者自行补充上去即可2、更一般的Talking-Heads Attention允许可以在这一步进行升维即叠加出多于个混合分布然后再用另一个参数矩阵降维但这并不是特别重要的改进所以不在主要篇幅介绍。再来看看实验结果是不是真的有效当然还是得靠实验结果来说话。这篇论文的实验阵容可谓空前强大它同时包含了BERT、ALBERT、T5为baseline的实验结果众所周知BERT、ALBERT、T5均是某个时间段的NLP最优模型尤其是T5还是处在superglue的榜首并且远超出第二名很多而这个Talking-Heads Attention则几乎是把它们的辉煌战绩又刷到了一个新高度还是那句话具体的实验结果大家自己看论文去这里展示一个比较典型的结果这个结果显示使用Talking-Head Attention情况下保持hidden_size不变head数目越大相应地key_size和head_size都越小效果越优。这看起来跟前一篇增大key_size的结论矛盾但事实上这正说明了混合分布对分布拟合能力明显提升作用能够将key_size缩小时本身变弱的单一分布叠加成拟合能力更强大的分布。当然这不能说明就直接设key_size1就好了因为key_size1时计算量会远远大于原始的BERT base应用时需要根据实际情况平衡效果和计算量。上述表格只是原论文实验结果的冰山一角这里再放出一个实验表格让大家感受感受它的实验阵容几乎每个任务、每个超参组合都做了实验并给出实验结果。如此强大的实验阵容基本上也就只有Google能搞出来了而且整篇论文明显是浓浓的“T5 Style”还没看过T5论文的读者可以去Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》感受一下果不其然作者之一Noam Shazeer也正是T5的作者之一。笔者只想说这种庞大的实验轰炸仿佛在向我们宣告着不用质疑该调的参数我们都调了就我们的Talking-Heads Attention最好插曲神奇的论文画风话说回来笔者在Arxiv上首次刷到《Talking-Heads Attention》这篇论文时第一感觉是一篇垃圾论文。为啥因为它的画风是这样的谁能想象到一篇如此强大的论文里边居然没有一条数学公式取而代之的全是伪代码其实伪代码都算不上感觉更像是直接把实验中的Python代码复制到了论文中还是复制到论文主体上笔者印象里只有那些不入流的水论文才会这样做所以笔者看到的第一想法就是水文一篇。也就Google的大佬们才能这么任性要不是耐着心多扫了几眼要不是不小心扫到了T5等字眼要不是回去看作者居然清一色是Google的这篇强大的论文就被笔者当作垃圾论文放到回收站了不过任性还是有任性的代价的这篇实验阵容这么强大又这么有效的论文发布至今也有一个多月了但似乎也没什么反响估计也跟这个任性的风格有关系来自文末的小结本文介绍了两个关于Multi-Head Attention的后续改进工作虽然改进细节不一致但可以说它们都是针对“低秩瓶颈”这个问题而提出的有种殊途同归之感。两个工作都来自Google实验内容都很丰富所以结果都比较有说服力正在做模型结构改进工作的读者可以参考参考。arxiv访问慢的小伙伴也可以在订阅号后台回复关键词【0415】下载论文PDF。可能喜欢ACL2020 | FastBERT放飞BERT的推理速度ACL2020 | 对话数据集Mutual论对话逻辑BERT还差的很远LayerNorm是Transformer的最优解吗如何优雅地编码文本中的位置信息三种positioanl encoding方法简述知乎搜索框背后的Query理解和语义召回技术详解ERNIE-Baidu进化史及应用场景深入解析GBDT二分类算法附代码实现夕小瑶的卖萌屋_关注星标小夕带你解锁AI秘籍订阅号主页下方「撩一下」有惊喜哦

查看全文

http://www.zqtcl.cn/news/221289/