信息类网站 wordpress,公司形象墙设计方案,麒麟网站建设,域名服务器的四种类型整理了 ACL2020短文 Enhancing Pre-trained Chinese Character Representation with Word-aligned Att#xff09;论文的阅读笔记 背景模型实验 论文地址#xff1a;论文
背景 近年来#xff0c;以 BERT 为代表的预训练模型在 NLP 领域取得取得了非常显著的效果。但是… 整理了 ACL2020短文 Enhancing Pre-trained Chinese Character Representation with Word-aligned Att论文的阅读笔记 背景模型实验 论文地址论文
背景 近年来以 BERT 为代表的预训练模型在 NLP 领域取得取得了非常显著的效果。但是已有的中文预训练模型大多以汉字为基本单位根据汉字的外部语境学习表征基于字粒度计算 Attention , 没有利用中文的分词知识。本文提出了一种新的词对齐注意来挖掘显式词信息对各种基于字符的中文预训练语言模型的表征进行增强。
模型 对于n个字符的输入序列表示为 S [ c 1 , c 2 , . . . , c n ] S[c_1,c_2,...,c_n] S[c1,c2,...,cn] c j c_j cj表示输入序列的第j个字符也就是汉字。使用分词工具 π \pi π对序列进行分词 π ( S ) [ w 1 , w 2 , . . . , w m ] , ( m n ) \pi(S)[w_1,w_2,...,w_m],(mn) π(S)[w1,w2,...,wm],(mn)这里面的w就是一个个子序列代表了由几个字符构成的词语它们是不相交的表述为 w i { c s , c s 1 , . . . , c s l − 1 } w_i\{c_s,c_{s1},...,c_{sl-1}\} wi{cs,cs1,...,csl−1}。 对于预训练的输出的字符级的表示首先算一个自注意矩阵 A c ∈ R n × n A_c\in R^{n×n} Ac∈Rn×n A c F ( H ) s o f t m a x ( ( K W k ) ( Q W q ) T d ) A_c F(H)softmax(\frac{(KW_k)(QWq)^T}{\sqrt d}) AcF(H)softmax(d (KWk)(QWq)T) 其中K和Q都是H预训练模型最后一层的字符级表示分别作为kays和quire参与计算 W k W_k Wk和 W q W_q Wq是可学习参数维度是d×d A c A_c Ac矩阵在不考虑词边界的情况下对字符级之间的相似度进行建模。 本文的做法就是利用这个相似度矩阵和上面的分词信息在单词内部对字符相似度进行整和首先将 A c A_c Ac表示为 [ a c 1 , a c 2 , . . . , a c n ] [a_c^1,a_c^2,...,a_c^n] [ac1,ac2,...,acn]其中 a c i a_c^i aci就是 A c A_c Ac矩阵的一行它表示某个字符对其它字符的注意力向量利用分词结果对注意力矩阵进行划分 π ( A c ) [ { a c 1 , a c 2 } , { a c 3 } , . . . , { a c n − 1 , a c n } ] \pi(A_c)[\{a_c^1,a_c^2\},\{a_c^3\},...,\{a_c^{n-1},a_c^n\}] π(Ac)[{ac1,ac2},{ac3},...,{acn−1,acn}] 然后本文设计了一个聚合模块对词内注意力进行聚合将根据分词结果划分好的注意力序列 a c s , . . . , a c s l − 1 {a_c^s,...,a_c^{sl-1}} acs,...,acsl−1转变成一个统一的 a w i a_w^i awi它对应着词 w i w_i wi,具体计算过程为 a w i λ M a x p o o l i n g ( { a c s , . . . , a c s l − 1 } ) ( 1 − λ ) M e a n p o o l i n g ( { a c s , . . . , a c s l − 1 } ) a_w^i\lambda Maxpooling(\{a_c^s,...,a_c^{sl-1}\})(1-\lambda)Meanpooling(\{a_c^s,...,a_c^{sl-1}\}) awiλMaxpooling({acs,...,acsl−1})(1−λ)Meanpooling({acs,...,acsl−1}) A ^ c [ s : s l − 1 ] e l ⋅ a w i \hat A_c[s:sl-1]e_l\cdot a_w^i A^c[s:sl−1]el⋅awi 其中 λ \lambda λ是一个自适应学习的参数 e l e^l el是一个全1向量也就是说把这个词内的注意力结果进行聚合统一了。最终得到增强后的H H ^ A ^ c V W \hat H\hat A_cVW H^A^cVW 其中V就是HW是一个科学系矩阵这样我们就通过分词对预训练模型的结果进行了增强。 也可以进行多头的在多头注意力架构下最终结果为 H ˉ C o n c a t ( H ^ 1 , H ^ 2 , , . . . , H ^ K ) \bar HConcat(\hat H^1,\hat H^2,,...,\hat H^K) HˉConcat(H^1,H^2,,...,H^K) 此外由于歧义和非形式化输入的风险分割器通常是不可靠的特别是在域外数据上这可能导致错误传播和令人不满意的模型性能。我们也可以使用多个不同的分词器M个得到M个最终的表示 H ˉ 1 , . . . , H ˉ M \bar H^1,...,\bar H^M Hˉ1,...,HˉM文中建议的融合方式为: H ~ ∑ m 1 M t a n h ( H ˉ m W g ) \tilde H\sum_{m1}^Mtanh(\bar H^mW_g) H~m1∑Mtanh(HˉmWg)
实验 选择了三个公开可用的中文预训练模型作为基本编码器:BERT、ERNIE和BERT-wwm。在5个中文自然语言处理任务和6个公共基准数据集上进行了实验。实验设置 实验结果消融实验