当前位置: 首页 > news >正文

信息类网站 wordpress公司形象墙设计方案

信息类网站 wordpress,公司形象墙设计方案,麒麟网站建设,域名服务器的四种类型整理了 ACL2020短文 Enhancing Pre-trained Chinese Character Representation with Word-aligned Att#xff09;论文的阅读笔记 背景模型实验 论文地址#xff1a;论文 背景 近年来#xff0c;以 BERT 为代表的预训练模型在 NLP 领域取得取得了非常显著的效果。但是… 整理了 ACL2020短文 Enhancing Pre-trained Chinese Character Representation with Word-aligned Att论文的阅读笔记 背景模型实验 论文地址论文 背景 近年来以 BERT 为代表的预训练模型在 NLP 领域取得取得了非常显著的效果。但是已有的中文预训练模型大多以汉字为基本单位根据汉字的外部语境学习表征基于字粒度计算 Attention , 没有利用中文的分词知识。本文提出了一种新的词对齐注意来挖掘显式词信息对各种基于字符的中文预训练语言模型的表征进行增强。 模型 对于n个字符的输入序列表示为 S [ c 1 , c 2 , . . . , c n ] S[c_1,c_2,...,c_n] S[c1​,c2​,...,cn​] c j c_j cj​表示输入序列的第j个字符也就是汉字。使用分词工具 π \pi π对序列进行分词 π ( S ) [ w 1 , w 2 , . . . , w m ] , ( m n ) \pi(S)[w_1,w_2,...,w_m],(mn) π(S)[w1​,w2​,...,wm​],(mn)这里面的w就是一个个子序列代表了由几个字符构成的词语它们是不相交的表述为 w i { c s , c s 1 , . . . , c s l − 1 } w_i\{c_s,c_{s1},...,c_{sl-1}\} wi​{cs​,cs1​,...,csl−1​}。   对于预训练的输出的字符级的表示首先算一个自注意矩阵 A c ∈ R n × n A_c\in R^{n×n} Ac​∈Rn×n A c F ( H ) s o f t m a x ( ( K W k ) ( Q W q ) T d ) A_c F(H)softmax(\frac{(KW_k)(QWq)^T}{\sqrt d}) Ac​F(H)softmax(d ​(KWk​)(QWq)T​)  其中K和Q都是H预训练模型最后一层的字符级表示分别作为kays和quire参与计算 W k W_k Wk​和 W q W_q Wq​是可学习参数维度是d×d A c A_c Ac​矩阵在不考虑词边界的情况下对字符级之间的相似度进行建模。   本文的做法就是利用这个相似度矩阵和上面的分词信息在单词内部对字符相似度进行整和首先将 A c A_c Ac​表示为 [ a c 1 , a c 2 , . . . , a c n ] [a_c^1,a_c^2,...,a_c^n] [ac1​,ac2​,...,acn​]其中 a c i a_c^i aci​就是 A c A_c Ac​矩阵的一行它表示某个字符对其它字符的注意力向量利用分词结果对注意力矩阵进行划分 π ( A c ) [ { a c 1 , a c 2 } , { a c 3 } , . . . , { a c n − 1 , a c n } ] \pi(A_c)[\{a_c^1,a_c^2\},\{a_c^3\},...,\{a_c^{n-1},a_c^n\}] π(Ac​)[{ac1​,ac2​},{ac3​},...,{acn−1​,acn​}]  然后本文设计了一个聚合模块对词内注意力进行聚合将根据分词结果划分好的注意力序列 a c s , . . . , a c s l − 1 {a_c^s,...,a_c^{sl-1}} acs​,...,acsl−1​转变成一个统一的 a w i a_w^i awi​它对应着词 w i w_i wi​,具体计算过程为 a w i λ M a x p o o l i n g ( { a c s , . . . , a c s l − 1 } ) ( 1 − λ ) M e a n p o o l i n g ( { a c s , . . . , a c s l − 1 } ) a_w^i\lambda Maxpooling(\{a_c^s,...,a_c^{sl-1}\})(1-\lambda)Meanpooling(\{a_c^s,...,a_c^{sl-1}\}) awi​λMaxpooling({acs​,...,acsl−1​})(1−λ)Meanpooling({acs​,...,acsl−1​}) A ^ c [ s : s l − 1 ] e l ⋅ a w i \hat A_c[s:sl-1]e_l\cdot a_w^i A^c​[s:sl−1]el​⋅awi​  其中 λ \lambda λ是一个自适应学习的参数 e l e^l el是一个全1向量也就是说把这个词内的注意力结果进行聚合统一了。最终得到增强后的H H ^ A ^ c V W \hat H\hat A_cVW H^A^c​VW  其中V就是HW是一个科学系矩阵这样我们就通过分词对预训练模型的结果进行了增强。   也可以进行多头的在多头注意力架构下最终结果为 H ˉ C o n c a t ( H ^ 1 , H ^ 2 , , . . . , H ^ K ) \bar HConcat(\hat H^1,\hat H^2,,...,\hat H^K) HˉConcat(H^1,H^2,,...,H^K)  此外由于歧义和非形式化输入的风险分割器通常是不可靠的特别是在域外数据上这可能导致错误传播和令人不满意的模型性能。我们也可以使用多个不同的分词器M个得到M个最终的表示 H ˉ 1 , . . . , H ˉ M \bar H^1,...,\bar H^M Hˉ1,...,HˉM文中建议的融合方式为: H ~ ∑ m 1 M t a n h ( H ˉ m W g ) \tilde H\sum_{m1}^Mtanh(\bar H^mW_g) H~m1∑M​tanh(HˉmWg​) 实验 选择了三个公开可用的中文预训练模型作为基本编码器:BERT、ERNIE和BERT-wwm。在5个中文自然语言处理任务和6个公共基准数据集上进行了实验。实验设置 实验结果消融实验
http://www.zqtcl.cn/news/370123/

相关文章:

  • 专业建设公司网站软件技术培训
  • 网站建设_聊城笑话小网站模板html
  • 智能建造师威海网站优化推广
  • 做网站如何选域名长沙房价2020最新价格
  • seo网站推广济宁一建建设集团有限公司
  • 高端大气网站设计欣赏有意思网站推荐
  • 什么网站做海宁的房产好北控京奥建设有限公司网站
  • 上海网站建设网络推广网页搜索框下记录删不掉
  • 团购网站大全做相册手机网站如何制作免费
  • 承德网站制作方案百度seo关键词排名s
  • 网站建设公司佛山国内网站推广
  • 辽宁网站制作公司潍坊网站建设维护
  • 手机网站图片切换平面图网站
  • 松岗建设网站广州网站定制开发方案
  • 东阳网站建设价格做理财的网站有哪些问题
  • 蓄电池回收网站建设wordpress cp 部署
  • cuteftp 备份网站网站制作课程介绍
  • 杭州网站搭建宁波企业官网建设
  • php免费网站源码网站建设电子书
  • 建设纺织原料网站专业网页制作室
  • 买域名做网站推广都是些什么湘潭什么网站做c1题目
  • 鲜花网站建设图片昆明网站建站平台
  • 密云网站制作案例昆明小程序开发
  • 网站紧急维护商丘手机网站制作
  • 什么专业会制作网站罗湖做网站的公司哪家好
  • 永久免费ppt下载网站有没有跟一起做网店一样的网站
  • 百川网站石家庄物流网站建设
  • 广州外贸网站设计外贸seo外贸推广外贸网站建设外贸网站建设
  • 网站 栏目建设银行网站用户名是什么
  • 服装类的网站建设中原免费网站建设