当前位置: 首页 > news >正文

云计算网站建设阜南网站建设

云计算网站建设,阜南网站建设,凡科互动小游戏,免费一百个空间访客领取网站文章目录1 介绍2 span-relation representations2.1未涉及句子级任务3.span-relation model3.1 span representation3.2 span and relation label prediction3.3 应用到不同任务3.5 多任务学习MTL4 GLAD Benchmark基准 and Results4.1 实验4.2 证明通用模型有效4.3 MTL4.3.2 任… 文章目录1 介绍2 span-relation representations2.1未涉及句子级任务3.span-relation model3.1 span representation3.2 span and relation label prediction3.3 应用到不同任务3.5 多任务学习MTL4 GLAD Benchmark基准 and Results4.1 实验4.2 证明通用模型有效4.3 MTL4.3.2 任务之间的关系分析4.3.3 相似和区别4.3.4 MTL under different settings4.4.4 模型复杂度1 介绍 nlp任务 span标记span之间的关系标记 希望用统一的框架处理nlp任务 假设人类可以用相同的格式标注数据机器也可以 人类标注已经有统一的标准BRAT 贡献 span标记和span之间的关系标记联合模型 已经有端到端的共指消解模型Lee et al. (2017)–本文对它进行少量修改 预训练一个上下文的模型BertElmo验证单一模型的适用性和通用性 在10个任务上 named entity recognition(NER),relation extraction (RE),coreference resolution (Coref.),open information extraction (OpenIE),part-of-speech tagging (POS),dependency parsing (Dep.),constituency parsing (Consti.),semantic role labeling (SRL),aspect based sentiment analysis (ABSA),and opinion role labeling (ORL) 功能 一个模型可以处理多个任务MTL很方便可以帮助数据量少的相关模型相互协助 有的任务会互相帮助也有的任务会相互阻碍因为不同的任务表现出不同的注意模式attention 预训练模型 使用相同的表示通过预训练的embedding 本文 完全统一的模型去处理所有任务 2 span-relation representations 解释BRAT如何标注大量任务 span标注–span-oriented tasksrelation标注 --relation-oriented tasks 2.1未涉及句子级任务 注意 未涉及句子级别的任务情感分类。。 可以将整个句子当作一个span但因为之前的通用模型中已经有很好的表现了就不做了 通用模型(Lan and Xu, 2018)、多任务学习 (Devlin et al.,2019; Liu et al., 2019) 3.span-relation model base(Lee et al. 2017)–一个端到端的共指消解模型span标注 扩展到其他任务模型核心用一个任意长度的向量表示span–用以预测label或span-pair的label 3.1 span representation 条件可以任意长度内容表示zicz_i^czic​边界表示ziuz_i^uziu​句子的tokenw1,w2,...,wnw_1,w_2,...,w_nw1​,w2​,...,wn​span:si[(bbi,bbi1,...bei]s_i[(b_{b_i},b_{b_i1},...b_{e_i}]si​[(bbi​​,bbi​1​,...bei​​]c1,c2,...,cnTokenRepr(w1,w2,...,wn)u1,u2,...,unBiLSTM(c1,c2,...,cn)zicSelfAttn(cbi,cbi1,...cei)ziu[ubi;uei]zi[zic;ziu]c_1,c_2,...,c_nTokenRepr(w_1,w_2,...,w_n)\\ u_1,u_2,...,u_nBiLSTM(c_1,c_2,...,c_n)\\ z_i^cSelfAttn(c_{b_i},c_{b_i1},...c_{e_i})\\ z_i^u[u_{b_i};u_{e_i}]\\ z_i[z_i^c;z_i^u]c1​,c2​,...,cn​TokenRepr(w1​,w2​,...,wn​)u1​,u2​,...,un​BiLSTM(c1​,c2​,...,cn​)zic​SelfAttn(cbi​​,cbi​1​,...cei​​)ziu​[ubi​​;uei​​]zi​[zic​;ziu​] tokenRepr:Glove or Bert 3.2 span and relation label prediction invalid label NEG_SPANNEG_REL Model 预测所有的span长度l:MLP(多层感知机softmax(MLPspan(zi))∈Δ∣L∣softmax(MLP^{span}(z_i))\in\Delta^{|L|}softmax(MLPspan(zi​))∈Δ∣L∣剪枝保留前Kn⋅τKn\cdot \tauKn⋅τ个span,剩下的为NEG_SPAN(阈值τ\tauτ低则剪枝更多)预测关系的感知机MLP:ojkMLPrel([zj;zk;zj⋅zk])∈R∣R∣o_{jk}MLP^{rel}([z_j;z_k;z_j\cdot z_k])\in \mathbb{R}^{|R|}ojk​MLPrel([zj​;zk​;zj​⋅zk​])∈R∣R∣ 3.3 应用到不同任务 最大化真实关系的概率 具体到不同任务上需求不同 关心前后顺序关系抽取不关心顺序 eg:共指消解 连接相同概念的span–cluster多个也只要连上了就好 为此提供两种loss–最大化 pairwise loss:softmax(ojk)rjk,rjk是实际答案的indexessoftmax(o_{jk})_{r_{jk}},r_{jk}是实际答案的indexessoftmax(ojk​)rjk​​,rjk​是实际答案的indexes–其他所有任务 预测一对 head lossΣk∈head(sj)softmax([oj1oj1,...,ojK)k\Sigma_{k\in head(s_j)} softmax([o_{j1}o_{j1},...,o_{jK})_kΣk∈head(sj​)​softmax([oj1​oj1​,...,ojK​)k​–用于共指消解 预测一堆(?多元关系怎么样 这两个loss仅在如何normalize时有区别其他并无区别 test 共指消解把span连接到得分最高的前件上e (Lee et al., 2017)consti:constituency parsing贪婪的从上到下的解码去产生有效的解析树dep:依赖解析每个词链接到一个父节点最高关系得分的other对每对实体预测关系没关系的预测为NEG_REL 核心观点 我们的模型任务无关 只要能建模为span标注任务和span关系预测任务即可 3.5 多任务学习MTL SpanRel实现MTL 共享参数除了MLPs的问题 不同的任务关注点不同在语言方面所以对于所有任务不是获得相同的增益的、 在相关任务上联合训练是增益的而不相关的任务是hurt 如何选择任务 任务数目多时手动选择难 解决 SpanRel提供了一个系统的方式/基于attetion的方式–选择任务对互相有增益的–4.3 4 GLAD Benchmark基准 and Results 提出GLAD基准和evaluation metrics证明SpanRel 有效对MTL有益 4.1 实验 metrics F1,P,R–for span and relation token representation:Glove,ELMo,Span-Bert,BertBiLSTM 256 hidden\MLP:2 layers,128hidden 4.2 证明通用模型有效 在相同条件下与SOTA模型相比较 token representationBert or Glove…)相同settings 通用模型有效 和sota差不多 4.3 MTL MTL和STL(单任务学习FT(finetune) 有Bert好于没有Bert有Finetune好于无FT下降的比较多 大多数任务数据稀疏不同的任务关注点不同相互之间可能有助益也有阻碍 4.3.2 任务之间的关系分析 假设语言模型预训练在理论上与MTL正交实际上benefit是重叠的分析 (1)对于OpenIE和ORL来说使用SRL进行多任务学习可以显著提高性能而其他任务的提高则很少或根本没有。(2)依赖解析和SRL是对大多数目标任务有益的通用源任务。SpanREL可以很容易地进行MTL,并且看出谁是有益的源任务 4.3.3 相似和区别 证明SpanRel提供分析不同任务相似性和区别的平台 猜测与attention有关 attention反应内部焦点公式simk(t,t′)−1∣Xt∣Σx∈Xt∣∣Akt(x)−Akt′(x)∣∣F′Akt(x)是第k个头的attentionmapsim_k(t,t)-\frac{1}{|X_t|}\Sigma_{x\in X_t}||A_k^t(x)-A_k^{t}(x)||_{F}\\A_k^t(x)是第k个头的attention mapsimk​(t,t′)−∣Xt​∣1​Σx∈Xt​​∣∣Akt​(x)−Akt′​(x)∣∣F′​Akt​(x)是第k个头的attentionmap下图证明这个公式确实反映了相似度 4.3.4 MTL under different settings token representation 越强大improvement越少 MTL和预训练模型都倾向于学习通用表达benefit重叠了5中glove训练了所有模型所以效果差了–超出能力范围 数据稀疏的时候模型有用 4.4.4 模型复杂度 主要在bertspan O(l⋅n)O(l\cdot n)O(l⋅n)relation O(K2)O(τ2⋅n2)O(K^2)O(\tau^2\cdot n^2)O(K2)O(τ2⋅n2)
http://www.zqtcl.cn/news/921614/

相关文章:

  • 如何给别人做网站百度推广助手app
  • 哈市哪里网站做的好新颖的网站策划
  • 网站建设 方案书微信登录wordpress免费
  • 兰州网站建设企业名录洛可可设计公司估值
  • 广州做网站地方兰州做网站的公司有哪些
  • 招标网站哪个好适合学生做网站的图片
  • 台州seo网站排名优化外包服务公司
  • 汉川网站推广服务网页站点不安全
  • wdcp网站搬家嘉兴做网站优化的公司
  • 网站规划和建设度假区网站建设方案
  • 做网站前端用什么软件好在线种子资源网
  • 怎样修改网站关键词昌平做网站的公司
  • 网站建设调研文档网站最下面版权模板
  • 建外贸网站有效果吗开发电商平台需要多少钱
  • 成都网站建设维护网页制作价格私活
  • 建设银行网站登陆不上做本地的分类信息网站
  • 公司网站建设哪里实惠网页设计作业百度网盘
  • 如何seo网站挣钱不同企业的网络营销网站
  • 自己做网站有什么用网站怎样设计网址
  • 做任务的网站有那些wordpress链接在哪里
  • 免费建站模板网站招聘网站哪个好
  • 网站建站推广是啥意思高端网站建设浩森宇特
  • 长治电子商务网站建设中国建设银行总行官方网站
  • 整站营销系统厚街镇网站仿做
  • 舆情分析网站wordpress文章聚合
  • 中国建设银行网站在哪上市cpa自己做网站
  • 网站建设服务支持jquery插件 wordpress
  • 最有效的100个营销方法seo工作室
  • wordpress o2o主题嘉兴网站优化联系方式
  • 网站建设最基础的是什么网站怎么做架构