做内部优惠券网站赚钱吗,国家信用信息公示系统官网,软件论坛网站有哪些,清远医院网站建设方案论文笔记整理#xff1a;窦春柳#xff0c;天津大学硕士。链接#xff1a;https://arxiv.org/pdf/1909.03227.pdf动机首先作者提出了问题#xff0c;传统的关系抽取是不能很好的解决三元组重叠#xff0c;如下图。从图中可以发现#xff0c;传统的关系抽取针对Normal 类型… 论文笔记整理窦春柳天津大学硕士。链接https://arxiv.org/pdf/1909.03227.pdf动机 首先作者提出了问题传统的关系抽取是不能很好的解决三元组重叠如下图。从图中可以发现传统的关系抽取针对Normal 类型的数据还是可以的但是针对EPO和SEO的情况就不理想。尽管像这样的问题已经有人做了很多研究但是仍然存在很多的问题他们都把每个实体对的关系看作离散的这样导致会导致模型学习很困难原因有两点第一点数据分布不均衡第二点 针对重叠的标签如果在训练数据很少的情况下分类器很难去正确的分类。亮点本文采用全新的视角代替以往分类的视角将关系建模为 S 到 O 的映射函数。提出一个全新的框架CASREL。概念及模型CASREL框架抽取三元组(subject, relation, object)主要包含两个步骤三个部分。两个步骤1、要识别出句子中的 subject 。2、要根据识别出的 subject, 识别出所有有可能的 relation 以及对应的 object。三个部分1、BERT-based encoder module: 可以替换为不同的编码框架主要对句子中的词进行编码论文最终以BERT为主效果很强。2、subject tagging module目的是识别出句子中的 subject。3、relation-specific object tagging module根据 subject寻找可能的 relation 和 object。其中 a 是 Encoder, b 和 c 称为 Cascade Decoder。1BERT Encoder对句子编码获取每个词的隐层表示可以采用 BERT 的任意一层另外这部分是可以替换的例如用LSTM替换BERT。2Subject Tagger对 BERT Encoder 获取到的词的隐层表示解码构建两个二分类分类器预测 subject 的 start 和 end 索引位置对每一个词计算其作为 start 和 end 的一个概率并根据某个阈值大于则标记为1否则标记为0。公式如下如框架图中所示Jackie 被标记为 startR 既不是 start 也不是 end, Brown 被标记为 end其他的类似。在这里采用了最近匹配的原则即与 jackie 最近的一个 end 词是 Brown, 所以 Jackie R. Brown 被识别为一个subject。文中并未考虑前面位置的情况。3Relation-specific Object Taggers这部分会同时识别出subject的relation和相关的object。解码的时候比 Subject Tagger 不仅仅考虑了 BERT 编码的隐层向量 还考虑了识别出来的 subject 特征即下图。vsub 代表 subject 特征向量若存在多个词将其取向量平均hn 代表 BERT 编码向量。对于识别出来的每一个 subject, 对应的每一种关系会解码出其 object 的 start 和 end 索引位置与 Subject Tagger 类似公式如下理论分析实验验证CASREL框架效果采用的是两个公开的数据集NYT 和 WebNLG。具体的实验效果如下。其中 CASREL 分别采用了 随机初始化参数的BERT编码端、 LSTM 编码端以及预训练 BERT 编码端实验结果主要说明以下结论1、CASREL 框架确实有效三种编码结构的效果都是要远高于其他的模型性能。2、采用预训练 BERT 之后CASREL 框架更是逆天。总结本文为了解决三元组重叠的情况提出了新的关系抽取的方法cascade binary taging framework(CasRel)和传统的关系抽取不同传统的关系抽取是通过两个实体来抽取离散的关系标签但在这里通过CasRel框架来抽取实体及实体间的关系,最终效果得到了很大的提升。 OpenKG开放知识图谱简称 OpenKG旨在促进中文知识图谱数据的开放与互联促进知识图谱和语义技术的普及和广泛应用。点击阅读原文进入 OpenKG 博客。