wordpress网站布置视频,wordpress 插件制作,网站前台页面的设计与实现,推广软文200字论文笔记整理#xff1a;潘锐#xff0c;天津大学硕士。来源#xff1a;AAAI 2020链接#xff1a;https://arxiv.org/pdf/1912.01795.pdf摘要义原被定义为人类语言的最小语义单位。义原知识库#xff08;KBs#xff09;是一种包含义原标注词汇的知识库#xff0c;它已成… 论文笔记整理潘锐天津大学硕士。来源AAAI 2020链接https://arxiv.org/pdf/1912.01795.pdf摘要义原被定义为人类语言的最小语义单位。义原知识库KBs是一种包含义原标注词汇的知识库它已成功地应用于许多自然语言处理任务中。然而现有的义原知识库建立在少数几种语言上阻碍了它们的广泛应用。为此论文提出在多语种百科全书词典BabelNet的基础上建立一个统一的多语种义原知识库。首先建立一个数据集作为多语种义原知识库的种子知识库。它为超过1.5万个synset并由人工手动标注若干义原。然后首次提出并正式定义了BabelNet synset 义原预测任务旨在将种子数据集扩展为一个可用的知识库。论文还利用了不同的synset信息提出了两个简单有效的模型。最后进行定量和定性分析探究任务中的重要因素和难点。研究背景人类语言可以划分成不同层次——句子可以划分成短语或词组再进一步划分成词。词是最小的可以独立运用的单位也是自然语言处理最常用的语言单位。但从语义层面讲词还可以进一步细分为义原——也即语言学家定义的最小的语义单位。一些语言学家认为所有语言的所有词语的意思都可以用一个有限的义原集合来表达。并且有语言学家认为义原体系在任何语言中都是适用的并不与特定语言相关。为了能在自然语言处理实践中应用义原董振东和董强花费数十年时间构建了最著名的义原知识库——知网HowNet。HowNet预定义了两千多个义原并用其标注了十万多个中/英文词语。每个词语的每个义项都用若干义原标注以表达其语义。研究动机然而HowNet中已标注义原的英文词语数量有限仅占WordNet英文词数的 32.8%且中英之外其他语言的词语没有义原标注。这导致义原在自然语言处理领域的应用范围被大大局限——也是此前义原主要被用于中文自然语言处理任务的原因。为了解决这一问题有人提出跨语言词语的义原预测 旨在通过双语词表示对齐的方式为其他语言的词语预测义原。但这种方法一次只能为一种语言的词语预测义原不是非常高效并且该方法无法进行义项层面的义原预测。研究方法和跨语言词语义原预测的思路不同本文提出基于BabelNet来构建多语言义原知识库的方案。BabelNet是一个多语言百科词典由BabelNet synset组成每个synset包含意义相同的不同语言的词语下图给出了一个例子——这个synset包含英语、汉语、法语、德语等各种语言表示「丈夫」这个意思的词语。一个synset中不同语言的词语都应该被标注同样的义原换言之直接为BabelNet synset标注义原就可以同时为多个语言的词语标注义原从而高效地构建一个多语言义原知识库。除了高效之外基于BabelNet来构建多语言义原知识库的方案还有其他好处直接将义原标注在义项层面BabelNet蕴含的丰富的信息都可以为义原预测所用——包括维基百科、WordNet、FrameNet等等。1 BabelSememe 数据集为了推进大规模多语言义原知识库的构建本文首先标注了一个种子知识库BabelSememe。它包含约一万五千个synset每个synset由人工标注了若干义原。由于此前义原的结构鲜少被使用同时为了节省成本BabelSememe的标注暂时忽略了义原的结构。下图给出了BabelSememe数据集的分词性统计。2 BabelNet synset义原预测形式化定义有了种子知识库下一步就是基于有义原标注的synset为无标注的synset标注义原进而将种子知识库不断扩充成最终的大规模义原知识库。本文首次提出并正式定义了BabelNet synset义原预测任务。BabelNet synset义原预测形式化如下定义为对BabelNet的某个Synset “b” 的预测义原集合P(s|b)为给定b时义原s的预测分数为义原预测分数阈值。即为某个synset预测义原时首先使用某种方法计算所有义原被预测给当前synset的分数然后选取预测分数高于某个阈值的义原作为最终预测结果。3 方法一基于语义表示的Synset义原预测这种方法的思路非常直观即意思相近的synset其所标注义原也应该相似——这和推荐系统中常用的协同过滤方法非常类似。其中synset之间的相似性利用了BabelNet提供的NASARI synset embedding的余弦相似度衡量。这种方法的公式如下图 所示4 方法二基于关系表示的Synset义原预测BabelNet包含很多synset之间的关系例如同义、反义、上下位等。与此同时HowNet也定义了若干种义原之间的关系那么自然地synset之间的关系和synset所标注的义原之间的关系应该是对应的利用这种性质便可以进行义原预测。例如上图中better和worse这两个synset存在反义的关系他们分别被标注了superior和inferior这两个同样存在反义关系的义原。那么在已知better和worse、superior 和 inferior这两对反义关系以及better有superior这个义原很容易推测出中worse含有inferior这个义原。基于此本文建立了一个语义图节点有synset和义原两种关系有三种synset之间的关系、义原之间的关系以及synset和义原之间被标注的关系hava_sememe。synset义原预测也就转化为了知识图谱中实体预测的任务即给定头实体——待义原预测的synset给定关系have semem预测尾实体义原。这篇论文利用了知识图谱任务中经典的TransE模型来学习这些实体和关系的表示以进行预测。此外考虑到synset义原预测任务的特殊性文中还额外引入了一个语义相等约束。词的语义可以由其义原组合而成synset也有类似的性质因此文中提出synset与其义原之和有一个语义等价的关系并且在模型训练时额外引入语义相等约束。例如上图中husband这个synset加上语义相等关系等于义原embedding的和。因此方法二训练时的总损失函数为两者之和如下图所示。此外文中还通过简单的顺序倒数加权相加的方式将两种方法进行了集成。实验该文利用自己构建的BabelSememe数据集对提出的synset义原预测模型进行了评测。其中为了对比设置了两个基线方法1同样使用了synset的语义表示NASARI embedding的逻辑回归LR和2基于关系表示的TransE。通过实验结果发现文中提出的方法一和方法二分别好于两个基线模型而且集成模型Ensemble获得了最好的结果。此外论文还进行了一系列的定量分析以探讨影响synset义原预测结果的因素。发现义原预测结果和synset以及义原度数即方法二的语义图中节点度数都成正相关随着sysnet义原数量的增加先增加后减小。 OpenKG开放知识图谱简称 OpenKG旨在促进中文知识图谱数据的开放与互联促进知识图谱和语义技术的普及和广泛应用。点击阅读原文进入 OpenKG 博客。