红色页面网站,推文最好的网站是哪个,建网站的公司深圳,中建官网论文笔记整理#xff1a;叶橄强#xff0c;浙江大学在读硕士#xff0c;研究方向为知识图谱的表示学习和预训练。来源#xff1a;EMNLP 2020现有的大多数基于行走的模型通过在提供可解释的决策的同时获得良好的性能#xff0c;在知识图谱推理中显示出其优势。但在遍历过程… 论文笔记整理叶橄强浙江大学在读硕士研究方向为知识图谱的表示学习和预训练。来源EMNLP 2020现有的大多数基于行走的模型通过在提供可解释的决策的同时获得良好的性能在知识图谱推理中显示出其优势。但在遍历过程中提供的稀疏奖赏信号往往不足以指导复杂的基于行走的强化学习模型。另一方面使用传统的符号方法如规则归纳法这些方法虽然性能良好但由于符号表示的局限性而难以推广。本文提出了规则引导器RuleGuider一方面利用基于符号的方法生成的高质量规则另一方面高质量规则为基于行走的代理提供奖励监督。RuleGuider由两个部分组成一个是基于符号的方法称为规则挖掘器rule miner另一个是基于路径的方法称为agent。规则挖掘器rule miner首先挖掘逻辑规则agent在规则的指导下通过奖励来学习推理路径的概率分布。代理部分agent分为两个子代理关系代理和实体代理这两个代理结构相互作用生成路径。在每个步骤中实体代理首先从有效实体中选择一个实体然后关系代理将基于所选实体抽样一个关系最后他们基于最后选择实体的命中奖励和基于所选路径的预挖掘规则集的规则指导奖励。实体代理和关系代理可以参考如下模型结构图1关系代理Relation Agent对于给定的查询语句关系代理选择一个关联到当前实体et−1的关系rt这个过程可以用公式描述为其中rq表示需要查询的关系R为挖掘出来的规则集合是之前每一步挑选出来的关系历史。因此关系代理既利用了预先挖掘的规则的置信度得分也利用了嵌入向量提供的语义信息来获得命中奖励。2实体代理Entity Agent类似于关系代理实体代理模型会基于头实体es生成所有候选实体的分布这个过程可以被形式化为其中rq表示需要查询的关系rt表示从关系代理中获取当前第t步骤的关系。3策略网络Policy Network关系代理的搜索策略可以通过嵌入向量rq和来参数化其中后者是关系历史通过长短期记忆神经网络LSTM来计算其中是最后一个关系的嵌入向量是之前的历史关系。于是可以得到关系代理输出概率分布其中σ是softmax运算符W1和W2是可训练参数。因此关系代理的历史依赖策略可以表示为。类似地实体的概率分布可以表示为实体代理的历史依赖策略可以表示为4训练奖励规则引导奖励Rr给定一个查询关系代理会选择指向正确对象实体的路径。因此在给定一条关系路径的情况下我们根据其从规则挖掘器中获取的信任度给予奖励称为规则引导奖励命中奖励Rh还将获得命中奖励Rh如果预测的三元组在知识图谱中则其值为1。训练过程分四个阶段训练模型。1 使用基于嵌入embedding的方法训练关系和实体嵌入向量。2 应用规则挖掘器来检索规则及其相关的可信度分数。3 通过冻结实体代理并请求关系代理采样路径来预训练关系代理。只使用规则挖掘器来评估路径并根据预先挖掘的置信度计算Rr。4 联合训练关系和实体代理来利用嵌入来计算相对湿度。最终整合规则引导奖励Rr和命中奖励Rh 并为其加入系数为λ并使用强化学习算法训练两个代理的策略网络使最终的汇报R最大化实验实验部分作者做了三类实验包括三个数据集上的知识图谱链接预测模型各个和人工评估推导的规则合理性这些实验。实验结果如下RuleGuider在WN18RR和NELL-995上实现了不错的效果但在FB15k-237数据集上也效果有限。一个可能的原因是与其他两个数据集相比FB15k-237中的关系空间要大得多而在大的关系路径空间中规则相对稀疏这使得关系代理难以选择所需的规则。另外与基于行走路径的方法相比基于嵌入的方法尽管相对简单但在所有数据集上都具有一贯的良好性能很可能是因为基于嵌入向量的方法将整个图的结构信息隐式编码到嵌入空间中。 为了验证模型各个部分的有效性文章设计了不同的RuleGuider模型变体来验证试验Freeze模型冻结了预训练的关系代理部分No模型没有预先训练部分Single模型没有分离agent。Freeze模型与本文模型比较冻结预先训练过的agent代理效果较差表现差表明命中奖励是必要的。No模型与本文模型比较去掉预训练表现的结果较差说明基于行走的智能体受益于逻辑规则。Single模型与本文模型比较性能较差说明了剪枝动作空间的有效性。除了评估链接预测指标和模型变体外本文还进一步分析导致正确预测实体的推理路径是否合理。文章在FB15k-237上使用均匀分布从开发集随机抽取300个三元组的评估集。对于给定正确的三元组三个实验者被要求选择以下哪条路径是更好的解释/分解它之间的1由本文方法生成的路径2由多跳方法Multihop生成的路径3抽签或没有一个是合理的。对于每个三元组以多数票作为评估结果。从表4中可以看出与具有复杂奖赏成形的多跳算法相比规则引导器RuleGuider具有更好的性能推理路径对可解释性更有意义。 OpenKG开放知识图谱简称 OpenKG旨在促进中文知识图谱数据的开放与互联促进知识图谱和语义技术的普及和广泛应用。点击阅读原文进入 OpenKG 博客。