上海市网站建设定制,百度推广怎么优化关键词的质量,如何做电商运营推广,电脑网站转换成手机网站知识图谱作为人类知识的结构化数据#xff0c;是构建人工智能的基石。然而目前的知识图谱都是不完备的#xff0c;所以需要将多个知识图谱融合以获得更完备的知识库。基于表示学习的知识关联作为知识图谱融合的新方法受到了许多关注。但知识关联模型面临着参数多、复杂性高、…知识图谱作为人类知识的结构化数据是构建人工智能的基石。然而目前的知识图谱都是不完备的所以需要将多个知识图谱融合以获得更完备的知识库。基于表示学习的知识关联作为知识图谱融合的新方法受到了许多关注。但知识关联模型面临着参数多、复杂性高、知识图谱维数不一致等问题。如何解决这些问题呢本期AI TIME PhD直播间我们邀请到了南京大学计算机系博士研究生孙泽群分享他的观点。他提出将知识图谱的表示空间从欧式空间转换为双曲空间提出了基于双曲空间的知识关联方法。孙泽群南京大学计算机系博士研究生导师是瞿裕忠教授和胡伟副教授。主要研究方向为知识图谱表示学习及其应用如实体对齐、链接预测和类型推断等。目前在相关领域的国际会议如VLDB、ICML、AAAI、IJCAI、EMNLP、ISWC等发表多篇论文。一、背景1. 什么是知识图谱知识图谱通过多关系图的结构来存储和表示现实世界的事实或知识。如图1所示图的节点代表实体或概念而节点之间的有向边带有标签来说明边的具体类型也称为关系。知识图谱分为实体知识图谱和概念知识图谱本体。实体图谱存储不同实体或者叫实例之间的关系下图右边展示了一个例子即实体Bob对实体蒙娜丽莎很感兴趣。而概念图谱则刻画了不同概念之间的关系比如歌手属于艺术家。图1实体图谱和概念图谱2. 为何要做知识关联知识图谱大多由人工构建或者是对非结构化和半结构化数据进行信息抽取而构建的由于数据来源的不完备性知识图谱也是不完备的。比如百度百科和维基百科会有重合的部分也会有互补的部分二者融合起来可以提供更加全面的知识。通过挖掘知识图谱之间的一些关联信息将多个知识图谱融合在一起就是知识关联。3. 如何实现知识关联知识关联包括两个任务即实体对齐entity alignment和类型推断type inference。实体对齐旨在将两个实体图谱中共指的实体连接起来图2中双虚线。类型推断则是关联实体图谱和概念图谱挖掘实体到其所属概念之间的关联图2中虚线。图2实体对齐和类型推断二、知识关联模型如图3所示为了实现知识关联首先需要进行表示学习embedding learning将知识图谱嵌入到向量空间中之后再进行关联学习association learning实现上面提到的实体对齐或类型推断任务。图3嵌入学习和关联学习1.表示学习Embedding learningEmbedding方法的关键就是表示学习将每个实体用低维向量表示。知识图谱表示学习大致可以分为两大类方法一类基于图结构和关系另一类还会利用一些额外信息如实体属性等。TransE作为一个经典的知识图谱嵌入模型其核心思想就是让有相同关系的实体对的向量偏移尽可能相同。比如要表示中国首都是北京那么需要让“中国”向量加上“首都”向量近似等于“北京”向量。图4TransE模型图神经网络由于其强大的表示学习能力近些年被广泛使用。GCN是一个比较经典的图神经网络模型。GCN有两部分操作首先进行邻居聚合neighborhood aggregation将节点i的邻居进行聚合得到邻居表示。之后再将邻居表示和节点i自身的表示组合起来得到节点i在这一层的最终表示。但是GCN没有考虑图中边的方向与类型只要两个节点之间有边那么它们就是邻居而不区分中心节点与邻居的具体关系。R-GCN针对这个问题做了改进R-GCN考虑节点之间的关系对于每一个关系做一个邻居聚合最后把这些邻居表示再组合起来。比如一个知识图谱图有k个关系R-GCN的聚合方式类似于把这个图谱按照关系拆成了 k个无向的或者说是不带类型的图分别聚合最后再组合起来但是这样做复杂度很高。图5图神经网络模型2.关联学习Association learning关联学习的方法则是通过监督学习或半监督学习完成的。监督学习需要已知部分关联数据比如部分实体对齐数据作为training data目标是找出剩下的关联部分。但在现实场景中关联学习中的监督数据却很少有相关工作做过统计在跨语言的维基百科中只有10%~20%的共指页面有link。由于监督数据太少半监督学习被引入来解决这个问题。关联学习首先要度量节点之间的距离比如实体x与实体y的距离。余弦相似度和欧式距离等都可以用来度量节点之间距离。之后如果要做实体对齐类型关联同理一个比较简单的方法就是最小化x和y间的距离。学习的时候为了区分对齐的正样本和不对齐的负样本可以使用marginal rank loss或者limit-based loss。Marginal rank loss主要是让正样本和负样本之间有一定的距离却无法控制距离的取值范围。而limit-based loss则可以控制距离的取值范围。图6关联学习3.面临的挑战有些知识图谱尤其是概念图谱具有很多层次化结构。在进行表示学习的时候为了捕捉复杂或很深的层级结构往往需要一个更大的空间和更高的维度来表示节点。此外与实体对齐不同类型推断处理的对象是实体图谱与概念图谱由于实体数量远大于概念数量这两个知识图谱的向量表示维数往往相差较大基于距离最小化的方法不能适用于这种情况。图7面临的挑战三、基于双曲空间的知识关联面对上述挑战讲者提出在双曲空间进行知识图谱表示学习。首先双曲空间具有表达层次结构的能力有利于表示知识图谱尤其是本体中的层次化结构。其次双曲空间的容量要远远大于欧式空间所以在双曲空间可以利用更少的维度来实现具有高维欧式空间同等表现力的模型。双曲空间的特性使我们能够使用很小的维数来捕捉知识图谱的结构并且特别适合有层次结构的知识图谱。此外现有的欧式空间模型都可以通过一些基本算子的转换变为双曲空间下表示的模型。图8双曲空间特性知识关联方法包括表示学习和关联学习两个部分。其中表示学习结合了TransE与GCN的思想先在输入层用双曲TransE做一个关系转换即头实体关系等于尾实体之后再用双曲GCN在输入层上做邻居聚合得到实体表示。这样比起R-GCN就简单了很多不需要根据不同的关系进行单独聚合。图9HyperKA模型的嵌入学习得到知识图谱的双曲表示后将其作为知识关联的输入。在做关联时尤其是类型推断两个知识图谱可能结构不同或者维度不同不能强行最小化距离来拟合。所以就使用投影的方法将节点从源空间映射到目标空间去匹配对应的实体或者概念。图10HyperKA模型的关联学习四、实验结果1. 实体对齐Entity Alignment使用DBP15K数据集以HK和MRR为评价标准实验结果如下表表1实体对齐实验结果实验中所提出的双曲知识关联模型HyperKA的维数为75是所有模型中最小的。实验结果显示尽管HyperKA维数小但它在三个数据集上的表现都优于基线模型。图11维数分析从上图可以看出HyperKA只需要35维就能超过所有基线模型。随着维数的减小所需GPU的内存开销和训练时间都会减小。所以HyperKA模型能在有限的GPU内存开销下取得良好表现。为了验证双曲空间带来的优化将HyperKA模型退回到欧氏空间中得到HyperKA(Euc.)模型。从下表的实验结果可以看出在欧式空间下需要高维度如300才能达到在双曲空间下75维的表现。使用双曲空间带来了更小的内存消耗和更少的模型参数。表2HyperKA (Euc.)模型实验结果2. 类型推断type inference使用YAGO26K-906和DB111K-174数据集以HK和MRR为评价标准实验结果如下表表3类型推断实验结果实验结果表明在H1和MRR的评价标准下HyperKA15030优于其他模型。HyperKA模型在实体关联和类型推断任务上都比绝大多数基线模型表现好并且减少了模型的内存开销也减短了训练时间。Reference相关代码及数据集https://github.com/nju-websoft/HyperKA论文https://arxiv.org/pdf/2010.02162.pdf整理蒋予捷排版岳白雪审稿孙泽群