网站有几种类型,小说网站开发源码,263企业邮箱登录邮箱,上海在线做网站1#xff0c;知识图谱理想上双层结构#xff0c;实际单层 知识图谱是个双层结构。模式层和实例层#xff0c;模式层#xff0c;又称为本体层#xff0c;模式层分成两个部分#xff0c;一个是概念的上下层级#xff0c;另一个是概念之间的关系层或者概念的自身属性信息层…1知识图谱理想上双层结构实际单层 知识图谱是个双层结构。模式层和实例层模式层又称为本体层模式层分成两个部分一个是概念的上下层级另一个是概念之间的关系层或者概念的自身属性信息层。前者规定了概念类之间的类关系赋予了概念之间可以继承的特性后者定义了不同类自身的属性和关系变体。严格意义上来说知识图谱中的模式层对数据项的取值是有严格定义的例如数据库中的各种数据类型(字符串型、float型、list型)但这种做法在工业界往往用不到因为充分适应这种数据类型的规定是非常需要费时费力的。在很多人的认知里知识图谱就是知识三元组仅保留实例层这是现实中的大现实因为这来的快拿来就用。表面上看起来很舒服搞上面这一层太费脑筋而且有太多业务知识很多人办不到尤其是焦虑的工业界。 2知识图谱是可解释性也是个灾难。 知识图谱可解释性这种论断被炒的很火不能说对也不能说错标杆在于对可解释的定义。大体认为知识图谱是可解释的是沿袭了“眼见为实”的思维即我看到的实实在在的东西可以形式化的显示性地表达出来时我才认为我可以把一个问题解释给对此毫无背景的人听。也就是看重的是一种过程性的符号佐证一种缺乏思考能力和基础知识却想掌握某一现象的人来说的。而深度学习中学习到的系数或值缺少实际的物理意义从而被认为是不了解释的因为缺乏形式化。如果我们认可了这样一种标杆那么也自然成立但这种成立性带来了巨大的灾难即可解释性的数据荒灾难为了支持一个既定的事实背后需要大量的知识作为支撑但现在的规模是远远不够的几千亿几万亿估计都不够。退回来说这个知识的来源人工编辑收集的方式很局限不可面面俱到。基于抽取的方法可以海量的挖掘撇开技术性能不说海量挖掘的目的在于知识的曝光度曝光才是抽取的前提但有太多长尾的知识是压根不被报道或写出来的换句话说目前可以拿到的数据资源可能只是所有重要知识的百分之几甚至千分之几万分之几。所以认定了知识图谱是通向可解释智能的路那么这条路注定是个big problem. 3认知需要层级性的动作性和实体性知识基础 知识图谱是认知智能的语义基石基于知识图谱中所存储的知识机器可以像人一样去进行知识应用知识推理笔记看过很多博文的人都会有这种的认同感这没有什么问题。认知是人类相较于其他动物最大的区别在我看来认知能力主要包括概括能力和类推能力两种概括能力是能够基于大量既定事实总结经验规律模式并形成具有一定层级的模式思维能力。类推能力更像是概括能力的反向用力以及应用即常说的思考或举一反三。因此既然认定知识图谱是认知的基础那势必需要满足这两种基础即概括基础和类推基础。 概括基础形式化体现出来是具有概括性的能力以概括抽象性的能力以及抽象概念性知识库作为输出。说到这个又要说到人的认知体系问题人类的认知体系是以名词性实体为核心还是以动词性事件为核心的不同的核心决定了不同的概括需求。事实上作为一个由社会活动驱动的人类是动词性事件为核心的动词性事件支配名词性实体因此概括性能力应该包括名词性能力和动词性能力。但即便是如此人类在显式的表达自己的知识时还是以选择名词性实体进行表达是因为名词性实体比事件更为细粒度也更为稳定也是好习得好操作即先知道what is what再知道do what 。 名词性能力这方面代表性的工作有大词林、wordnet这两个是我认为真正意义上做到这点的工作一个是抽象二是分层没有进行分层的概念性是零散的(一堆高度稀疏的isa这方面的工作包括cnprobase以及conceptgraph。但是对于这种概括性知识图谱而言还是基本上集中在名词性实体上究其原因一是因为好建模(可以利用实体链接背后有百科类实体作为支撑好操作)二是因为数据的可获得性有大量认为预定好的层级(目录树网页导航黄页)等。当然在这个方面各大电商医疗工业领域等积累了大量的材料如阿里商品等基于商品的挖掘可以快速搭建一个面向商品消费的层级性实体概括性知识库。 动作性的概括性图谱目前还相对空白。与名词概括性图谱不一样名词性的概括性可以用is-a表达而动词性概括图谱更多的是一种part-of关系事件具有组成性的特征。相关的工作更多的是集中在事件的逻辑性的挖掘上(因果逻辑条件逻辑上下位逻辑)。有必要说明的是其中的上下位(包括基于名词性实体的上下位以及基于动词性实体的上下位)是这种概括性图谱中的一部分。比如结婚这个动作包括领证、办喜酒、发请帖等几个组成性事件。前者所描述的是一种诸如货币贬值下的美元贬值、人民币贬值、日元贬值。一种在形式上有交集可以找到规则另一种没有形式规则可言。所以前者的挖掘难度要比后者简单地多而意义上后者则要强得多。 4事件类图谱的殊途同归向上概括与向下泛化 漫步的抽象事理图谱。同一个事件知识如果只关注单个事件集合之间的关系(上下位组成、因果、时序)那么就会走向具有三层结构的事件类知识库(抽象事理图谱)这类图谱的特点是只考虑事件名以及事件名个体经过加工、抽象、模式规约后形成的体系关系而不考虑具体的事件富信息。其中的三层结构第一层是事件顶层也可称为事件类型用最顶层的事件类型名称对下沿事件进行统筹。第二层是事件抽象模式层也叫事件类簇代表统筹基于该事件模式下存在不同表述的事件个体。第三层是事件事例层属于具体的事件名称(如巴西发生大火)。 周全的领域事件图谱。与漫步的抽象事理图谱不同它考虑的更为周全且体现在领域性上。周全即在满足事件名的基础上能够以事件槽的方式挖掘事件的不同侧面信息例如杀人事件中的时间、被害人、犯罪嫌疑人、地点等。领域性即该事件领域的刻画领域的事件具有领域的属性特征具有领域的槽位侧面用于描述领域性的事件信息。当然这种领域性包括通用领域和垂直领域(金融、社会治理等)领域的槽位数量和角度都各不相同。领域事件图谱借助这种信息的复杂性能够支持更多方位的信息检索、分析和追踪服务。但往往会因为包袱过重无法大规模施展开来。这种包袱体现在槽位的定义事件的定义上通用的槽位数量太少(如SEM设计的事件本体不足以体现领域特性和功效领域的槽位(如ACE实在有限framenet略多实则有限需要精心设计不具有扩展性工程周期长。 漫步与包袱互助事件快跑。抽象事理图谱甩掉了包袱在抽象概括性知识上深耕事件类图谱在实例事件上小步慢行。两者分别从向上和向向下两个角度在做(脑补亚里斯多德与阿基米德的画面)。两者融合是一个大方向(或许早已有之但没有大规模工程化技术手段需要深思考能够树立起整个事件知识基石。抽象事理图谱的技术难点和核心在于“抽象”二字把握抽象粒度动态变通事件体系在此基础上再进行平级逻辑挖掘终极目标在于抽象能力的自主习得和体系的自我构建、更新与完善。领域事件类图谱核心和难点在于“领域”两个字自动梳理和划分领域事件类别自我习得既定类别的具体槽位突破人工手动解放业务专家。两类图谱以事件名或者事件实例作为中间键进行连接。 5实体性知识图谱与事件类图谱的融合 事件类图谱以事件为核心事件中包括各类实体在类型划分上实体可以是领域性实体也可以是开放域实体一般来说实体类型和实体信息越丰富事件类图谱与实体类知识图谱的联通度和稠密度就越高。以金融领域来说可以链接公司、商品、货币、医药、水果、人物、高管等实体开放域的话可以通过概念性实体的类型进行识别。识别的过程包括实体识别和实体链接两个部分(对于具有歧义的实体尤其有必要在实际操作中根据实际情况进行考虑)。