潍坊网站建设价格,网址提交百度,响应式网站做法,公司做官网要多少钱一、知识图谱发展三个周期 知识图谱#xff0c;从2012年谷歌正式将这一概念应用到工业界之后#xff0c;到现在已经逐步走过了将近7年的时间#xff0c;在这七年的时间里#xff0c;知识图谱逐步经历了从概念兴起、概念泛化、技术挣扎与落地尴尬三个环节。 1、 知识图谱的概…一、知识图谱发展三个周期 知识图谱从2012年谷歌正式将这一概念应用到工业界之后到现在已经逐步走过了将近7年的时间在这七年的时间里知识图谱逐步经历了从概念兴起、概念泛化、技术挣扎与落地尴尬三个环节。 1、 知识图谱的概念兴起——起于谷歌兴于搜索 知识图谱真正以一种新鲜事物进入公众视野的时间大概是谷歌于2012年提出的knowledge graph国内学者直接意译为“知识图谱”。当然之前有科学知识图谱、语义网不在此文讨论范围之内。从字面意义上来说知识图谱的核心包括两个一个是knowledge另一个是graph。Knowledge充当的是数据的类型角色所刻画和描述的数据被称作是知识graph充当的是数据组织和存储结构的角色即图结构。数据这个点决定了知识图谱所能涵盖和刻画的领域和范围图结构决定了数据的使用方式和应用方向。 2012年谷歌首先抛出了知识图谱这个概念并将其应用于提升搜索服务在搜索效果上的直观体现主要还是集中于实体级别的搜索通过内部实体之间的关联信息以及实体的属性等信息在用户在进行实体搜索时通过关联查询以知识卡片的形式同时提供实体本身以及关联实体的信息从而在给出什么是什么的情况下再一度地给出此外还有什么的问题。简单的来说这种搜索体验大致可以归为2点一是搜索结果的目的简洁性是一个实体或者实体属性形式上更为确定而非一个网页。而是搜索结果的上下文扩展这里所说的上下文指的是实体的关联信息这些关联信息能够在让用户知道多一点的情况下可进一步提升用户的点击兴趣。事实证明谷歌这一做法是奏效的新的搜索方式引领了一步新的潮流并且随后被国内外同行争相跟进如yahoo,Microsoft,facebook百度搜狗阿里巴巴先后提出了自己的知识图谱并快速产品化。这类产品主要还是集中于搜索领域归结的来说即知识图谱起于谷歌兴于搜索。 2、 知识图谱概念的泛化——虽有尝试亦存跟风 当知识图谱起于谷歌兴于搜索之后借着搜索的东风以及搜索本身作为一种信息传播的工具知识图谱这一概念开始经历第二个时期即快速传播时期。主要传播的方式包括三个途径一种是文字上的传播关于大量知识图谱的报道软文介绍在互联网上大规模传播“知识图谱”、“knowledge graph”等关键词充斥于各个技术文章当中。二是视觉上的传播“两个圆圈一条边边上几个文字悬”的知识图谱形象化展示图片被大量生产出来这似乎固化了知识图谱在大众心目中的物化形象即知识图谱就是一张网就是网中的可视化。三是听觉上的传播如ccks为主要代表的会议线上以及线下知识图谱讲座、课程使得“zhi shi tu pu”这个名词在人群中广为传播。这三种方式一同发力直接将知识图谱这一概念的流行度推向高峰。而一旦一个名词性概念被广为流传和熟知之后如ai一般知识图谱恐怕难逃“知识图谱”这样的命运这里的“知识图谱”与“互联网”以及“ai”一样成为互联网创业中的基本标配越来越多的项目向知识图谱靠拢形式上知识图谱在各个领域的快速应用医疗知识图谱、法律知识图谱、食品知识图谱、农业知识图谱、金融知识图谱、产业链知识图谱、教育知识图谱等等如雨后春笋般涌现。这些知识图谱的大量出现归结的来说虽有尝试亦存跟风。知识图谱可以作为一个技术本身而存在而不同的业务场景不同的需求是否真正需要使用知识图谱从而完成所需目标就另当别论了。 3、 知识图谱概念的落地——踌躇满志艰难不止 当一个新鲜事物被广为流传之时即到达了一个顶峰之后就必然不能停留在想象之中想象中很不同与现实场景有很大不同即现实场景下就到了概念到实际应用的转化了。说到这自然而然就要说到知识图谱本身的技术问题了。第一节说到知识图谱核心包括数据-知识结构-图谱数据是最为重要的一点目前运用数据进行产品研发和应用落地的重要前提就是数据的靠谱性所谓的数据靠谱主要体现在知识的准确性、实时性以及小众性三个方面。其中准确性是首要前提错误的数据会导致错误的结论实时性主要是尊重知识的客观属性即动态性社会是不断动态变化的知识是不断动态实时更新的旧的落后的数据无法保持得到的结论是可靠的小众性主要是从知识的价值大小来说“物以希为贵”这条定理很好的说明了这个问题大众的知识是你有我有全都有的知识这大众已知的知识对于后期的应用以及公司的竞争力来说没有太大的意义。而如法律知识、军事知识、交易数据等私密或者只有少部分人能够获取的知识才真正大有可为。因此要真正意义上把握这三点将知识图谱做好其实是个“踌躇满志艰难不止”的事情。在知识图本身技术上的局限性从知识抽取-知识融合-知识更新这一长条知识工程pipeline上知识图谱这一块的骨头可谓是相当难啃。
二、从实体到事件 当知识图谱作为一项技术和名词性概念进行发展之时新的变体就会必然出现。知识图谱的基本组成单位实体实体关系实体中我们进行成分替换之后可以得到多种不同的类型例如我们将实体单位换成是一个事件实体之间的关系换成是事件的关系那么就可以得到以“事件”为核心的event knowledge graph。然而目前关于event knowledge graph概念不统一因此接下来可以展开论述。概念不统一本质在于对event knowledge的界定不同什么是事件知识而事件又是什么本身关于事件(event)的界定都不明确。目前关于事件的界定有很多如目前ACE、TDT、chambers在做narrative event chain或者scripts中的事件这些事件都给出了不同的解释。而从计算机处理事件来说应该从以下几个方面去考虑一个事件 1、事件的外部表示界定 知识图谱中的实体和实体关系都有唯一的一个表现形式进行表示如名词性的“刘焕勇”动词性的“毕业于”形容词性的“美丽”等这种唯一的表现形式提供了节点表示的可能。而如果要将节点替换成事件用一种特定的字符串序列来表示事件会出现什么情况一个事件是一个名词还是动词还是一个短语还是一个主谓或动宾二元组还是一个主谓宾三元组还是一句描述还是囊括更多信息的N元组这些都是需要考虑的问题。目前广泛应用于scripts以及narrative chain中的以动词作为事件的表示方式往往太过于抽象往往一些名词也可以充当事件这个放在兼类现象严重的中文中问题更大。事实上事件在外部形式上的表现方式直接决定了事件在图谱中的组织方式和管理机制。 2、事件的内部信息表示界定 单纯以一个词来表示事件的方式往往太过于单薄和抽象而一个事件之所以能够成为事件那么最好的方式是能够使用尽可能少量的字符或者字段表达尽可能多的事件相关信息。在这个方面ACE定义了8类事件以及几十个小类的事件类型人工地针对每个事件小类定义了槽即slot的概念从不同的侧面围绕一个特定的事件触发词trigger words来进行事件描述。由于这种事件结构定义不具备普适性和拓展性迁移成本特别高因此后期有人考虑使用framenet以及verbnet来解决这个问题但依旧有限而且这都是属于英文领域对于中文又会遇到“巧妇难为无米之炊”的问题。目前关于事件的info-schema可以自行搜索关于eventschema相关的框架主要代表性的有国内上海大学的5元组事件表示国外的semevent本体表示框架。 3、事件之间关系的表示界定 静态性的知识数量规模巨大这决定了实体关系类型的丰富性而相对于实体而言事件之间的关系则相对较少从大的方面来说事件之间的关系主要包括空间关系和时间关系两个大类两个大类底下能够继续下分形成不同的子空间关系和子时间关系。空间关系和时间关系又可进一步聚类形成逻辑关系不同的空间和时间关系组合决定了不同的逻辑关系。
三、事件类图谱的几个类别 根据事件外部表示以及关系的不同事件类知识图谱主要有以下几种概念形式此处为个人总结 1、 事件知识图谱event knowledge graph 事件知识图谱在这里我更倾向于认为这个图谱本身更倾向于为一个事件知识库而非知识图谱。事件知识图谱的工作主要围绕事件知识本身进行展开关注点在于事件内部信息如ACE中的8大类事件将这几类事件中的信息进行抽取和填充就能够得到一个以特定事件类型作为分类标准的事件知识库如婚姻事件库、爆炸事件库等。最近的工作包括自动化所关于金融事件知识图谱的工作集中于资产冻结等少数几个特定事件的事件知识图谱。这种事件知识图谱中的事件由特定的事件类型及其槽构成内部关系主要考虑包括事件论元之间的关联对于外部事件之间的关联关注较少。 2、 抽象事理图谱abstract event evolutionary graph 抽象事理图谱最早由哈工大信息检索实验室在narrative chain的基础上提出目标是揭示事件之间的演化性关系上主要考虑顺承和因果两种在事件节点的设置上倾向于事件的抽象性以原文短句的形式作为字符串表示这种抽象性质决定了该事件不具备更为细致的内部事件信息形式上很为简洁。但存在的挑战很多例如如何抽象以原文短句作为事件外部表示似乎看不到抽象的成分在抽象的力度如何控制不同的抽象粒度会得到不同的抽象结果。 3、 事件逻辑知识图谱event logic knowledge graph 事件逻辑知识图谱是综合事件知识图谱和抽象事理图谱之间的一种知识图谱类型该知识图谱既保留了事件知识图谱中事件内部信息的完备性又保留了抽象事理图谱中外部事件表示的抽象性具有完备性和抽象性双重特征。不过事件逻辑知识图谱与事件图谱不同事件逻辑知识图谱规避了事件知识图谱的领域特征而采用统一的事件槽即通用的事件N个论元组对事件表示其中论元的设置综合考虑了回答5个W1个H的问题的同时更考虑事件的情绪、确定性、完成性、主观性、权威性等信息并通过领域实体的增加与替换来达到对不同领域的适配。本质上来说事件逻辑知识图谱的核心在于逻辑而这种逻辑的本质特性是抽象性因此事件之间的逻辑关系需要从底层的事件进行高度抽象而成这种抽象主要体现在事件逻辑知识库中事件外部形式的表示上。与抽象事理图谱不同由于有了底层具有丰富内部属性的实例事件作为支撑可用于事件抽象的信息更多在事件融合方面带来了极大的便利另外在事件之间的关系上进一步进行扩展可以形成对立、条件、部分与整体等多种逻辑网络。
四、事件类图谱的几个重要问题 在实际的理论研究和生产过程当中我们发现以下几个方面的问题需要急需解决。 1、事件关系语料库的构建与融合。目前关于这方面的英文语料库主要有timebank以及propbank中文的有突发事件cec语料库以及哈工大的篇章关系语料库等这些语料库一方面在分布上较为分散另外在事件的标注上还是局限于动词性词语作为事件表示。因此更多类型的事件关系语料库需要构建在标注的形式和规范上需要从词级别进一步转换成句子级别等。 2、事件关系抽取的任务规则转变。目前时序事件评测以及因果事件评测任务大多转换成了一个序列标注任务或者文本分类问题来做而这基于一个重要的前提即数据集中明确标注了事件本身我认为这样的任务与其说是抽取不如说是分类因为没有事件抽取的概念在。这样的评测任务直接会造成在实际应用场景下无法直接使用。识别出事件这一个步骤需要提上日程而不是在已标注好的事件上做事件关系的判定之类的刷榜游戏实际落地应用价值不是特别大。 3、事件类知识图谱的评估。这个问题是我们在工作过程当中包括与别人讨论时必问的一个问题即准确率的评估问题。事件逻辑知识图谱是目前我们工作的重点我们在通用事件论元表示抽象性事件关联抽取上做了一些工作。总结的来说事件逻辑知识图谱从零到有包括因果、顺承、对立等事件的抽取事件内部论元的识别事件的抽象与融合事件的动态等一系列环节组成一个具有误差传播的pipeline每一个环节的准确率都需要进行评估。此外在构建好的事件逻辑知识图谱当中如何应用进行辅助决策在应用层也需要进行准确性的量化。这些评估问题在标准数据集的构建以及评估方法上面临着诸多挑战这是我们目前遇到以及正在解决的问题可以关注我们的工作。
五、总结 知识图谱目前已经发展了近7年的时间在这7年的时间里知识图谱从兴起走向泛化目前正处于从概念到落地的环节还存在诸多挑战。正如知识图谱一样事理图谱提的多了大家对该概念的理解就会出现偏差也就会对事件类图谱有不同的认识本文介绍了我们在实际过程中对事件类图谱的认识可以帮助大家扫扫盲区。另外也正如知识图谱一样事理图谱目前到了落地应用的环节技术上存在多种问题需要解决本文也提出了几个需要解决的问题如事件关系语料库的构建、事件关系抽取任务规则的转变、事件类知识图谱的评估大家也可以多想想关注此类问题。 如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作可联系我 1、刘焕勇中科院软件所lhy_in_blcu126.com 2、我的github项目介绍https://liuhuanyong.github.io 3、我的csdn博客https://blog.csdn.net/lhy2014 4、我的公众号老刘说NLP