当前位置：首页 > news >正文

站免费下载安装手机制作app的软件免费

news 2025/11/25 19:52:43

站免费下载安装,手机制作app的软件免费,织梦调用网站类型,天津百度推广代理商导读#xff1a;本次分享题目为《图视角下的信息抽取技术研究》#xff0c;主要介绍#xff1a;研究背景和意义国内外研究现状研究目标与内容主要成果与创新之处完成项目及发表论文情况分享嘉宾#xff5c;郁博文博士达摩院算法专家编辑整理#xff5c;王露出品平台本次分享题目为《图视角下的信息抽取技术研究》主要介绍研究背景和意义国内外研究现状研究目标与内容主要成果与创新之处完成项目及发表论文情况分享嘉宾郁博文博士达摩院算法专家编辑整理王露出品平台DataFunTalk01研究背景和意义信息抽取是从无结构的自然文本中识别出实体、关系、事件等事实描述以结构化的形式存储和利用的技术。以“信工所位于北京市海淀区隶属于中国科学院”为例可以得到信工所位于北京市海淀区和信工所隶属于中国科学院两个三元组。信息抽取的目标是让机器理解互联网上的海量信息为机器做正确决策提供大量相关知识。信息抽取是知识图谱构建与填充、自动机器问答、信息检索、辅助决策等下游任务和应用的重要基础。如 AliCoCo 电商图谱为商品推荐和阿里小蜜智能问答提供知识基础。1. 实体识别实体识别指的是从文本中识别出实体的边界和类别来自于预定义好的类别集合。根据实体是否包含单个连续片段可以将实体识别任务划分为连续实体识别和不连续实体识别任务。连续实体识别指的是每个实体只包含一个片段但是不同实体之间可能有嵌套。如“呼吸中枢受累”文本片段中存在两个实体“呼吸中枢”和“呼吸中枢受累”分别代表“部位”和“症状”。不连续实体中一个实体包含多个不连续的片段。如“明朝嘉靖、万历年间”包含两个实体 “明朝嘉靖年间”和“明朝万历年间”。“明朝嘉靖年间”包含两个片段“明朝嘉靖”和“年间”“明朝万历年间”包含“明朝”和“万历年间”两个片段。对于不连续实体需要识别出每个片段的边界和片段之间如何组合不连续实体。2. 关系抽取关系抽取致力于从文本中识别一对实体以及实体间的语义关系构成关系三元组。关系类型来自于预先定义的类型集合。根据是否给定目标实体关系抽取可以分为关系分类和实体关系联合抽取任务。关系分类的任务中输入为原始文本、文本中抽取出的实体输出关系类型。如下图中的“鲍卡斯”和“蒙大拿州”输出关系类型“Come From”。实体关系联合抽取任务中只输入原始文本不给定实体输出文本中包含的所有满足预定义关系集合中的关系三元组。3. 事件抽取事件抽取的目标是从文本中抽取出用户感兴趣的事件。如某人在某时某地做了某事。组成事件的元素包含事件类型、触发词、论元和论元角色。论元指的是事件文本中出现的人或物的名称。论元角色指的是论元在事件中承担的角色。事件抽取需要识别文本中术语预定义类型的所有事件的类型、触发词、论元和论元角色。以“2004 年 12 月 24 日杨振宁与翁帆在广东省汕头市举行婚礼”为例事件类型为结婚触发词是“举行婚礼”论元是“杨振宁”、“翁帆”、“广东省汕头市”和“2004 年 12 月 24 日”对应论元角色分别为参与者、参与者、地点和时间。4. 开放域抽取前面提到的实体识别、关系抽取和事件抽取都是面向限定类别的知识抽取难以应对未知域也就是不在定义好的训练集合类别中的知识抽取开放域抽取能够解决这个问题。开放抽取直接使用句子原始字词片段作为实体之间的关系短语而不是从固定的类型集合中选取的短语。根据是否给定头实体开放抽取可以分为半开放信息抽取和开放信息抽取。半开放信息抽取给定一个头实体。下图的话中以“鲍卡斯”为中心抽取出与它有关的尾实体和关系短语也就是“曼斯”“蒙大拿州”。开放信息抽取不给定头实体希望能够抽取句子中所有的知识。也就是鲍卡斯来自于蒙大拿州和曼斯来自于蒙大拿州。最关键的是实体间的关系短语来自于文本中的片段因此可以应用于任何领域、任何语言而不需要预定义关系类别集合。通过上述定义可以发现信息抽取的不同子任务有不同的输入和输出因此在语言学中各子任务被视为单独的研究领域。下图统计了 ACL 2021 年各种任务的论文数量可以发现不同子任务多有较多的研究但很少有文章研究如何用统一的视角看待信息抽取的不同子任务用统一的思路解决这些子任务因此本篇文章研究了以统一视角和设计思路指导模型设计。02国内外研究现状1. 序列标注早年信息抽取任务间统一的方法是序列标注也就是给文本中句子的每个词项打预定义的类别标签。该方法本质是对文本中每个词项进行分类的问题。以“2017 年鲍卡与曼斯先后担任大使”为例“2017 年”是一个时间类实体标签为 B-TI、I-TI“鲍卡”和“曼斯”是一个人物类的实体标签为 B-PER、I-PER“大使”是一个工作类的实体标签为 B-JOBI-JOB。下图中符号与含义解释如下表在更为复杂的实体中通常会使用三段式标注也就是 BIO 表示法。其中BBegin简写为 B表示实体的起始位置IInside简写为 I表示实体中间字OOther简写为 O表示非实体字。1 和 2 分别代表头实体和尾实体。如“鲍卡”和“曼斯”为头实体“大使”是尾实体因为希望抽取到的三元组为鲍卡担任大使曼斯担任大使因此这句话中有两个头实体对应的序列标注结果为 B-1-J、I-1-J、B-1-J、I-1-J、B-2-J、I-2-J。备注上图中最后一列“使”对应的序列标注应该为 I-2-J事件抽取与开放抽取类似实体抽取和实体关系抽取可以采用同样的方式抽取三元组。尽管序列标注能够优雅的统一信息抽取的各个子任务但是对复杂的输入文本序列标注的表达能力有限而我们希望能够抽取到所有感兴趣的知识。以“鲍卡斯来自蒙大拿州担任大使”为例。两个关系三元组共享同一个头实体“鲍卡斯”但关系类型不一样分别为“来自于”和“担任”。序列标注的方法只能识别出一个三元组因此序列标注无法识别出共享一个实体且关系类别不一致的知识为了解决这个问题当前主流的解决方式有级联式标注和序列分层。2. 级联式标注级联式标注不再一次性将所有的头实体、尾实体以及关系都抽取出来而是对任务进行分解先抽取头实体再标记对应的尾实体和关系。以“故宫博物院坐落于中国首都北京”为例先找到句子中的头实体“故宫博物院”进行序列标注第一个序列中标注头实体的开始类型第二个序列标注头实体的结束词类型结合两个序列得到头实体。之后针对每个头实体枚举所有关系类型如Located-inCapital 和Contains在关系类型下标注头实体对应的尾实体得到头实体与尾实体的三元组。从而能够抽取到文本中所有的三元组如故宫博物院Located-in北京中国Capital北京中国Contains北京。3. 序列生成序列生成利用编码解码框架根据输入的文本直接生成三元组。不同的三元组按照预先定义的顺序生成。如故宫博物院Located-in北京先生成“故宫博物院”再生成“Located-in”最后生成“北京”。通过这种方式可以将复杂的实体联合抽取任务转换为序列生成问题。4. 不连续实体识别之级联标注和序列生成在前面的举例中提到实体识别中存在实体嵌套和实体不连续的问题。实体嵌套指的是两个实体有重叠部分实体不连续指的是一个实体包含多个片段。序列标注的方式为每个实体赋予一个标签的方式无法解决这两种问题。如“呼吸中枢受累”和“呼吸中枢”都是实体但是用单个序列标注在“呼吸中枢受累”有标签时无法区分出“呼吸中枢”也是一个实体。而在“患者腿部、腰部痛”这句话中“腿部痛”和“腰部痛”都是实体但是“腿部”和“痛”是不连续的简单的序列标注方法也无法正确识别出来。因此有一种解决方案是移进归约解析器借鉴到实体识别任务中利用动作序列识别不连续和重叠的结构。解析器使用栈结构存储已经被处理过的片段使用缓存区存储未被处理的片段前后动作是相互依赖的。序列生成根据输入的文本先生成第一个实体“腰部痛”之后生成实体类型是症状再生成第二个实体“腿部痛”预测实体类型也是症状。以此类推生成所有的实体。5. 开放信息抽取之级联标注和序列生成由于开放信息抽取任务中面向开放信息的特性在三元组中会不可避免的出现实体重叠、实体不连续等复杂的知识描述。如“豫园建造于明朝嘉靖和万历年间”这句话中有两个三元组豫园建造于明朝嘉靖年间豫园建造于明朝万历年间它们共享头实体“豫园”实体“明朝嘉靖年间”和“明朝万历年间”不连续。在这个任务中复杂程度在于同时出现了实体重叠和实体不连续的问题。为了解决这个问题级联标注会自回归的进行序列标注每个序列标注会对应一个三元组前一个三元组的预测标签输入到下一个三元组序列中用于标注后一个三元组以此类推直到某一层的三元组中标签全部为 O表示序列中不再存在三元组则停止标注。使用序列到序列的生成模型解码得到三元组输入为原始文本生成多个三元组三元组之间使用特殊字符进行分割得到所有的三元组。上面介绍了总结实体识别、关系抽取和开放抽取中的相关工作总结如下无论是序列标注还是序列生成从统一视角看都是将业务关注的知识构建成树结构。以实体关系联合抽取的任务为例级联式标注会先抽取头实体作为根节点再抽取尾实体作为树的子节点而序列生成将输入文本生成一个链表类的树结构但由于树结构在表达能力、表达效率和预测方式上存在局限提出一种新的视角解决现有的树视角下的问题。03研究目标与内容重新划分任务不再关注信息抽取任务类型是实体抽取、关系抽取、事件抽取或开放抽取而是关注想要抽取出的知识将原来的四大类七小类任务按照目标知识中包含的片段个数划分为一元信息抽取、二元信息抽取和多元信息抽取。一元信息抽取指的是输出知识只包含一个片段。如连续实体识别和关系分类关系分类中输出为关系类型连续实体识别输出虽然包含实体和实体类型两部分但两者可同时识别因此可视为一元信息抽取。二元信息抽取指的是输出知识包含两个片段。如半开放抽取输出为关系和实体的二元组实体关系联合抽取输出为头实体、尾实体以及实体之间的关系三元组但实体关系可以视为头实体和尾实体识别时的副产物因此可以看做二元信息抽取。多元信息抽取指的是输出知识包含三个或三个以上片段。其中不连续实体识别的片段的目标实体片段数量不固定事件抽取中角色数量不固定开放抽取需要同时识别和组合三个或更多的片段。按照片段划分任务的优点是能够剥离原有任务定义从抽取任务最本质的需求即抽取并组合目标片段并输出知识出发重新思考任务间的关联性。1. 一元信息抽取一元信息抽取任务究其根本就是从文本中识别目标片段也就是将一个知识片段组合。识别和组合的动作也就是将文本中的词项进行联系使得原有的一维文本转换为具有特定联系的词项集合。例如在关系分类任务中已知两个实体之间的联系就是关系类型在图视角下可以将任务转换为在图中预测头实体和尾实体词项节点之间的连边类型也就是说预测图中的边类型。以“鲍卡斯与曼斯来自蒙大拿州”为例“鲍卡斯”是头实体“蒙大拿州”是尾实体在图中可以构建一条“鲍”和“蒙”之间的连边预测连边类型也就是实体之间的类型。在连续实体识别任务中会更复杂一些需要在空白图中目标实体的开始位置和结束位置之间进行连边如“鲍卡斯”是一个目标实体因此需要在“鲍”和“斯”之间建立连边预测连边类型也就是实体类型。能够知道实体类型的原因是在图中如果我们能够确定一个实体在文本中的开始词和结束词就能够唯一的确定实体。如“蒙大拿州”是尾实体类型为Location。因此在 “蒙”和“州”之间进行连边表示以“蒙”作为开始“州”作为结束的片段的类型是location类的实体。因此一元知识可以用图中的连边表示无论是实体或关系都可以将类型转换为图的连边类型。2. 二元信息抽取二元信息抽取的一个经典任务是实体和关系的联合抽取任务在这个任务中需要知道实体的开始位置和结束位置并在之间建立连边还需要联系具有语义关系的两个实体可以通过连接两个实体的开始词和结束词的位置建立关系。如“鲍卡斯”是一个实体先连接“鲍”和“斯”“蒙大拿州”是一个实体连接“蒙”和“州”之后组合两个实体之间的关系需要把“鲍”头实体的开始词和“州”尾实体的结束词“斯”头实体的结束词和“蒙”尾实体的开始词进行连接得到一个环表示二元知识。环代表了头实体实体关系尾实体的三元组实体之间的连边表示关系类型。因此二元信息可以用图中的环进行表示。3. 多元信息抽取为了准确的组合同一个知识内部的多个片段需要用图结构对所有知识的所有片段进行准确组合而不能仅仅通过一套或固定数量的连边建立需要通过两两连边组合避免表达的歧义性。当构建出多元组中片段的两两连边后多元信息抽取可以转换为图的极大团查找问题。图的每个极大团代表一个多元组因此多元知识可以用图的极大团表示。4. 研究工作总结作者在博士期间的主要工作就是用图视角建立三类七种信息抽取任务的统一建模建立文本、信息抽取和图分析研究领域的桥梁接下来论述每个图结构建立的过程以及如何表达处理任务。04主要成果和创新之处1. 图视角下的一元信息抽取上面提到一元信息抽取任务可以转换为图中连边类型预测问题。1图视角下关系分类以关系分类为例。关系分类中知道图中的头实体和尾实体需要预测连边的类型。对应的问题相当于构建一个 N*N 的二维矩阵表达图结构想要预测的就是头实体和尾实体交叉部分的区域代表了两个实体连边之间的类型。实现方式为首先对头实体和尾实体位置的所有词项进行平均池化将头尾实体的向量拼接对拼接后的向量进行分类相当于预测图中关系的连边。然而仅仅依赖头尾实体的表示判断实体关系是不充分的需要联系实体的上下文信息。以“鲍卡斯与曼斯菲尔德都来自蒙大拿州,后者担任美国驻日大使”这句话为例。包含两个三元组鲍卡斯来自蒙大拿州曼斯菲尔德来自蒙大拿州“后者担任美国驻日大使”中虽然也包含三元组曼斯菲尔德担任大使但并不是我们关注的关系类型。我们需要关注的是“鲍卡斯”、“曼斯菲尔德”和“蒙大拿州”之间的 Come-From 关系为了准确的预测关系类型希望模型能够更多的关注 Come-From 的关系描述排除“担任”关系描述防止噪声误导模型给予 JOB 很高的权重。因此为了准确的找到想要的关系描述一个较好的方法是引入注意力机制。基于注意力机制的方法为每个词项单独计算与目标实体之间的相关性得分并进行归一化再对所有词项加权求和作为实体对的语义关系表示。然而这种方法可能会导致模型无法识别连续的关系描述指的是实体间的关系描述往往是连续的片段而不是一个个离散的词要解决这个问题我们希望让注意力机制关注连续的片段实现的方式是让注意力权重在连续的片段内部变化不明显此时计算每个词的重要性时不止要考虑自身的重要性也要考虑上下文词的重要性。基于此引入概率图模型建模前后词之间的相互依赖关系。受到相关工作的启发提出使用线性链条件随机场建模注意力得分的转移。具体的说将注意力机制建模为一个选择问题也就是每个词有两个状态 0 和 1分别代表不被选中、被选中在不同的状态下有不同的得分。计算建立前后词项在选中和未选中状态下的转移概率用两个势函数分别表示每个词项的重要性、词项之间转移的重要性。函数 ψ1单独计算每个词项的重要性函数 ψ2训练了一个 2*2 的矩阵建模相邻词项的状态转移之后利用条件随机场中的前向-后向算法计算每个词项在全局下进行状态转移得分后的一个全局重要性。通过计算全局重要性计算每个词项被选中的概率作为计算上下文表示公式中的权重。通过这种方式在计算每个词项的时候不仅考虑自身也考虑到前后词项。此外还考虑了两个正则项——转移正则项和稀疏正则项转移正则项我们希望得到相同状态的得分大于不同状态时的得分也就是模型能生成类似 101010 的一个连续片段而不是离散片段。稀疏正则项希望被选中的词越少越好因为关系描述往往是很短的片段。计算上下文表示时对头尾实体进行了拼接拼接后再进行分类。这样使得计算实体连边时不仅考虑到自身的表示也考虑到相关上下文。在公开数据集进行了实验证明了图视角和片段注意力机制的优越性消融实验和可视化分析注意力机制在引入了条件随机场之后能够准确地关注到一些连续片段。2图视角下的连续实体识别连续实体识别也被建模为图上的连边预测问题将实体类别视为连边类型。因此需要构建实体的开始和结束词项之间的连接。例如下图中的例子中包含了三个实体其中有两个实体“中央”和“中央办公厅”是嵌套的在传统的序列标注方法中很难用一个标签序列识别出两个嵌套实体但是在图视角下两个实体的开始词相同但结束词不同在图中就会有两条边从而能够解决实体嵌套的问题。同理“西城区”是一个 LOC 类的实体需要给“区”和“西”建立一条连边。我们需要做的就是构建一个图结构利用图结构从中解码出所有的实体。命名实体识别与关系分类不一样的地方在于没有给定抽取目标需要遍历文本中所有的词项对并判断它们之间是否有连边以及连边的类型。为长度为 N 的文本构建一个 N*N 的矩阵代表图的邻接矩阵判断第 i 和 j 个词项的关系如“中央”是一个ORG“中”和“央”在矩阵中交叉点的位置代表了它们连边的类型 ORG“西”和“区”的交叉位置代表了它们的连边类型实体类型为 LOC。如何预测矩阵呢我们枚举所有的词项对通过 LSTM 或 BERT 等编码器输出每个词项对的表示将词项进行拼接预测类型从而判断连边的类型。连续实体识别任务中对嵌套实体和非嵌套实体都做了实验有很好的效果。2. 图视角下的二元信息抽取二元抽取相比一元抽取复杂之处在于不仅仅关注一个片段而是需要两个片段。以实体抽取为例我们知道单个实体可以看做图中的一条连边类似地希望实体和关系也能在图中通过连边组合产生。以“故宫博物院在中国首都北京”为例有 3 个三元组故宫博物院Located-in北京中国Capital北京中国Contains北京要构建这个三元组。对于三元组故宫博物院Located-in北京操作流程为① 构建“故”和“院”之间的连边作为头实体② 构建“北”和“京”之间的连接作为尾实体③ 连接“故”和 “北”这两个头尾实体的开始词用located-in的连边表达它们之间的关系类型。之后发现通过这样三条连边的组合就可以识别上面提到的三元组。上文方式构建的结构如果我们按照原文不能中的语句进行还原并且删除掉没有参与到连边关系的节点就可以产生一个有效的无环图。然而某些场景中用三条连边构成的无环图无法准确的找到三元组。例如有两个三元组故宫博物院Located-in北京市西城区西城区Belong to北京市“北京市”和“北京市西城区”是嵌套的在这种情况下从“故”到“北”的连边代表了故宫博物院和北京市这两个实体的关系但是由于只有一条连边无法确定这条连边指向的尾实体是“北京市”还是“北京市西城区”因此只有头实体开始词连接的边会存在歧义。为了解决这个问题在图结构中为每个三元组再添加一条从头尾实体的结束词连接的边使用两条边双重校验实体的开始位置和结束位置从而唯一的确定头尾实体。如在“北”和“市”、“市”和“区”、“西”和“区“、“北”和“西”之间都存在一条连边这四条连边组成的环代表了一个三元组。考虑到一个环可以表示为一个三元组在关系抽取任务中解码时可以从图中抽取所有的环从而抽取所有的三元组。以故宫博物院Located-in北京为例从“故”到“京”从“京”到“北”从“北”到“院”从“院”到“故”构成一个环这四条连边表示两个实体构成一个三元组。基于上述的思想与一元关系抽取任务类似的思想构建实体关系联合抽取的任务的图结构使用二维标注来预测图的邻接矩阵。首先用一个二维矩阵标注文本中可能的实体比如“故”和“院”“中”和“国”“北”和“京”这样的三条连边对应的图中三个交叉位置表示两个实体之间的连边类型。“故宫博物院”是我们关心的实体因此有“故”到“院”的一条连边分别代表实体的开始和结束。之后为每个关系类型都构建一个二维矩阵如 Located-in 关系的二维矩阵。连接这个关系下的头实体和尾实体这个矩阵里面存在两个标签头实体开始到头实体结束尾实体开始到尾实体结束我们用这两个标签去分别连接 Located-in 关系类型下头尾实体开始词项和结束词项如“故宫博物院”和“北京市”“故”和“北”交叉位置的标签就是头实体的开始到尾实体开始“院”和“京”的标签是头实体结束到尾实体结束。由于它们构成了一个三元组且这两个实体的开始词分别是“故”和“北”结束词分别是“院”和“京”因此在解码的时候对照下面两个图就能构建出 LOCATED-IN 这个关系类型下的图结构。同理也可以构造 Capital 的图结构。总结这种方式实际上为每种关系和实体类型都构建了一个 N*N 的矩阵代表图结构预测图结构的方式就是枚举图中的每个词项对表示对头尾实体进行拼接分类之后选择最大的概率的输出作为标签。由于会为每个关系类型都构建一个标注矩阵不同类型的三元组都会单独解码因此不会存在实体重叠的问题。在联合抽取任务下也进行了实验并证明了结果的优越性。3. 图视角下的半开放抽取半开放抽取任务就是想要知道与某个实体相关的知识而不是文本中所有的知识或固定类型的知识。如何实现半开放抽取与实体联合抽取任务类似半开放抽取也是从开放域中抽取二元知识因此问题可使用环结构表示用二维矩阵标注。第一个矩阵中标注关系短语和尾实体的边界位置标注出“关系短语开始-尾实体结束”“尾实体开始-尾实体结束”如下图中的粉色和绿色位置。第二个矩阵中标注“关系短语开始-尾实体开始”、“关系短语结束-尾实体结束”如下图中的绿色和蓝色位置。由于面向特定的实体去抽取所以在编码的时需要考虑到我们所关注的头实体信息。为了实现这个功能设计了目标实体感知编码器把头实体拼接在输入的前面作为关注的锚点输入到BERT中编码之后取出头实体的位置表示添加条件层正则化机制使得表示更偏向于头实体的语义信息。通过实验发现在我们构建的数据集上能够取得很好的效果F10.803并且在实际业务中产生了真正经济价值。4. 图视角下的多元信息抽取任务多元抽取任务是信息抽取任务中最复杂的。包括了不连续实体识别、开放信息抽取和事件抽取。与一元抽取和二元抽取不同的是多元抽取任务中对抽取的知识片段数量没有限制因此无法像二元抽取任务一样可以通过四条边连接固定的抽取到目标知识。为了实现多元信息抽取任务一个很直接的思路就是对二元抽取的环结构进行扩展适配到多元抽取任务中但是在一些复杂的例子中会出现表达歧义。给出一个开放抽取的示例“腾讯控股盛大文学并收购了该公司剩余的所有股份”。这句话中有两个三元组腾讯控股盛大文学腾讯收购盛大文学剩余的所有股份如果采取二元抽取的方式只连接每个实体的开始词和结束词每个关系的开始词和结束词并对片段的开始词和结束词进行连接构成环可以发现整个图结构中有四个环其中“腾讯控股盛大文学剩余的所有股份”和“腾讯收购盛大文学”这两个环是错误的。这是因为“盛大文学”本身是一个尾实体同时也是“盛大文学生育的所有股份”尾实体的一部分导致了环结构代表的语义出现歧义。为了解决上述的问题需要在环结构中构建三元组中所有片段边界位置的连边从而避免复杂知识表达的歧义性。我们发现两两都连边的图结构构成一个紧密的团结构。团是一个无向图的无向子图团中的每对顶点必须有边连接。下图中左侧的图结构可以拆分为右侧的十个团每个团的不同节点之间都有一条边相连。例如节点 0 和 5 是一个团“0,5,4”也构成一个团。进一步地说如果一个团不被其他任何团包含就称它是图的极大团。下图中节点 0 和 5 是一个团添加节点 4 后仍然组成团对于团 0,5,4 无法再添加一个节点形成新的团因此054 成为图的一个极大团。下图中有 3 个极大团分别为 054014124 节点组成的团。因此如果我们文本看做一个图结构多元信息抽取任务就是转换为图中极大团查找任务解码时找到图中所有的极大团再判断团中每一个节点的角色和类型就可以去组合还原出想要的多元知识。下面给出了基于极大团的开放信息抽取的一个流程① 首先构建一个图图中的节点是头实体、关系短语、尾实体② 把属于同一个三元组的所有角色进行连边③ 在图中进行极大团查找每个极大团代表一个目标知识。在建图过程中用二维矩阵标注文本中所有三元组中的片段如“豫园”、“建造于”、“明朝嘉靖年间”之后构建片段的连边包含位置和角色两种标签。位置用来表达对应两个词项是属于同一个三元组片段的开始或结束位置如“豫”和“建”分别代表三元组头实体和关系短语的开始位置因此用标签 1 表示。“豫”和“建”分别代表头实体和关系短语用标签 3 表示。通过这两个矩阵就可以构建出想要的图结构。我们在中文和英文数据集上都进行了实验并取得非常好的效果在实体重叠、实体嵌套和不连续的场景中也有出色的表现。1图视角下的不连续实体识别类似开放信息抽取不连续信息抽取也可以采用类似方法实现。首先标注文本里所有不连续实体的片段之后构建片段之间的两两连边最后构建极大团结构。在三个数据集上做实验效果非常好在仅包含不连续实体的数据集上超越了之前的方法至少六个点速度也非常快训练时间减少五倍。2图视角下的事件抽取事件抽取也采用类似之前的方法先识别出文本中给定事件定义下所有的角色每个标签就是一个角色之后识别事件类型下所有的片段如敌人、攻击、基地、士兵等之后在连边下识别出关心的片段以及片段组合的连边类型。例如“敌人”和“攻击”之间的关系就是“Attack 事件的 Trigger”“基地”表示一个攻击性事件的一个 Target。之后判断词项是两个要素的开始或者结束从而构建出要素之间的连边。从而实现在事件抽取里不同要素同属于一个事件的所有要素两两之间构建起连边的图结构。5. 本节总结我的课题提出一个统一的信息抽取的图视角将图分析领域和信息抽取领域相结合把七类信息抽取任务建立为 3 种图结构从连边到环再到团并在数据集上取到较好的效果。分享嘉宾郁博文博士阿里巴巴达摩院智能对话团队算法专家郁博文阿里巴巴达摩院智能对话团队算法专家2022年博士毕业于中国科学院大学研究方向为自然语言处理中的知识发现与利用累计在ACL、WWW、SIGIR、AAAI、IJCAI、EMNLP等重要国际会议上发表高水平论文三十余篇。担任ACL、EMNLP、AAAI、IJCAI、WSDM等会议的程序委员会委员以及WWWJ、AI、TALLIP、TKDE等期刊的审稿人。OpenKGOpenKG中文开放知识图谱旨在推动以中文为核心的知识图谱数据的开放、互联及众包并促进知识图谱算法、工具及平台的开源开放。点击阅读原文进入 OpenKG 网站。

查看全文

http://www.zqtcl.cn/news/944418/