当前位置：首页 > news >正文

网站建设课结课感受天津人事考试网

news 2025/11/15 4:14:18

网站建设课结课感受,天津人事考试网,安徽望江县城乡建设局官方网站,网站建站案文 | JayLou娄杰大家好#xff0c;我是卖萌屋的JayJay#xff0c;好久不见啦#xff5e;最近在「夕小瑶知识图谱与信息抽取」群里和群友交流时#xff0c;JayJay发现了来自陈丹琦大佬#xff08;女神#xff09;的一篇最新的关系抽取SOTA《A Frustratingly Easy Approach… 文 | JayLou娄杰大家好我是卖萌屋的JayJay好久不见啦最近在「夕小瑶知识图谱与信息抽取」群里和群友交流时JayJay发现了来自陈丹琦大佬女神的一篇最新的关系抽取SOTA《A Frustratingly Easy Approach for Joint Entity and Relation Extraction》光看题目就让人眼前一亮是啥子简单方法让实体关系的联合抽取方法“沮丧”了仔细阅读原文后发现这篇paper采取pipeline方式就超越了一众联合抽取模型joint model登顶ACE04/05、SciERC榜首也许你会问咦现在的关系抽取SOTA不都是各种joint方式吗有木有搞错JayJay也有各种疑问现在的关系抽取不是都采取joint方式、魔改各种Tag框架和解码方式吗不是说pipeline方式存在误差积累吗还会增加计算复杂度实体冗余计算吗不是说pipeline方式存在交互缺失忽略实体和关系两个任务之间的内在联系吗不是说......其实在这篇paper中丹琦大佬并没有只是简单地刷刷SOTA而已而就上述等若干问题进行了仔细探究不过还是先po一下这篇SOTA的主要贡献和结论开始正经划重点设计了一种非常简单的end2end关系抽取方法即采取2个独立的编码器分别用于实体抽取和关系识别使用相同的预训练模型就超越了之前所有的joint模型分别学习实体和关系的不同上下文表示比联合学习它们更有效在关系模型的输入层融合实体类别信息十分重要提出了一种新颖并且有效的近似方法在精度下降很小的情况下就实现8-16倍的推断提速看到上述结论也许我们需要打破这些刻板印象重新审视所谓的“joint就一定好于pipeline”吧下面赶紧和JayJay一起去膜shen拜shi一下这篇SOTA吧论文链接https://arxiv.org/pdf/2010.12812.pdfArxiv访问慢的小伙伴也可以在【夕小瑶的卖萌屋】订阅号后台回复关键词【1105】下载论文PDF~这些年我们魔改过的joint模型正式介绍本文的pipeline方法之前我们先来回顾一下这些年我们魔改过的joint模型。实体关系的joint抽取模型可分为2大类第1类多任务学习共享参数的联合抽取模型多任务学习机制中实体和关系共享同一个网络编码但本质上仍然是采取pipeline的解码方式故仍然存在误差传播问题。近年来的大部分joint都采取这种共享参数的模式集中在魔改各种Tag框架和解码方式。这里简单归纳几篇被大家熟知且容易实践的paper多头选择[1]构建的关系分类器对每一个实体pair进行关系预测N为序列长度C为关系类别总数输入的实体pair其实是每一个抽取实体的最后一个token。后续基于多头选择机制也有paper引入预训练语言模型和bilinear分类。层叠式指针标注[2]将关系看作是SPOSubject-Prediction-Object抽取先抽取主体Subject然后对主体感知编码最后通过层叠式的指针网络抽取关系及其对应的Object。Span-level NER[3]通过片段排列抽取实体然后提取实体对进行关系分类。第2类结构化预测联合解码的联合抽取模型结构化预测则是一个全局优化问题在推断的时候能够联合解码实体和关系而不是像多任务学习那样先抽取实体、再进行关系分类。结构化预测的joint模型也有较多比如统一的序列标注框架[4]、多轮QA强化学习[5]等不过有的联合解码方式通常很负责。其实JayJay也有一段时间痴迷于各种joint魔改模型如果大家有兴趣可以在知乎上直接搜索阅读JayJay的这篇文章《nlp中的实体关系抽取方法总结》。如此简单的pipeline模型居然可以登顶关系抽取SOTA在这篇paper中所采取的pipeline模型其实很简单实体模型如上图(a)所示采取Span-level NER的方式即基于片段排列的方式提取所有可能的片段排列通过SoftMax对每一个Span进行实体类型判断。这样做的好处是可以解决嵌套实体问题但计算复杂度较高因此需要限制Span长度对于含n个token的文本理论上共有种片段排列。关系模型如上图(b)所示对所有的实体pair进行关系分类。其中最重要的一点改进就是将实体边界和类型作为标识符加入到实体Span前后然后作为关系模型的input。例如对于实体pairSubject和Object可分别在其对应的实体前后插入以下标识符S:Md和/S:Md代表实体类型为Method的SubjectS是实体span的第一个token/S是最后一个tokenO:Md和/O:Md代表实体类型为Method的ObjectO是实体span的第一个token/O是最后一个token对于关系模型对每个实体pair中第一个token的编码进行concatenate然后进行SoftMax分类。需要特别指出的是上述实体模型和关系模型采取的两个独立的预训练模型进行编码不共享参数。对于这种关系模型我们不难发现对每个实体pair都要轮流进行关系分类也就是同一文本要进行多次编码呃心累计算开销必然会很大啊。为解决这一问题提出了一种加速的近似模型如上图c所示可将实体边界和类型的标识符放入到文本之后然后与原文对应实体共享位置向量。上图中相同的颜色代表共享相同的位置向量。具体地在attention层中文本token只去attend文本token、不去attend标识符token而标识符token可以attend原文token。综上通过这种「近似模型」可以实现一次编码文本就可以判断所有实体pair间的关系。此外由于跨句信息可用于帮助预测实体类型和关系尤其是在代词性提及中所以还通过简单方式引入了跨句信息即文本输入的左右上下文中分别滑动个words为文本长度为固定窗口大小。上图给出了各个关系抽取榜单的对比结果梅花图标代表引入了跨句信息Rel为严格指标可以看出不使用跨句信息(单句设置)就超越了ACE04/ACE05曾经的SOTA使用同一预训练模型使用跨句信息更是了不得啊。使用跨句信息登顶了SciERC文档级的SOTA而上图也给出了加速版「近似模型」的效果可以看出在单句设置中ACE05和SciERC分别提速11.9倍和8.7倍而指标仅仅下降0.5%和1.0%。「近似模型」加速明显划重点我们先不要考虑是不是SOTA的事情这个「近似模型」one-pass编码的的方式就足够让我们眼前一亮这种方式与预训练模型兼容的恰到好处权衡性能和准确性相信在实际应用中具有重要意义好了到这里为止pipeline模型就介绍完了不知道你是否和JayJay一样充满疑问如此简单的pipeline模型竟然可以超越那些曾经登顶SOTA的众多joint模型WHYpipeline如此强悍自有它的道理也有“先兆”pipeline为何如此强悍是哪些因素让它可以“秒杀”众多joint模型在这一部分我们以QA的形式逐一去揭晓PS最近几篇顶会paper中的论点也和这篇SOTA互相佐证原来早有先兆啊。Q1、关系抽取最care什么实体类型信息也太重要了吧关系抽取最care什么论文对关系模型起关键作用的因素进行了探究首先就是分析不同实体表征方式的影响。文中共建了6种实体表征方式TEXT直接提取原始文本中实体span所对应的编码表示。TEXTETYPE在TEXT的基础上concatenate实体类别向量。MARKERS将标识符S、/S、O、/O插入到原始文本中但是标识符没有实体类别信息。MARKERSETYPE在MARKERS的基础上concatenate实体类别向量这是一种隐式的融入实体类别的方法。MARKERSELOSS在关系模型中构建判别实体类别的辅助loss。TYPEDMARKERS就是本文所采取的方法实体类别“显式”地插入到文本input中如S:Md 和/S:Md、O:Md和/O:Md。如上图所示关系模型的实体是gold输入我们可以发现本文采取的TYPEDMARKERS实体表征方式秒杀其余方式实体类别信息对关系模型很重要“显式”地编码实体类别信息好于隐式编码在构造标识符时不仅要区分span边界、更要显示融入实体类别信息。MARKERSETYPE比MARKERSELOSS好说明直接引入实体类型特征好于辅助loss的设计。JayJay发现这篇SOTA并不是第一次将实体标识符加入到文本input中去年在Google的论文Matching the Blanks[6]中就采取标识符强化实体表征但却没有引入实体类型进行标识只是采取MARKERS那种方式标记。JayJay还发现实体类别信息对于关系模型很重要这一结论在最新的EMNLP20的一篇刘知远老师团队的《Learning from Context or Names?An Empirical Study on Neural Relation Extraction》中也被提及和证明。anyway记住一点引入实体类别信息会让你的关系模型有提升Q2、共享编码 VS 独立编码哪家强在JayJay的刻板印象中基于参数共享编码的joint模型能够建模实体和关系的交互、促进彼此。但这篇居然是采取两个独立的编码器分别构建实体模型和关系模型WHY不过论文也给出了两个模型共享编码进行联合优化的实验如下图所示可以看出共享编码反而使实体和关系的F1都下降了丹琦大佬也解释道这是由于两个任务各自是不同的输入形式并且需要不同的特征去进行实体和关系预测也就是说使用单独的编码器确实可以学习更好的特定任务特征。不过JayJay认为不能一概而论地就认为独立编码就一定好于共享编码或许是共享编码机制过于简单了呢但不可否认对于实体和关系确实需要特定的特征编码在构建joint模型时如果只是简单的强行共享编码真的可能会适得其反。真是很巧最近EMNLP20的一篇《Two are Better than One:Joint Entity and Relation Extraction with Table-Sequence Encoders》这篇SOTA之前的SOTA也认为大多数joint模型都是共享同一个编码但这种方式存在一个问题针对一项任务提取的特征可能与针对另一项任务提取的特征一致或冲突从而使学习模型混乱。于是乎作者设计了2种不同的编码器表格编码器和序列编码器以在表示学习过程中互相帮助最后通过实验表明使用2个编码器好于只使用1个编码。anyway记住一点对于实体关系抽取2个独立的编码器也许会更好Q3、误差传播不可避免还是不存在众所周知pipeline不是存在「误差传播」吗也就是说关系模型在训练的时候输入的是gold实体进行关系判断这会导致训练和推断时候的差异暴露偏差。那是不是在训练的时候输入预测的实体进行关系判断会在推断时效果变好呢于是论文采用10-way jackknifing方式一种交叉验证做了相关实验发现训练时输入预测实体反而降低了F1值毕竟这种方式会在训练的时候引入噪音啊采取pipeline进行推断时如果有些gold实体在实体模型中没有被抽取出来那么关系模型也就不会预测与该实体相关联的任何关系了。那有没有可能通过召回更多的实体来减轻这种误差传播呢论文也尝试召回更多的实体进行了实验发现并没有提升F1值。通过上述实验发现一些尝试均未显着改善性能而论文提出的简单的pipeline却证明是一种出乎意料的有效策略但丹琦大佬也指出并不认为误差传播问题不存在或无法解决而需要探索更好的解决方案来解决此问题。不过JayJay认为pipeline存在误差传播而那些基于共享编码的joint模型也存在误差传播啊至于是不是真的会减轻这种误差传播也有待考证。anyway留给我们的一个课题就是误差传播怎么解决还好我们NLPer一直在尝试。最近COLING2020的一篇paper[7]为了缓解这个问题提出了一种单阶段的联合提取模型TPLinker其不包含任何相互依赖的抽取步骤因此避免了在训练时依赖于gold的情况从而实现了训练和测试的一致性。是不是很神奇感兴趣的小伙伴赶快去阅读吧你打破“joint好于pipeline”的刻板印象了吗读完这篇SOTA也许我们不会再有“joint好于pipeline”的感脚了。但这并不是说joint就比不上pipeline了或许我们未来可以设计出更好的joint框架还是会登顶SOTA。对于JayJay来说是不是SOTA其实没有那么重要更重要的是我们可以进一步尝试或验证这些trick引入实体类别信息会让你的关系模型有提升对于实体关系抽取2个独立的编码器也许会更好当然还有一些需要我们进一步思考或解决的问题怎么减轻/避免误差传播呢pipeline是不是推断效率还是慢比如还是会存在冗余实体的计算落地场景中是不是pipeline更容易迭代优化呢下一个重新登顶SOTA的joint模型长啥样子啊JayJay不说再见下一篇继续关注信息抽取萌屋作者JayJay知乎IDJayLou娄杰。混迹于工业界的NLP算法工程师擅长信息抽取和低资源NLP方向聚焦于医疗数据深度结构化。开源项目DeepIE基于深度学习的信息抽取技术????https://github.com/loujie0822/DeepIE作品推荐1.NLP中的少样本困境问题探究2.工业界求解NER问题的12条黄金法则3.别让数据坑了你用置信学习找出错误标注附开源实现4.FLAT中文NER屠榜之作!5.打破BERT天花板11种花式炼丹术刷爆NLP分类SOTA后台回复关键词【入群】加入卖萌屋NLP/IR/Rec与求职讨论群有顶会审稿人、大厂研究员、知乎大V和妹纸等你来撩哦~参考文献[1]Joint entity recogni- tion and relation extraction as a multi-head selection problem: https://www.sciencedirect.com/science/article/abs/pii/S095741741830455X?via%3Dihub[2]A Novel Cascade Binary Tagging Framework for Relational Triple Extraction: https://arxiv.org/pdf/1909.03227.pdf[3]Span-based Joint Entity and Relation Extraction with Transformer Pre-training: https://arxiv.org/pdf/1909.07755.pdf[4]Joint extraction of entities and relations based on a novel tagging scheme: https://arxiv.org/pdf/1706.05075.pdf[5]Entity-Relation Extraction as Multi-Turn Question Answering : https://arxiv.org/pdf/1905.05529.pdf[6]Matching the Blanks: Distributional Similarity for Relation Learning: https://arxiv.org/pdf/1906.03158.pdf[7]TPLinker: Single-stage Joint Extraction of Entities and Relations Through Token Pair Linking: https://arxiv.org/pdf/2010.13415.pdf

查看全文

http://www.zqtcl.cn/news/728908/