当前位置: 首页 > news >正文

佛山网站建设团队免费行情软件在线观看

佛山网站建设团队,免费行情软件在线观看,做网站怎么移动图片,花店网页制作素材文章目录Abstract1.Introduction2.相关工作3. 方法3.1 输入3.1.1 字符级别表示3.1.2单词级表示3.2encoder3.2.1 base lattice LSTM encoder3.2.2 MG lattice LSTM encoder3.3 关系分类器4.实验4.1数据集4.1.2 评估4.1.2 超参数设置4.2lattice的作用4.3词义表示的影响4.4最终结果… 文章目录Abstract1.Introduction2.相关工作3. 方法3.1 输入3.1.1 字符级别表示3.1.2单词级表示3.2encoder3.2.1 base lattice LSTM encoder3.2.2 MG lattice LSTM encoder3.3 关系分类器4.实验4.1数据集4.1.2 评估4.1.2 超参数设置4.2lattice的作用4.3词义表示的影响4.4最终结果Li, Z., et al. (2019). Chinese Relation Extraction with Multi-Grained Information and External Linguistic Knowledge. Proceedings ofthe 57th Annual Meeting ofthe Association for Computational Linguistics: 4377–4386.codeAbstract 中文关系提取是使用具有基于字符character或基于词word的输入的神经网络进行的并且大多数现有方法通常遭受分段错误和多义性的模糊性。为了解决这些问题我们提出了一种用于中文关系提取的多粒度点阵框架MG点阵以利用多粒度语言信息和外部语言知识。在这个框架中1我们将字级信息合并到字符序列输入中以便可以避免分段错误。 2借助外部语言知识我们还对多义词的多重感知进行建模以减轻多义歧义。与其他基线相比在不同域中的三个真实世界数据集上的实验显示了我们模型的一致且显着的优越性和稳健性。 Chinese NREMG lattice多粒度点阵 中文关系抽取神经网络多粒度 基于字符基于词 解决的问题 分段错误分词 多粒度将词级信息融入到字符序列输入中 多义性 借助外部语言库open-sourced HowNet API (Qi et al., 2019) 1.Introduction 关系提取RE在信息提取IE中具有关键作用旨在提取自然语言句子中实体对之间的语义关系。在下游应用中该技术是构建大规模知识图的关键模块。深度学习的最新发展提高了对神经关系提取NRE的兴趣NRE试图使用神经网络自动学习语义特征Liu et al。2013; Zeng et al。2014,2015; Lin et al。 2016; Zhou等2016; Jiang等2016。 NRE–神经网络 Liu et al。2013;Zeng et al。2014,2015;Lin et al。 2016;Zhou等2016;Jiang等2016 虽然NRE没有必要执行特征工程但他们忽略了这样一个事实即输入的不同语言粒度将对模型产生重大影响特别是对于中文RE。传统上根据粒度的不同中国RE的大多数现有方法可以分为两种类型基于字符的RE和基于字的RE。 输入粒度影响大 基于字符 它将每个输入句子视为字符序列。这种方法的缺点是它不能充分利用字级信息捕获的功能少于基于字的方法。 基于word 应首先执行分词。然后导出一个单词序列并将其输入神经网络模型。但是基于单词的模型的性能可能会受到分词质量的显着影响。 近平其一难以获得充分的语义信息 此外数据集中存在许多多义词的事实是现有RE模型忽略的另一个点这限制了模型探索深层语义特征的能力。例如“杜鹃”这个词有两种不同的含义分别是“杜鹃”和“杜鹃花”。但是如果没有外部知识的帮助从普通文本中学习含义信息是很困难的。因此引入外部语言知识将对NRE模型有很大帮助。 多义词 从文本中难以得知需要引入外部语言知识 2.相关工作 近年来RE特别是NRE已在NLP领域得到广泛研究。作为先驱 Liu et al。2013提出了一个简单的CNN RE模型它被认为是一个开创性的工作它使用神经网络自动学习特征。在此基础上Zeng et al。2014开发了一种具有最大池的CNN模型其中位置嵌入首先用于表示位置信息。然后PCNNs模型Zeng et al。2015为RE设计了多实例学习范例。但是PCNNs模型存在选择句子的问题。为了解决这个问题Lin等人。 2016将注意机制应用于包中的所有实例。此外Jiang等人。 2016提出了一个具有多实例和多标签范例的模型。虽然PCNNs模型更有效但它们无法利用像RNN这样的上下文信息。因此具有注意机制的LSTM也应用于RE任务Zhang和Wang2015; Zhou等2016; Lee等2019。 中国RE的现有方法主要是基于字符或基于单词的主流NRE模型的实现Chen和Hsu2016;Rénqvist等2017; ZHANG等2017; Xu等2017。在大多数情况下这些方法只关注模型本身的改进忽略了不同粒度的输入将对RE模型产生重大影响的事实。基于字符的模型不能利用单词的信息捕获比基于单词的模型更少的特征。另一方面基于单词的模型的表现受到细分质量的显着影响Zhang and Yang2018。虽然有些方法用于将角色级别和单词级别信息结合在其他NLP任务中如字符 - 双子星Chen et al。2015; Yang et al。2017和软词Zhao和Kit2008; Chen等。 al。2014; Peng和Dredze2016信息利用率仍然非常有限。 中文NRE 未考虑粒度 Chen和Hsu2016;Rénqvist等2017; ZHANG等2017; Xu等2017 多粒度 haracter-bigrams (Chen et al., 2015; Yang et al., 2017) andsoft words (Zhao and Kit, 2008; Chen et al., 2014; Peng and Dredze, 2016) 树LSTMlattice LSTM 可处理多粒度无法处理多义词 HowNet proposed by Dong and Dong (2003) 引入外部语言库 本文中使用 open-sourced HowNet API (Qi et al., 2019) 泰等人。 2015提出了一种树状LSTM模型来改进语义表示。这种类型的结构已经应用于各种任务包括人类行为识别Sun et al。2017NMT编码器Su et al。2017语音标记化Sperber et al。2017和NREZhang和杨2018年。虽然lattice LSTM模型可以利用单词和单词序列信息但它仍然可能受到多义词模糊性的严重影响。换句话说随着语言情境的变化这些模型无法处理单词的多义词。因此引入外部语言知识是非常必要的。我们在Dong和Dong2003提出的知网的帮助下利用感知级信息这是一个概念知识库用相关的词义来注释中文。此外我们的工作中也使用了开源的HowNet APIQi et al。2019。 3. 方法 给定一个中文句子和两个标记实体中文关系提取的任务是提取两个实体之间的语义关系。在本节中我们将详细介绍用于中文关系抽取的MG点阵模型。如图2所示该模型可以从三个方面介绍输入表示。给定具有两个目标实体作为输入的中文句子该部分表示句子中的每个单词和字符。然后该模型可以利用单词级和字符级信息。 MG lattice chinese NRE 输入表示 输入给定含有两个目标实体的句子作为输入表示每个词和字这个模型可以利用这两个信息 MG lattice 编码器 lattice LSTM将外部知识结合到词义消歧中为每个输入实例构建分布式表示。 关系分类器 在学习隐藏状态之后字符级机制用于于合并特征。然后将最终的句子表示输入softmax分类器以预测关系。 3.1 输入 3.1.1 字符级别表示 每个字的嵌入-一个句子 Skip-gram model (Mikolov et al., 2013). 位置嵌入position feature–pi1{i−b1ib10b1≤i≤e1i−e1ie1p_i^1\begin{cases}i-b^1 ib^1\\0 b^1\leq i\leq e^1\\i-e^1ie^1\end{cases}pi1​⎩⎪⎨⎪⎧​i−b10i−e1​​ib1b1≤i≤e1ie1​最终输入xconcate[xce,xp1,xp2]xconcate[x_{ce},x_{p1},x_{p2}]xconcate[xce​,xp1​,xp2​] 3.1.2单词级表示 虽然我们的模型将字符序列作为直接输入但为了完全捕获字级特征它还需要输入句子中所有潜在单词的信息。这里潜在的单词是任何字符子序列它匹配在分段的大原始文本上构建的词典D中的单词。让成为从第b个字符到第e个字符的子序列。为了表示我们使用word2vecMikolov等2013将其转换为实值向量。 文本中所有出现在词典上的单词–word2vec–向量表示wb,e−−xb,eww_{b,e}--x_{b,e}^wwb,e​−−xb,ew​ word2vec:不考虑多义词用HowNet作为外部知识库纳入model–一个含义对应一个向量操作 给定单词wb,ew_{b,e}wb,e​通过HowNet检索得到他的K个含义每个含义映射到一个向量xb,e,ksensex_{b,e,k}^{sense}xb,e,ksense​(SAT模型基于skip-gram) SAT (Sememe Attention over Target) 得到他的含义向量集合xb,esense{xb,e,1sense,...,xb,e,Ksense}x_{b,e}^{sense}\{x_{b,e,1}^{sense},...,x_{b,e,K}^{sense}\}xb,esense​{xb,e,1sense​,...,xb,e,Ksense​} 这就是wb,ew_{b,e}wb,e​的表示 3.2encoder 编码器的 直接输入是字符序列以及词典D中的所有潜在单词。 all potential words in lexicon D训练之后编码器的输出 是输入句子的隐藏状态向量h。我们引入了两种策略的编码器包括 基本晶格LSTMlattice多晶格MG晶格LSTM。 3.2.1 base lattice LSTM encoder 基于字符的LSTM {ijcσ(WixjcUihj−1cbi)输入门ojcσ(WoxjcUohj−1cbo)输出门fjcσ(WfxjcUfhj−1cbf)遗忘门c~jctanh(WcxjcUchj−1cbc)cjcfjc⨀cj−1cijc⨀c~jchjcojc⨀tanh(cjc)\begin{cases}i_j^c\sigma(W_ix_j^cU_ih_{j-1}^cb_i)输入门\\ o_j^c\sigma(W_ox_j^cU_oh_{j-1}^cb_o)输出门\\ f_j^c\sigma(W_fx_j^cU_fh_{j-1}^cb_f)遗忘门\\ \tilde{c}_j^ctanh(W_cx_j^cU_ch_{j-1}^cb_c)\end{cases}\\ c_j^cf_j^c\bigodot c_{j-1}^ci_j^c\bigodot \tilde{c}_j^c\\ h_j^co_j^c\bigodot tanh(c_j^c)⎩⎪⎪⎪⎨⎪⎪⎪⎧​ijc​σ(Wi​xjc​Ui​hj−1c​bi​)输入门ojc​σ(Wo​xjc​Uo​hj−1c​bo​)输出门fjc​σ(Wf​xjc​Uf​hj−1c​bf​)遗忘门c~jc​tanh(Wc​xjc​Uc​hj−1c​bc​)​cjc​fjc​⨀cj−1c​ijc​⨀c~jc​hjc​ojc​⨀tanh(cjc​) base lattice LSTM encoder(在上面基本LSTM的基础上 xb,ewew(wb,e)嵌入x_{b,e}^we^w(w_{b,e})嵌入xb,ew​ew(wb,e​)嵌入{ib,ewσ(Wixb,ewUihbcbi)输入门fb,ewσ(Wfxb,ewUfhbcbf)遗忘门c~b,ewtanh(Wcxb,ewUchbcbc)cb,ewfb,ew⨀cbcib,ew⨀c~b,ewb∈{b′∣wb′,e∈D}\begin{cases}i_{b,e}^w\sigma(W_ix_{b,e}^wU_ih_{b}^cb_i)输入门\\ f_{b,e}^w\sigma(W_fx_{b,e}^wU_fh_{b}^cb_f)遗忘门\\ \tilde{c}_{b,e}^wtanh(W_cx_{b,e}^wU_ch_{b}^cb_c)\end{cases}\\ c_{b,e}^wf_{b,e}^w\bigodot c_{b}^ci_{b,e}^w\bigodot \tilde{c}_{b,e}^w\\ b\in \{b|w_{b,e} \in D\}⎩⎪⎨⎪⎧​ib,ew​σ(Wi​xb,ew​Ui​hbc​bi​)输入门fb,ew​σ(Wf​xb,ew​Uf​hbc​bf​)遗忘门c~b,ew​tanh(Wc​xb,ew​Uc​hbc​bc​)​cb,ew​fb,ew​⨀cbc​ib,ew​⨀c~b,ew​b∈{b′∣wb′,e​∈D}为了控制每个词的贡献需要额外的门 ib,ecσ(WixecUihb,ewbl)cecΣb∈{b′∣wb′,e∈D}αb,ec⨀cb,ewαec⨀c~ecαb,ecexp(ib,ec)exp(ib,ecΣb′∈{b′∣wb′,e∈D}exp(ib′,ec)αecexp(iec)exp(iecΣb′∈{b′∣wb′,e∈D}exp(ib′,ec)i_{b,e}^c\sigma(W_ix_{e}^cU_ih_{b,e}^wb^l)\\ c_e^c\Sigma_{b\in \{b|w_{b,e} \in D\}}\alpha_{b,e}^c \bigodot c_{b,e}^w\alpha_e^c\bigodot \tilde{c}_e^c\\ \alpha_{b,e}^c\frac{exp(i_{b,e}^c)}{exp(i_{b,e}^c\Sigma_{b\in \{b|w_{b,e} \in D\}}exp(i_{b,e}^c)}\\ \alpha_{e}^c\frac{exp(i_{e}^c)}{exp(i_{e}^c\Sigma_{b\in \{b|w_{b,e} \in D\}}exp(i_{b,e}^c)}ib,ec​σ(Wi​xec​Ui​hb,ew​bl)cec​Σb∈{b′∣wb′,e​∈D}​αb,ec​⨀cb,ew​αec​⨀c~ec​αb,ec​exp(ib,ec​Σb′∈{b′∣wb′,e​∈D}​exp(ib′,ec​)exp(ib,ec​)​αec​exp(iec​Σb′∈{b′∣wb′,e​∈D}​exp(ib′,ec​)exp(iec​)​最后得到隐层表示hjcojc⨀tanh(cjc)−−j对应于句子中每个characterh_j^co_j^c\bigodot tanh(c_j^c)--j对应于句子中每个characterhjc​ojc​⨀tanh(cjc​)−−j对应于句子中每个character 3.2.2 MG lattice LSTM encoder base lattice LSTM encoder 一个单词一个向量不考虑多义词{ib,e,ksenseσ(Wixb,e,ksenseUihbcbi)输入门fb,e,ksenseσ(Wfxb,e,ksenseUfhbcbf)遗忘门c~b,e,ksensetanh(Wcxb,e,ksenseUchbcbc)cb,e,ksensefb,e,ksense⨀cbcib,e,ksense⨀c~b,e,ksenseb∈{b′∣wb′,e∈D}\begin{cases}i_{b,e,k}^{sense}\sigma(W_ix_{b,e,k}^{sense}U_ih_{b}^cb_i)输入门\\ f_{b,e,k}^{sense}\sigma(W_fx_{b,e,k}^{sense}U_fh_{b}^cb_f)遗忘门\\ \tilde{c}_{b,e,k}^{sense}tanh(W_cx_{b,e,k}^{sense}U_ch_{b}^cb_c)\end{cases}\\ c_{b,e,k}^{sense}f_{b,e,k}^{sense}\bigodot c_{b}^ci_{b,e,k}^{sense}\bigodot \tilde{c}_{b,e,k}^{sense}\\ b\in \{b|w_{b,e} \in D\}⎩⎪⎨⎪⎧​ib,e,ksense​σ(Wi​xb,e,ksense​Ui​hbc​bi​)输入门fb,e,ksense​σ(Wf​xb,e,ksense​Uf​hbc​bf​)遗忘门c~b,e,ksense​tanh(Wc​xb,e,ksense​Uc​hbc​bc​)​cb,e,ksense​fb,e,ksense​⨀cbc​ib,e,ksense​⨀c~b,e,ksense​b∈{b′∣wb′,e​∈D}cb,esenseΣkαb,e,ksense⨀cb,e,ksensealphab,e,ksenseexp(ib,e,ksense)Σk′Kexp(ib,e,k′sense)cecΣb∈{b′∣wb′,e∈D}αb,esense⨀cb,esenseαec⨀c~ecc_{b,e}^{sense}\Sigma_k\alpha_{b,e,k}^{sense} \bigodot c_{b,e,k}^{sense}\\ alpha_{b,e,k}^{sense}\frac{exp(i_{b,e,k}^{sense})}{\Sigma_{k}^Kexp(i_{b,e,k}^{sense})}\\ c_e^c\Sigma_{b\in \{b|w_{b,e} \in D\}}\alpha_{b,e}^{sense} \bigodot c_{b,e}^{sense} \alpha_e^c\bigodot \tilde{c}_e^ccb,esense​Σk​αb,e,ksense​⨀cb,e,ksense​alphab,e,ksense​Σk′K​exp(ib,e,k′sense​)exp(ib,e,ksense​)​cec​Σb∈{b′∣wb′,e​∈D}​αb,esense​⨀cb,esense​αec​⨀c~ec​最后得到隐层表示hjcojc⨀tanh(cjc)−−j对应于句子中每个characterh_j^co_j^c\bigodot tanh(c_j^c)--j对应于句子中每个characterhjc​ojc​⨀tanh(cjc​)−−j对应于句子中每个character 3.3 关系分类器 上面得到了字符级的hattention连接 Htanh(h)αsoftmax(wTH)h∗hαTHtanh(h)\\ \alphasoftmax(w^TH)\\ h^*h\alpha^THtanh(h)αsoftmax(wTH)h∗hαT 概率 oWh∗bp(y∣s)softmax(o)oWh^*b\\p(y|s)softmax(o)oWh∗bp(y∣s)softmax(o) 损失函数 J(θ)Σi1Tlogp(y(i)∣S(i),θ)J(\theta)\Sigma_{i1}^Tlogp(y^{(i)}|S^{(i)},\theta)J(θ)Σi1T​logp(y(i)∣S(i),θ) 4.实验 在本节中我们对三个手动标记的数据集进行了一系列实验。与其他型号相比我们的模型显示出优越性和有效性。此外泛化是我们模型的另一个优点因为有五个语料库用于构建三个数据集这些数据集在主题和写作方式上完全不同。实验将按如下方式组织1首先我们通过将基于字符和基于字的模型进行比较研究模型将字符级和字级信息结合起来的能力; 2然后我们关注感知表示的影响在三种不同的基于格子的模型中进行实验; 3最后我们在关系提取任务中与其他提出的模型进行了比较。 本模型特点泛化性 4.1数据集 中文的数据集 Chinese SanWen (Xu et al., 2017), 包含837篇中国文献文章中的9种关系类型其中695篇文章用于培训84篇用于测试其余58篇用于验证。ACE 2005数据集是从新闻专线广播和网络日志中收集的包含8023个关系事实和18个关系子类型。我们随机选择75来训练模型剩下的用于评估。 ACE 2005 Chinese corpus (LDC2006T06)FinRE. 为了在测试域中实现更多样化我们在新浪财经2中手动注释来自2647个财务新闻的FinRE数据集分别用13486,3727和1489个关系实例进行培训测试和验证。FinRE包含44个不同的关系包括特殊关系NA表示标记的实体对之间没有关系。 4.1.2 评估 precision-recall curve,F1-score,Precision at top N predictions (PN) andarea under the curve (AUC). 4.1.2 超参数设置 通过使用验证数据集上的评估结果提前停止来选择最佳模型。对于其他参数我们遵循经验设置因为它们对我们模型的整体性能几乎没有影响。F1 4.2lattice的作用 在这一部分中我们主要关注编码器层的效果。如表2所示我们在所有数据集上对基于char基于单词和基于点阵的模型进行了实验。通过用双向LSTM替换晶格编码器来实现基于字和基于字符的基线。此外字符和单词功能分别添加到这两个基线以便它们可以同时使用字符和单词信息。 对于单词基线我们利用额外的CNN / LSTM来学习每个单词的字符的隐藏状态char CNN / LSTM。 对于char基线bichar和softword当前字符所在的单词用作wordlevel特征以改进字符表示。基于点阵的方法包括两个基于格的模型它们都可以明确地利用字符和单词信息。基本网格使用3.2.1中提到的编码器它可以将字级信息动态地合并到字符序列中。 对于MG晶格每个感测嵌入将用于构建独立的感测路径。因此不仅有单词信息还有信息信息流入细胞状态。 结果证明了 获取两种信息的model优于仅含单个信息的model证明了利用基于格的模型利用字符和单词序列信息的能力。 4.3词义表示的影响 在本节中我们将通过利用具有不同策略的感知级信息来研究词义表示的效果。因此在我们的实验中使用了三种基于晶格的模型。 首先基本点阵模型使用word2vecMikolov等2013来训练单词嵌入它不考虑单词含义信息。然后我们引入基本格SAT模型作为比较其中预训练的单词嵌入通过含义信息得到改善Niu等2017。此外MG点阵模型使用有意嵌入来构建独立路径并动态选择适当的感知。 MG效果好 为了更直观地比较和分析所有基于晶格的模型的有效性我们报告了图3中ACE-2005数据集的精确回忆曲线作为示例。 尽管基本晶格SAT模型获得了比原始基本晶格模型更好的整体性能但是当召回率低时精度仍然较低这对应于表3中的结果。 结论 仅在预训练阶段考虑多个感觉会增加单词表示的噪声。 换句话说单词表示往往倾向于语料库中常用的含义当正确的当前单词的正确含义不是常见的时这会干扰模型。尽管如此MG晶格模型成功地避免了这个问题在曲线的所有部分都能提供最佳性能。该结果表明MG晶格模型不受噪声信息的显着影响因为它可以动态地选择不同上下文中的感测路径。虽然MG晶格模型显示了整体结果的有效性和稳健性但值得注意的是改进是有限的。 这种情况表明仍可以改进多粒度信息的利用。 4.4最终结果 我们对上面提到的五种模型的基于字符和基于单词的版本进行了实验。结果表明基于字符的版本比所有数据集上的所有模型的基于单词的版本表现更好。因此我们仅在以下实验中使用五种选定模型的基于字符的版本。 为了公平起见我们在BLSTM和Att-BLSTM中添加了位置嵌入这些都没有在原始论文中使用。 为了进行全面的比较和分析我们报告了图4中的精确回忆曲线和表4中的F1分数和AUC。从结果中我们可以观察到 1基于格子的模型在来自不同领域的数据集上显着优于其他提出的模型。 由于多义信息MG晶格模型在所有模型中表现最佳显示出中国RE任务的优越性和有效性。结果表明感知级信息可以增强从文本中捕获深层语义信息的能力。 2基本点阵模型和MG点阵模型之间的差距在数据集FinRE上变窄。造成这种现象的原因在于财务报告是由财务报告语料库构建的而财务报告的词语通常是严谨而明确的。3相比之下PCNN和PCNN ATT模型在SanWen和ACE数据集中表现更差。原因是这两个数据集中的实体对之间存在位置重叠使得PCNN无法充分利用分段机制。结果表明基于PCNN的方法高度依赖于数据集的形式。相比之下我们的模型显示了所有三个数据集的稳健性。
http://www.zqtcl.cn/news/500408/

相关文章:

  • 普洱市建设局网站重庆工程建设信息查询
  • 上海网站设计多少钱wap网站生成微信小程序
  • 广州网站到首页排名做图骂人的图片网站
  • 公司的网站建设价格wordpress付费阅读文章功能
  • 飞鸽网站建设建设网站什么软件比较好
  • 网站名称 规则网站seo完整seo优化方案
  • 昆明网站建设高端定制wordpress建站课程
  • 建网站外包wordpress 便利贴
  • 硅胶 技术支持 东莞网站建设网站互联网接入商
  • 太平洋建设21局网站微信网页版登录手机版
  • 站长统计芭乐鸭脖小猪电商平台哪个最好
  • 女与男爱做电影网站免费企业公司网站建设方案
  • 尚品本色木门网站是哪个公司做的大庆建设公司网站
  • 做网做网站建设的网站怎么用别人网站做模板
  • 电子商务网站购物车怎么做网站站点创建成功是什么意思
  • 如何做招聘网站的评估新浪微博可以做网站吗
  • 加强网站建设的制度wordpress如何清空
  • 轻松筹 的网站价格做网站建设意识形态
  • 有.net源码如何做网站湖南宣传片制作公司
  • dede网站模板怎么安装教程青岛需要做网站的公司
  • 静态双语企业网站后台源码北京网站关键词优化
  • 石家庄手机网站建设公司wordpress侧边栏显示子分类文字数
  • 公司网站客户案例个人做 网站2019
  • 个人网站怎么申请销售策划
  • 网站被黑 禁止js跳转企业为什么要建立集团
  • 建设网站的各种问题上海品牌女装排行榜前十名
  • seo优化搜索引擎网站优化推广网络关键词优化-乐之家网络科技商城网站备案能通过吗
  • 江门网站建设推广策划网站改版的宣传词
  • 网站建设三大部分国外购物平台网页界面设计
  • 公司商城网站建设方案wordpress旗舰