网站建设存在的问题及解决办法,wordpress误删,做网站还是租用服务器,企业seo案例论文笔记整理#xff1a;朱珈徵#xff0c;天津大学硕士#xff0c;自然语言处理方向。链接#xff1a;https://arxiv.org/pdf/1912.08441.pdf动机反向词典将一段描述作为输入#xff0c;并一起输出与该描述匹配的其他词#xff0c;具有重要实用价值和自然语言处理研究价… 论文笔记整理朱珈徵天津大学硕士自然语言处理方向。链接https://arxiv.org/pdf/1912.08441.pdf动机反向词典将一段描述作为输入并一起输出与该描述匹配的其他词具有重要实用价值和自然语言处理研究价值例如有助于解决舌尖现象。但现有的反向词典方法不能很好地处理高度多样化的输入问题且存在大量低频词因此受人从描述到词的这一推理过程的启发作者提出了多通道反向词典模型可以同时缓解这两个问题。模型提供了一个句子编码器和多个预测器。预测器将从输入的描述中识别目标词的不同特征。作者在英汉数据集上评估了文中的模型包括字典的定义和人类的书面描述表明该模型达到了目前最先进的性能甚至在人类书面描述数据集上超过了最流行的商业反向字典系统。亮点1基于人的描述-词的推断过程作者提出了多通道反向词典模型包含多个预测器每个特征预测器都被视为搜索目标词的信息通道且分为两个类型内部通道和外部通道。内部通道与词本身的特征相对应包括词性标记和语素外部渠道则反映了与外部知识库相关的目标词的特征如词类、义原。2作者通过对模型的调试解决了一词多义的词典任务以及高频和低频单词很难预测等难点在真实场景数据集实现了当前最佳性能且具有相当良好的稳定性和鲁棒性。方法及模型基本框架该模型的基本框架与句子分类模型基本相似由一个句子编码器和几个预测器组成其整体框架如下图所示。作者选择双向LSTM (Bi-LSTM)作为句子编码器它将一个输入的问题编码为一个向量。在一个句子中不同的词对句子的表现有不同的重要性因此作者将注意机制整合到Bi-LSTM中来学习更好的句子表示。形式上对于输入的问题 Q{q1,...,q2}, 然后将预训练好的 q1,...q_|Q| 得词向量输入Bi-LSTM其中d为词向量的维数得到了两个隐藏方向状态的序列然后将双向隐藏状态连接得到无方向隐藏状态以及最后无方向性隐藏状态加权和的句子表示。其中αi作为注意力的权重接下来将输入问题的句子向量v映射到词向量空间中使用点积计算每个单词的置信分数其中sc_{w,word}表示w的置信分数W_word 是权值矩阵b_word 是偏置向量预测器预测器主要分为两个通道共有四种类型其中内部通道有POS标签预测器及语素预测器外部通道有词类预测器及义原预测器。 1、内部通道: POS标签预测器 字典定义或人写的对一个词的描述通常能够反映该词相应意义的词性标签。作者认为预测目标词的词性标签可以缓解现有逆向词典模型中返回词性标签与输入查询相矛盾的问题所以作者将输入问题v的句子向量传递给单层感知机并将得到某个词w对POS标签的预测得分之和作为该词在POS标签预测器上的置信得分 其中记录每个POS标签的预测得分为权值矩阵为偏置向量返回的POS标签索引。 2、内部通道: 语素预测器 大多数单词是由一个以上语素组成的复合词。词语的语素与词语的定义或描述之间存在着一种局部语义对应关系。逆向词典通过输入问题来预测目标词的语素从而获取目标词的组合信息并补充了词向量的上下文信息。作者设计了一个特殊的语素预测器与POS标记预测器不同它允许每个隐藏状态直接参与语素预测并进行最大池运算获得最终的语素预测分数。具体来说我们将每个无方向性隐藏状态输入到一个单层感知器中得到局部语素预测分数然后对所有局部语素预测分数进行最大池化得到全局语素预测分数最后得出语素预测器对某个词w的置信度得分 3、外部通道: 词类预测器 语义相关的词尽管它们有紧密的词向量但是通常属于不同的类别如“car”和“road”。词汇类别信息有助于从反向词典的结果中剔除语义相关但不相似的词。基于此作者设计了一个层次预测器来计算词类的预测分数 具体地说每个词在词的层次结构的每一层都属于一个特定的范畴所以计算各层的单词类别预测得分则某个词w在词类预测器上的最终置信度得分为其在各层类别预测得分的加权和: 4、外部通道: 义原预测器 在语言学中义原是自然语言的最小语义单位知网HowNet是目前世界上最著名的义原知识库。它定义了大约2000个义原并用它们手工注释了10万多个中文和英文单词被广泛应用于各种自然语言处理任务。知网中词语的义原标注既包括义原的层次结构也包括义原与义原之间的关系。为简单起见我们为每个词提取一组非结构化义原在这种情况下一个词的义原可以看作是该词的多个语义标签。作者发现词汇的义原与词语的描述也存在着局部语义对应关系。因此设计了一种与语素预测器相似的义原预测器。用S来表示所有义原的集合Sw为单词w的义原集合将每个隐藏状态传递给一个单层感知器来计算局部义原预测分数通过最大池化得到最终的义原预测分数最后从义原预测器得到单词w的置信度得分。多通道反向词典模型结合直接词预测中的句子编码器和间接特征预测中的预测器得到的置信度得分得到多通道反向词典模型中给定词w的最终置信度得分:其中 C {pos, mor, cat, sem} 是各个通道的输出数据λ_word 和 λ_c 为控制相应项相对权重的超参数。实验作者将本文中的多通道反向词典模型与其他反向词典模型的性能和鲁棒性进行比较进行了详细的定量分析和案例研究来探讨影响反求字典任务的因素并展示了该模型的优点和缺点。实验中的评价指标主要有三个目标词的中位排名越低越好、目标词出现在top 1/10/100的准确率越高越好、目标词排名的标准差越低越好。上表展示了所有模型在三个测试集上的反词典性能其中“Mor”、“Cat”和“Sem”分别代表语素、词类和义原预测器。从表中可以看出:1、与除OneLook之外的所有基准方法相比文中的多通道模型在无定义数据集和描述集上取得了显著的性能提升验证了该模型在推广到新的输入问题上的绝对优势。2、当输入问题是字典定义时OneLook的性能显著优于我们的模型。这个结果是预期的因为输入字典定义已经存储在OneLook的数据库中即使简单的文本匹配也可以轻松处理这种情况。但是反向字典的输入问题实际上不可能是精确的字典定义。在描述集上多通道模型取得了比单视图更好的整体性能。3、MS-LSTM在可见定义集上表现良好在描述集上表现较差说明其泛化能力和实用价值有限。4、通过各预测器加强的BiLSTM变体(Mor、Cat、Sem)均优于BiLSTM。这些结果证明了在反向词典任务中预测目标词特征的有效性。与单通道模型相比多通道模型的性能得到了进一步的提高证明了特征融合的有效性也验证了多通道模型的有效性。5、BOW表现优于RNN然而BiLSTM远远超过BOW和RNN。这验证了在神经网络模型中进行双向编码的必要性也表明了神经网络的潜力。此外作者还对进行了鲁棒性方面的实验上图为各模型分别对不同义项数量、词频和查询长度这三个影响因素的实验。首先在义项数方面所有模型的性能都随着义项数的增加而下降说明一词多义是反向词典任务中的难点。但多通道模型表现出了出色的鲁棒性即使在最具意义的词语上其性能也几乎没有下降其次在词频因素上尽管最频繁和最不频繁的单词都很难预测但模型仍有着非凡的稳定性最后在查询长度上当输入只有一个词时各个系统的性能都较差是因为从输入查询中提取的信息非常有限但模型仍在输入超过两个词时的性能较为优越。总结在文章中作者创新地提出了一个多通道反向词典模型该模型包含多个预测器来预测给定输入查询的目标词的特征。实验结果和分析表明文章提出的模型达到了最先进的性能并具有良好的鲁棒性。 OpenKG开放知识图谱简称 OpenKG旨在促进中文知识图谱数据的开放与互联促进知识图谱和语义技术的普及和广泛应用。点击阅读原文进入 OpenKG 博客。