当前位置: 首页 > news >正文

菏泽网站建设网站济南网站建设哪里好

菏泽网站建设网站,济南网站建设哪里好,海纳百川网站建设,温州微网站制作公司推荐来源#xff1a;NLPCC 2017论文下载地址#xff1a;http://tcci.ccf.org.cn/conference/2017/papers/2003.pdf动机开放领域的QA问题是一个被广泛研究的问题#xff0c;而且目前这个问题并没有被很好地解决。在中文领域#xff0c;相关的数据集并不多。而NLPCC开放了一个KBQ… 来源NLPCC 2017论文下载地址http://tcci.ccf.org.cn/conference/2017/papers/2003.pdf动机开放领域的QA问题是一个被广泛研究的问题而且目前这个问题并没有被很好地解决。在中文领域相关的数据集并不多。而NLPCC开放了一个KBQA比赛为中文KBQA提供了一个很好的数据集。本文使用了基于特征的方法来完成实体链接并基于词向量对候选谓词进行初筛。之后文章采用了深度CNN模型来重排实体-谓词对从而找到最正确的实体-谓词。贡献文章的贡献有1提出了一种基于特征的实体链接方法2提出了一种基于词向量的候选谓词初筛方法3提出了一种基于深度CNN的谓词排序方法。方法⒈模型结构首先人工构建特征选取可能的实体指称。然后使用非监督的词向量来选择候选的谓词。当得到实体-谓词对之后采用deep-CNNs模型来重排它们。最后将所有的中间结果打分加权和就得到最后的谓词以及答案。另外这里有个小trick就是当一个问题经过解析只有实体名那么这个问题可能是关于这个实体的介绍所以实体的谓词就为“introduce”在知识图谱中得到这个实体的介绍信息并输出为答案。 ⒉实体链接NLPCC的KB中实体是类似于“Li Na (Diving Athlete)”这样的有实体名也可能有扩展描述信息。实体指称是问题的一个子串并且指称与实体名相同或者与实体名的别名相同NLPCC有文件提供了这个别名。这里建立特征后用GBDT去选择问题的所有子串中真正的实体指称子串。这里首先使用正向最大匹配法FMMforwardmaximum matching来进行切词后再使用逆向最大匹配法RMMreverse maximum matching来进行切词。RMM的基本原理与FMM基本相同不同的是分词的方向与FMM相反。RMM是从待分词句子的末端开始也就是从右向左开始匹配扫描每次取末端m个字作为匹配字段匹配失败则去掉匹配字段前面的一个字继续匹配。当得到一个分词结果之后句子中每一个分词视为一个候选实体指称对每一个指称利用规则生成特征在得到这些特征后形成数值并送到GBDT模型进行训练从而分类出候选指称是黄金指称的概率Smen。 ⒊候选谓词识别经过特殊分词找到问句和谓词中所有具有意义的词/词组利用下式来判断谓词是否能够问句中谓词模式的语义其中wpi表示谓词中第i个词wqi表示问题中第i个词lpi表示wpi的长度。即对谓词中的每个词找到问题中语义最相近的词并乘上谓词的某个词的长度最后求平均。对于该公式又做了改进这里是反过来对问题中每个词找到谓词中语义最相近的词aveq表示所有问题中所有词的平均词向量这里代表无意义的停用词的词向量并乘上问题的某个词的长度最后求平均。 ⒋深度CNN结构深度CNN用来重排序实体-谓词对与问题的相似程度从而进行精确筛选。如下图1所示是deep-CNN的结构。该模型用来计算谓词和问句去掉实体指称的语义相似度。模型中采用了两个卷积层并利用了残差网络进行连接。经过最大池化后问题的向量和谓词的向量进行按位乘后再通过一个使用了dropout的全连接层MLP来得到最终的相似度。处理问题和谓词的卷积层的参数是共享的。每一个卷积层卷积宽度不同256个宽度为1的核、512个宽度为2的核、256个宽度为3的核并对不同核得到的结果进行拼接。另外相邻的卷积层之间有残差网络连接。最终得到基于deep-CNN的相似度SCNN。将所有的得分相加即得到一个实体-谓词对于问题的相似度的最终得分Sfinal Smen Sf SCNN * 2。最大得分的实体-谓词对应的宾语就是最终答案。实验实验用的数据集是NLPCC 2017的比赛用数据集有知识库和问题-答案对用于训练。知识图谱中有43M的SPO三元组有146099870个NLPCC 2016的问题-答案对来训练。在训练CNN时由于正负例极度不平衡所以采用动态负采样算法来筛选负例选择一个样本的概率如下式所示其中rankepi表示上一次迭代后每次训练都会取出一个样本那么排名会发生变化一个实体-谓词对的排名排名越大说明这个实体-谓词对与问题的相似度越低。这就是一个简单的生成对抗模型generative adversarialmechanism因为rank越大说明这个实体-谓词对越不靠谱也就是对于模型的分类效果来说提升很小太容易区分了所以选中作为负样本的概率越小。这样就有了一个对抗模型的思想在里面。如图3所示为模型的实体链接结果效果与之前的工作差不多99.04%。图3 实体链接模型性能对比如图4所示是候选实体-谓词对的识别情况。由图可见效果比baseline的系统要好。图4 候选实体-谓词对的识别情况如图5所示是系统的问答效果可见集合了所有特征的系统效果最好。图5 系统的问答效果如图6所示是本文系统与其他基线系统的性能对比。可见本文系统效果最佳。图6 各系统在NLPCC KBQA比赛结果对比总结本文提出了一种复杂的中文KBQA模型包含了基于特征的、GBDT分类的实体链接基于词向量的候选谓词初筛以及基于deep-CNN的实体-谓词重排序最终得到了可以回答问题的实体-谓词对。对于CNN训练中的正负例不平衡问题也提出了具有对抗生成思想的负采样算法。最终文章提出的系统在NLPCC 2017比赛中获得第一名。文章中的许多方法都是在工程上易于实现的可以借鉴到实际应用中。未来可以考虑将三元组的宾语的信息一并结合进来用于实体-谓词的筛选。 论文笔记整理花云程东南大学博士研究方向为知识图谱问答、自然语言处理。OpenKG.CN中文开放知识图谱简称OpenKG.CN旨在促进中文知识图谱数据的开放与互联促进知识图谱和语义技术的普及和广泛应用。点击阅读原文进入 OpenKG 博客。
http://www.zqtcl.cn/news/34266/

相关文章:

  • 网站风格对比信息表windows优化大师在哪里
  • 珠海市建设局官方网站wordpress 注册 用户名
  • 汕头网站建设小程序如何注册公司官网
  • 网站外链怎么看做网站关键词软件
  • 魔法网站小程序开发关于网站建设的句子
  • 雄安优秀网站建设公司如何做地图的ppt模板下载网站
  • 班级网站建设规划书浏览器正能量网站
  • 网站销售如何做业绩wordpress自带小工具栏
  • 西安社动网站建设卖环保设备做哪个网站好
  • 宿迁宿豫网站建设绥化网站建设
  • 陕西省建设厅管理中心网站wordpress积分下载
  • python网站开发的优势推广引流文案
  • 高端的网站建设公司wordpress建站好不好
  • 如何做网站进行推广宁阳移动网站制作
  • 上海电子门户网站建设数据网站是哪家公司做的
  • 设计师网站赚钱常宁网页设计
  • 做网站的宣传语辽宁省建设网站
  • 怎样才能做网站宝塔自助建站系统源码
  • 建站时候源码有验证怎么办网站建设哈尔滨网站优化4
  • 大连网站建设具体流程是什么写代码的软件
  • 来宾网站建设手机网页代码
  • 宠物网站项目wordpress微信号订阅
  • 国内网页设计师个人网站五金配件店 东莞网站建设
  • 网站做优化公司网站模板如何优化
  • 铁岭 建筑公司网站 中企动力建设响应式单页网站模板
  • 上海本地新闻湛江seo排名
  • 网站做政务网站flash引导页下载
  • 律所网站建设建议网上商城网站系统
  • 小企业网站欣赏一键生成表白网站
  • 全网营销式网站百度咨询