做修图网站电脑配置,网站需要多少服务器,wordpress推广模板,wordpress+手册主题作者 | 黄焱晖单位 | 东南大学硕士研究方向 | 自然语言处理#xff0c;知识图谱Learning to AskQuestions in Open-domain Conversational Systems with Typed Decoders动机本文的问题生成用于开放领域的问题生成#xff0c;与传统的问题生成不同的是#xff0c;在开放领域对… 作者 | 黄焱晖单位 | 东南大学硕士研究方向 | 自然语言处理知识图谱Learning to AskQuestions in Open-domain Conversational Systems with Typed Decoders动机本文的问题生成用于开放领域的问题生成与传统的问题生成不同的是在开放领域对话场景中更加关注于人机交互的互动性和持久性挖掘对话中的相关信息以推动互动继续下去。换句话说生成问题需要理解到对话的主题并围绕该主题进行提问传统QG任务中一般会给定目标答案然后围绕该答案生成问题。另一方面本文认为一个好的问题是由疑问词、主题词和普通词语三种类型词组成主题词确定生成问题的中心疑问词确定问题类型普通词使整个问题表述像一个自然语句。实现本文生成问题基于框架使用进行编码decoder分为soft-decoder和hard-decoder两种。按照作者的设定生成问题的词语可以被分成主题词topic word)、疑问词interrogative word和一般词ordinary word三类soft-decoder soft-decodersoft-decoder在预测下一个词语的时候根据下述式子即输入编码得到context vector X再根据已预测序列可以得到下一个词语type的分布 然后每个不同的type对应有不同的词语分布所以将一个词语不同type可能得到的词语分布相加得到下一个词语的最终分布如下图所示hard-decoder而hard-decoder不同的是将生成问题的每个词语都强制归属到某一个type而不是像soft-decoder中词语的type是一个隐状态词语可以是所有type中任何一个。这样在hard-decoder中下一个词语的概率分布如下式所示认定下一个词语分布概率最高的作为其类型。因为操作使得反向传播无法进行文中使用来实现解决该问题最终下一个词语概率分布如下式所示整个流程如下图所示Topic Word Prediction而对于如何使得生成问题做到围绕某个主题训练的时候将生成问题中的名词和动词作为主题词在测试的时候文中使用PMI进行了主题词预测对一个给定输入最多得到20 个主题相关的词然后生成问题需要包含这些主题词中至少一个。思考本文认定一个好的问题需要包含疑问词、主题词和一般词三部分假设生成问题词语是符合一个类型分布然后每个类型有一个词语的分布将以往传统文本生成的预测过程拆分成两步 使用soft-decoder和hard-decoder两种解码方法验证在开放对话领域的问题生成效果最终通过实验验证hard-decoder的效果较soft-decoder的效果好一点原因可能是soft-decoder解码过程中词语的type仅仅是一个隐藏状态模型实际情况下隐含词语的类型是不是合理 真的只有假设的三类不得而知与传统的解码器相比仅仅是多了几层网络模型复杂点并不能保证作者的经验知识生成的问题符合每个词语都是疑问词、主题词、一般词这三类。而hard-decoder真正保证生成的中间过程每个词都属于假定的某一类符合作者认为的一个好的问题该具备的特征。至于作者考虑的对话场景中的问题生成需要与输入主题相关保证对话的交互性和持久性。这点的确是在对话场景中需要注意的点但是在实现上通过保证生成问题的主题词、疑问词、一般词概率分布更高Φ2 ∑ − log P (tyt t~y**t ∣yt, X)即语法表述更规范并没有具有针对性的解决生成问题与输入之间的主题关联性虽然最后评测的时候通过人工评测生成问题与输入的主题相关性并取得较好的分数但整个方法实现并不能解释该效果的由来。 OpenKG开放知识图谱简称 OpenKG旨在促进中文知识图谱数据的开放与互联促进知识图谱和语义技术的普及和广泛应用。点击阅读原文进入 OpenKG 博客。