当前位置：首页 > news >正文

制作一个网站需要多长时间专业江西网站建设

news 2025/11/14 15:55:25

制作一个网站需要多长时间,专业江西网站建设,长春seo经理,wordpress创建公告转载自自然语言处理中的Attention Model#xff1a;是什么以及为什么[二] 自然语言处理中的Attention Model#xff1a;是什么以及为什么[二] 1、Attention Model 图一见下#xff1a; 图1中展示的Encoder-Decoder模型是没有体现出“注意力模型”的#xff0c;所以可以…转载自自然语言处理中的Attention Model是什么以及为什么[二] 自然语言处理中的Attention Model是什么以及为什么[二] 1、Attention Model 图一见下图1中展示的Encoder-Decoder模型是没有体现出“注意力模型”的所以可以把它看作是注意力不集中的分心模型。为什么说它注意力不集中呢请观察下目标句子Y中每个单词的生成过程如下其中f是decoder的非线性变换函数。从这里可以看出在生成目标句子的单词时不论生成哪个单词是y1,y2也好还是y3也好他们使用的句子X的语义编码C都是一样的没有任何区别。而语义编码C是由句子X的每个单词经过Encoder 编码产生的这意味着不论是生成哪个单词y1,y2还是y3其实句子X中任意单词对生成某个目标单词yi来说影响力都是相同的没有任何区别其实如果Encoder是RNN的话理论上越是后输入的单词影响越大并非等权的估计这也是为何Google提出Sequence to Sequence模型时发现把输入句子逆序输入做翻译效果会更好的小Trick的原因。这就是为何说这个模型没有体现出注意力的缘由。这类似于你看到眼前的画面但是没有注意焦点一样。如果拿机器翻译来解释这个分心模型的Encoder-Decoder框架更好理解比如输入的是英文句子Tom chase JerryEncoder-Decoder框架逐步生成中文单词“汤姆”“追逐”“杰瑞”。在翻译“杰瑞”这个中文单词的时候分心模型里面的每个英文单词对于翻译目标单词“杰瑞”贡献是相同的很明显这里不太合理显然“Jerry”对于翻译成“杰瑞”更重要但是分心模型是无法体现这一点的这就是为何说它没有引入注意力的原因。没有引入注意力的模型在输入句子比较短的时候估计问题不大但是如果输入句子比较长此时所有语义完全通过一个中间语义向量来表示单词自身的信息已经消失可想而知会丢失很多细节信息这也是为何要引入注意力模型的重要原因。上面的例子中如果引入AM模型的话应该在翻译“杰瑞”的时候体现出英文单词对于翻译当前中文单词不同的影响程度比如给出类似下面一个概率分布值 Tom,0.3(Chase,0.2)(Jerry,0.5) 每个英文单词的概率代表了翻译当前单词“杰瑞”时注意力分配模型分配给不同英文单词的注意力大小。这对于正确翻译目标语单词肯定是有帮助的因为引入了新的信息。同理目标句子中的每个单词都应该学会其对应的源语句子中单词的注意力分配概率信息。这意味着在生成每个单词Yi的时候原先都是相同的中间语义表示C会替换成根据当前生成单词而不断变化的Ci。理解AM模型的关键就是这里即由固定的中间语义表示C换成了根据当前输出单词来调整成加入注意力模型的变化的Ci。增加了AM模型的Encoder-Decoder框架理解起来如图2所示。即生成目标句子单词的过程成了下面的形式而每个Ci可能对应着不同的源语句子单词的注意力分配概率分布比如对于上面的英汉翻译来说其对应的信息可能如下其中f2函数代表Encoder对输入英文单词的某种变换函数比如如果Encoder是用的RNN模型的话这个f2函数的结果往往是某个时刻输入xi后隐层节点的状态值 g代表Encoder根据单词的中间表示合成整个句子中间语义表示的变换函数一般的做法中g函数就是对构成元素加权求和也就是常常在论文里看到的下列公式假设Ci中那个i就是上面的“汤姆”那么Tx就是3代表输入句子的长度h1f(“Tom”)h2f(“Chase”),h3f(“Jerry”)对应的注意力模型权值分别是0.6,0.2,0.2 所以g函数就是个加权求和函数。如果形象表示的话翻译中文单词“汤姆”的时候数学公式对应的中间语义表示Ci的形成过程类似下图这里还有一个问题生成目标句子某个单词比如“汤姆”的时候你怎么知道AM模型所需要的输入句子单词注意力分配概率分布值呢就是说“汤姆”对应的概率分布 Tom,0.6(Chase,0.2)(Jerry,0.2是如何得到的呢为了便于说明我们假设对图1的非AM模型的Encoder-Decoder框架进行细化Encoder采用RNN模型Decoder也采用RNN模型这是比较常见的一种模型配置则图1的图转换为下图图4 RNN作为具体模型的Encoder-Decoder框架那么用下图可以较为便捷地说明注意力分配概率分布值的通用计算过程图5 AM注意力分配概率计算对于采用RNN的Decoder来说如果要生成yi单词在时刻i我们是可以知道在生成Yi之前的隐层节点i时刻的输出值Hi的而我们的目的是要计算生成Yi时的输入句子单词“Tom”、“Chase”、“Jerry”对Yi来说的注意力分配概率分布。那么可以用i时刻的隐层节点状态Hi去一一和输入句子中每个单词对应的RNN隐层节点状态hj进行对比即通过函数F(hj,Hi)来获得目标单词Yi和每个输入单词对应的对齐可能性。这个F函数在不同论文里可能会采取不同的方法然后函数F的输出经过Softmax进行归一化就得到了符合概率分布取值区间的注意力分配概率分布数值。图5显示的是当输出单词为“汤姆”时刻对应的输入句子单词的对齐概率。绝大多数AM模型都是采取上述的计算框架来计算注意力分配概率分布信息区别只是在F的定义上可能有所不同。上述内容就是论文里面常常提到的Soft Attention Model的基本思想你能在文献里面看到的大多数AM模型基本就是这个模型区别很可能只是把这个模型用来解决不同的应用问题。那么怎么理解AM模型的物理含义呢一般文献里会把AM模型看作是单词对齐模型这是非常有道理的。目标句子生成的每个单词对应输入句子单词的概率分布可以理解为输入句子单词和这个目标生成单词的对齐概率这在机器翻译语境下是非常直观的传统的统计机器翻译一般在做的过程中会专门有一个短语对齐的步骤而注意力模型其实起的是相同的作用。在其他应用里面把AM模型理解成输入句子和目标句子单词之间的对齐概率也是很顺畅的想法。当然我觉得从概念上理解的话把AM模型理解成影响力模型也是合理的就是说生成目标单词的时候输入句子每个单词对于生成这个单词有多大的影响程度。这种想法也是比较好理解AM模型物理意义的一种思维方式。图6是论文“A Neural Attention Model for Sentence Summarization”中Rush用AM模型来做生成式摘要给出的一个AM的一个非常直观的例子。这个例子中Encoder-Decoder框架的输入句子是“russian defense minister ivanov called sunday for the creation of a joint front for combating global terrorism”。对应图中纵坐标的句子。系统生成的摘要句子是“russia calls for joint front against terrorism”对应图中横坐标的句子。可以看出模型已经把句子主体部分正确地抽出来了。矩阵中每一列代表生成的目标单词对应输入句子每个单词的AM分配概率颜色越深代表分配到的概率越大。这个例子对于直观理解AM是很有帮助作用的。

查看全文

http://www.zqtcl.cn/news/182855/