做产品网站费用,推广普通话宣传周活动方案,做外贸现在一般都通过哪些网站,网站平台策划书本文是对李宏毅老师的课程进行了整理。 视频地址为#xff1a; https://www.bilibili.com/video/BV1Wv411h7kN?p35
1 引入
Transform的应用场景
2 基本原理
Transform机制由编码器#xff08;Encoder#xff09;和解码器#xff08;Decoder#xff09;构成。
编码器…本文是对李宏毅老师的课程进行了整理。 视频地址为 https://www.bilibili.com/video/BV1Wv411h7kN?p35
1 引入
Transform的应用场景
2 基本原理
Transform机制由编码器Encoder和解码器Decoder构成。
编码器输入是一组向量序列输出为一组向量序列attention注意力机制、CNN、RNN等都可以作为Encoder解码器根据编码器的输出利用Begin特殊符号、输入向量序列得到后续的输出向量序列如一段文字。
上图例子的步骤如下
Encoder的输入为机器学习输出为向量序列Decoder第一次输入为Encoder输出的向量序列、Begin特殊符号第一次输出为文字出现的概率假设最大的概率为机Decoder第二次输入为Decoder第一次输出的向量序列、器第二次输出为文字出现的概率假设最大的概率为器重复直到整个序列处理完成为止。 因为Decoder不知道最后的输出长度是多少所以必须在输出部分增加一个结束符号用“END”表示。 Decoder有两种方式
AT(Autoregressive) Decoder输入一个序列输出也是一个序列一个一个单词输出NAT Decoder输入一串BeginPPT是写的START直接输出一个句子。
问NAT Decoder方式如何知道结束 答有两种方法1用另外的分类器输入为Encoder的输入输出为句子的长度2假设句子最长不超过300直接输入300个Begin然后得到一个句子在输出END之后的单词都不考虑。 问NAT Decoder方式有什么优点 答平行更稳定。