建设银行官网首页 网站,赶集网官网,建设网站书籍,做网站要多大空间区别1#xff1a;网络结构#xff08;主要是Masked Multi-Head-Attention和Multi-Head-Attention#xff09;
gpt1使用transformer的decoder#xff0c;单向编码#xff0c;是一种基于语言模型的生成式模型#xff0c;更适合生成下一个单词或句子 bert使用transformer的…区别1网络结构主要是Masked Multi-Head-Attention和Multi-Head-Attention
gpt1使用transformer的decoder单向编码是一种基于语言模型的生成式模型更适合生成下一个单词或句子 bert使用transformer的encoder双向编码适合处理需要理解整个句子或段落的任务。可以用于许多NLP任务如分类、命名实体识别和句子关系判断等 区别2预训练任务主要是Masking Input
有一个句子是台湾大学,GPT选取BOS这个起始Token所对应的输出embedding用h来表示。然后通过一个Linear Transform,再通过一个softmax,得到一个概率分布,我们希望这个输出的概率分布,跟正确答案的交叉熵越小越好。 在Bert的预训练任务中Bert主要使用“填空题的方式来完成预训练当我们输入一个句子时其中的一些词会被随机mask。可以用一个one-hot vector来表示这个字符并使输出和one-hot vector之间的交叉熵损失最小。