58同城 网站建设,专做国外旅游的网站,陕西建站,清河网站建设电话视频#xff1a;GPT#xff0c;GPT-2#xff0c;GPT-3 论文精读【论文精读】_哔哩哔哩_bilibili
MAE论文#xff1a;把bert用回计算机视觉领域
CLIP论文#xff1a;打通文本和图像 GPT
论文#xff1a;Improving Language Understanding by Generative Pre-Training
…视频GPTGPT-2GPT-3 论文精读【论文精读】_哔哩哔哩_bilibili
MAE论文把bert用回计算机视觉领域
CLIP论文打通文本和图像 GPT
论文Improving Language Understanding by Generative Pre-Training
半监督学习使用没有标号的文本进行预训练一个语言模型用有标号的数据训练一个微调模型
Bert是Transformer的encoder既能用前面 也能用后面特征GPT是Transformer的decoder部分带掩码的注意力机制因为任务是预测下一个词只能用来自前面的特征
Bert是带掩码的语言模型完形填空挖掉中间的词 用上下文来预测该词 无标号数据上做预训练
目标函数1 给定 k 个词 预测下一个词如何预测 和Bert的区别不只是编码器解码器更主要的区别是目标函数的选取GPT的目标函数更难 有标号数据上做微调
标准的分类目标函数2 将语言模型作为微调的辅助得到的目标函数 接下来考虑怎么把NLP中很多不一样的子任务表示成序列标号的形式调整数据而不调整模型预训练好Transformer模型后 在做下游任务时候不需要改变模型结构GPT跟以往相比的特点 实验部分
12层Transformer的decoder 每层维度768跟bert-base一样
在预训练语言模型时是在自然文本上训练但在下游任务时对其输入进行了构造开始 结束 分隔符 GPT-2
论文Language Models are Unsupervised Multitask Learners
改进对每一个下游任务都需要微调在每一个任务上还要提供部分样本用于训练的缺点好处是训练一个模型 在任何地方都能用
zero-shot
做到下游任务时不需要任何标注信息也不需要训练模型使用 prompt
采样策略
预测出下一个词的概率不一定选择概率最大的 可能希望具有多样性
参数 Temperature、Top k、Top p
Temperature 1不变softmax 选出概率最大的数
Temperature越大越多样
Top k采样前k个词
Top p累加概率 达到该概率就停止采样一般95% GPT-3
论文Language Models are Few-Shot Learners
在做下游任务时不做任何梯度更新
核心的下游任务方式
Zero-shotOne-shot给出一个参考的问题和回答要GPT根据给出的参考回答一个新问题Few-shot