电子商务网站建设实训总结,智慧旅游网站建设方案,深圳网站关键词优化推广,网站空间管理面板【官方双语】GPT是什么#xff1f;直观解释Transformer | 深度学习第5章
0:00 - 预测#xff0c;采样#xff0c;重复#xff1a;预训练/生成式/Transformer模型 3:03 - Transformer 的内部结构 6:36 - 本期总述 7:20 - 深度学习的大框架 12:27 - GPT的第一层#xff1a;…【官方双语】GPT是什么直观解释Transformer | 深度学习第5章
0:00 - 预测采样重复预训练/生成式/Transformer模型 3:03 - Transformer 的内部结构 6:36 - 本期总述 7:20 - 深度学习的大框架 12:27 - GPT的第一层词嵌入为向量(embedding) 18:25 - 嵌入空间不仅代表词还能包含上下文信息 20:22 - GPT的最后一层向量解码为词(Unembedding) 22:22 - 带温度的 Softmax 函数 26:03 - 下期预告深入注意力机制
1.0. GPT的解释 预测后续内容
视频重要内容
1.1 Token的解释 词的含义不同以model举例 注意力模块的工作
后续是接多层感知器MLP或者叫做前馈神经网络
深度学习系列课程
1.2 权重 八个类别
1.3 词嵌入 几何角度理解 举个例子
点积 几何角度 1.4 上下文长度 1.5 输出 涉及两个步骤
1.6 解嵌入矩阵 1.7 Softmax 下一章Attention