网站 制作,戴尔电脑网站建设方案范文,wordpress封面,创意设计pc文章目录什么是教师强制#xff1f;教师强制#xff08;Teacher Forcing#xff09;的定义原比例#xff08;Original Proportion#xff09;教师强制的举例说明#xff08;一#xff09;教师强制的举例说明#xff08;二#xff09;优点和缺点解决曝光偏差的方法什么…
文章目录什么是教师强制教师强制Teacher Forcing的定义原比例Original Proportion教师强制的举例说明一教师强制的举例说明二优点和缺点解决曝光偏差的方法什么是教师强制
教师强制Teacher Forcing的定义
教师强制是一种在训练循环神经网络RNN或序列到序列Seq2Seq模型时常用的技巧。其核心思想是在训练过程中不使用模型自身在上一个时间步的预测输出作为下一个时间步的输入而是直接使用真实的标签ground truth作为输入。这种方法可以加速模型的收敛速度并提高训练的稳定性。
原比例Original Proportion
“原比例”并不是一个与“教师强制”直接相关的术语。在教师强制的上下文中可能提到的是“教师强制的比例”即在训练过程中使用真实标签作为输入的比例。例如在计划采样Scheduled Sampling中会逐渐减少使用真实标签的比例增加使用模型自身预测的比例。
教师强制的举例说明一
假设我们正在训练一个机器翻译模型将英语翻译成法语。输入序列是英语句子目标序列是对应的法语句子。以下是教师强制的具体应用过程
训练阶段
输入序列假设输入的英语句子是“Mary had a little lamb”。目标序列对应的法语句子是“Marie avait un petit agneau”。教师强制的训练过程 在时间步1模型的输入是“Mary”目标输出是“Marie”。在时间步2不使用模型在时间步1生成的输出而是直接将“Marie”作为输入目标输出是“avait”。在时间步3将“avait”作为输入目标输出是“un”依此类推。每个时间步的损失是通过计算模型输出与真实目标之间的交叉熵来计算的然后通过反向传播更新模型参数。
推理阶段 在推理阶段即实际使用模型进行翻译时模型无法获取真实的目标序列因此需要使用自身生成的输出作为下一个时间步的输入
输入序列仍然是“Mary had a little lamb”。生成过程 在时间步1模型的输入是“Mary”生成的输出可能是“Marie”。在时间步2将“Marie”作为输入生成的输出可能是“avait”。在时间步3将“avait”作为输入生成的输出可能是“un”依此类推直到生成结束标记或达到最大长度。
教师强制的举例说明二
场景机器翻译英译中 输入序列英文: “I love cats”
目标序列中文: “我 爱 猫”
训练步骤 编码器将 “I love cats” 编码为上下文向量 H_enc。 解码器输入右移后的真实标签[, “我”, “爱”]对应预测目标 [“我”, “爱”, “猫”]。 在预测第3个词 “猫” 时解码器的输入是 “我” “爱”而非模型自己可能预测错的中间结果。
若不用教师强制 假设模型第一步错误预测为 “你” 而非 “我”则后续输入变为 [, “你”]错误会持续放大导致训练困难。
优点和缺点
优点 加速训练使用真实标签可以减少模型在早期训练阶段因错误预测而导致的连锁反应从而加速收敛。提高稳定性避免了模型在训练初期可能产生的错误预测的累积效应使得训练过程更加稳定。 缺点 曝光偏差Exposure Bias模型在训练时只接触到真实的数据分布而在实际推理时模型需要根据自身的预测进行下一步的生成这两种情况存在差异可能导致模型在推理时表现下降。
解决曝光偏差的方法
为了解决曝光偏差研究者们提出了一些改进方法例如 计划采样Scheduled Sampling在训练过程中逐渐增加使用模型自身预测作为输入的概率从完全教师强制逐渐过渡到部分依赖模型自身预测。 Mixer-Seq结合教师强制和自由运行free-running的训练方式让模型在训练时同时接触到真实数据和自身生成的序列。 课程学习Curriculum Learning 从简单样本开始逐步增加难度。 强化学习微调 在训练后期使用强化学习如RLHF优化生成结果。
通过这些方法可以在训练阶段更好地模拟推理阶段的条件从而提高模型在实际应用中的性能。