做推广必须知道的网站吗,263企业邮箱管理员登录入口,企业网站关键词放几个,wordpress网站出现域名加两个双引号的图片死链接让我们把一切都整合在一起#xff0c;看看您将如何在强化学习过程中使用奖励模型来更新LLM的权重#xff0c;并生成与人对齐的模型。请记住#xff0c;您希望从已经在您感兴趣的任务上表现良好的模型开始。您将努力使指导发现您的LLM对齐。首先#xff0c;您将从提示数据集…让我们把一切都整合在一起看看您将如何在强化学习过程中使用奖励模型来更新LLM的权重并生成与人对齐的模型。请记住您希望从已经在您感兴趣的任务上表现良好的模型开始。您将努力使指导发现您的LLM对齐。首先您将从提示数据集中传递一个提示。在这种情况下“A dog is…”传递给指导LLM然后生成一个完成这种情况下是… a furry animal.一只毛茸茸的动物。接下来您将将此完成和原始提示一起发送给奖励模型作为提示完成对。奖励模型基于其训练的人类反馈评估对然后返回一个奖励值。较高的值如此处显示的0.24表示更加对齐的响应。较不对齐的响应将获得较低的值例如-0.53。然后您将将这个提示完成对的奖励值传递给强化学习算法以更新LLM的权重并使其生成更加对齐、奖励更高的响应。
我们将称这个中间版本的模型为RL更新的LLM。这一系列步骤组成了RLHF过程的单次迭代。
这些迭代将继续进行一定数量的回合类似于其他类型的微调。在这里您可以看到RL更新的LLM生成的完成获得了更高的奖励分数表明权重的更新导致了更加对齐的完成。
如果这个过程运行良好您将看到在每次迭代后奖励得到改善
因为模型生成的文本越来越符合人类的偏好。
您将继续进行这个迭代过程直到您的模型根据某些评估标准对齐。例如达到您定义的有用性的阈值。您还可以定义一个最大步数例如20,000作为停止标准。在这一点上让我们将经过微调的模型称为与人对齐的LLM。
我们尚未讨论的一个细节是强化学习算法的确切性质。
这是一个算法它接受奖励模型的输出并使用它来随着时间的推移更新LLM模型的权重以增加奖励分数。有几种不同的算法可以用于RLHF过程的这一部分。一个常见的选择是近端策略优化Proximal Policy Optimization简称PPO。
PPO是一个相当复杂的算法您不必熟悉所有细节就能使用它。然而这可能是一个难以实现的算法如果您在使其工作时遇到问题更详细地了解其内部工作原理可能有助于您进行故障排除。为了更详细地解释PPO算法的工作原理我邀请了我的AWS同事Ek为您提供有关技术细节的更深入了解。下一个视频是可选的您可以随意跳过它转到奖励作弊视频。您不需要这里的信息来完成测验或本周的实验。但是我鼓励您查看这些详细信息因为RLHF在确保LLM在部署中以安全和对齐的方式行为方面变得越来越重要。
参考
https://www.coursera.org/learn/generative-ai-with-llms/lecture/sAKto/rlhf-fine-tuning-with-reinforcement-learning