嘉兴h5建站,望野王绩翻译,天元建设集团有限公司第八建筑工程公司,公司网站建设价格多少本文是LLM系列文章#xff0c;针对《SuperHF: Supervised Iterative Learning from Human Feedback》的翻译。 SuperHF#xff1a;从人的反馈中监督迭代学习 摘要1 引言2 相关工作3 背景4 方法5 实验6 讨论与未来工作7 结论 摘要
人工智能领域越来越关注大规模语言模型针对《SuperHF: Supervised Iterative Learning from Human Feedback》的翻译。 SuperHF从人的反馈中监督迭代学习 摘要1 引言2 相关工作3 背景4 方法5 实验6 讨论与未来工作7 结论 摘要
人工智能领域越来越关注大规模语言模型这些模型虽然表现出非凡的能力但在安全性、与人类价值观的一致性以及训练过程中的稳定性方面往往存在挑战。在这里我们重点介绍了两种常用的方法即监督微调SFT和来自人类反馈的强化学习RLHF。SFT简单而稳健为许多开源模型提供了动力而RLHF是一种更复杂的方法用于ChatGPT等顶级模型但也存在不稳定性和易受奖励黑客攻击的问题。我们提出了一种新的方法即从人类反馈中监督迭代学习SuperHF它试图利用这两种方法的优势。我们的假设有两个方面我们假设RLHF中使用的奖励模型对于有效的数据使用和模型泛化至关重要并且RLHF中可能没有必要使用近端策略优化PPO这可能会导致不稳定问题。SuperHF用简单的监督损失和Kullback-LeiblerKL发散先验代替了PPO。它通过在在线学习机制中重复采样一批模型输出并通过奖励模型进行过滤来创建自己的训练数据。然后我们将奖励优化问题分解为三个部分稳健地优化训练奖励本身防止奖励黑客攻击——或利用一种新的METEOR相似性度量来衡量可能降低模型性能的奖励模型以及在下游评估中保持良好的性能。我们的实验结果表明SuperHF在训练目标上超过了基于PPO的RLHF轻松而有利地权衡了高回报和低回报的黑客攻击改进了下游校准并在我们基于GPT-4的定性评估方案上执行了相同的操作同时实现起来明显更简单突出了SuperHF作为一种具有竞争力的语言模型对齐技术的潜力。
1 引言
2 相关工作
3 背景
4 方法
5 实验
6 讨论与未来工作
7 结论
我们提出了一种从人类反馈中监督迭代学习SuperHF这是一种从标量人类反馈奖励信号中使基础模型与人类偏好相一致的新方法它是基于近端策略优化PPO的人类反馈强化学习RLHF的替代方法。通过将人类反馈微调问题重新定义为贝叶斯推理我们导出了SuperHF损失这是一种简单的监督损失包含了关键的KL发散先验。我们的实验表明SuperHF有效地优化了问答的奖励模型分数在使用KL分歧惩罚和从指令调整的基础模型开始时在高奖励和低奖励游戏之间取得了良好的平衡并将与RLHF一样好或更好的推广到GPT-4的下游任务和主观偏好评估中。 考虑到我们工作的更广泛影响SuperHF简化了根据人类反馈进行的语言模型微调使过程民主化并提高了该领域的可访问性。重要的是要认识到这类工作中滥用增加的可能性——当前的语言模型对齐侧重于与任何偏好对齐的技术挑战因此参与者既有将开放语言模型微调为不期望的偏好的风险也有简单地使用指令遵循模型更容易输出有害或危险的响应的风险。但是随着RLHF越来越广泛越来越多的开源实现出现在网上有必要对该方法进行批判性评估发布更简单但希望更安全的方法成为一种越来越好的权衡附录D中的X风险表中描述了其他考虑因素。总体而言我们设想SuperHF和类似的研究方向最终有助于开发广泛的语言模型对齐工具通过仔细的治理和稳健的评估可以训练和部署未来的基础模型使其更安全地与社会价值观对齐并保护社会价值观。