房产网站制作方案,网站建设公司开票开什么内容,品牌网站建设市场分析,网站建设验收报告范本深度学习自然语言处理 原创作者#xff1a;Winnie LLM可以标记人类偏好数据#xff0c;用于强化学习吗#xff1f;尽管之前有一些类似的研究#xff0c;但从没有人系统地对比RLHF和RLAIF的性能。今天#xff0c;我们为大家带来一项Google最新的研究#xff0c;来看看LLM是… 深度学习自然语言处理 原创作者Winnie LLM可以标记人类偏好数据用于强化学习吗尽管之前有一些类似的研究但从没有人系统地对比RLHF和RLAIF的性能。今天我们为大家带来一项Google最新的研究来看看LLM是否懂得人类的偏好。 Paper: RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback Link https://arxiv.org/abs/2309.00267 进NLP群—加入NLP交流群 基于人类反馈的强化学习(RLHF)通过收集人类反馈以强化学习方法训练LLM可以更好地理解人类偏好。然而这个方法有一个很大的问题收集高质量的人类反馈非常困难和耗时。 那有没有更好的方法呢 RLAIF方法 RLAIF即Reinforcement learning from AI feedback。顾名思义RLAIF是指使用LLM来代替人类标记偏好基于这些标记数据训练奖励模型然后进行RL微调。 下图是一个展示了RLAIF(上)和RLHF(下)的基本流程。 如图所示在RLAIF中首先使用LLM来评估给定的文本和2个候选回复然后这些由LLM生成的偏好数据被用来训练一个奖励模型这个奖励模型用于强化学习以便进一步优化LLM。 一个LLM用于评估回复的prompt示例如下图遵循以下流程 Preamble-描述任务介绍和说明Few-shot exemplars(可选)Sample to annotate结束字符串 在这篇研究中作者还探索了 避免位置偏差: 候选回复喂给LLM的顺序可能会偏向它喜欢的候选顺序尤其是在 LLM 参数较小的情况下。为了减轻位置偏差的影响作者进行了双重推理和平均处理。prompt改进: 还尝试了使用思维链CoT推理和self-consistency等方法促进LLM的评估。 实验结果 作者使用PaLM 2 Extra-Small(XS)在OpenAI的过滤过的TL;DR数据集上训练了一个SFT模型作为baseline。 对于RLHF方法奖励模型在OpenAI的TL;DR人类偏好数据集上进行训练。对于RLAIF方法使用PaLM 2 L生成AI标记的偏好对于强化学习使用A2C训练策略。策略和价值模型都是从SFT模型初始化的。 实验主要有以下发现 在性能方面RLAIF与RLHF有相似的表现。 在人类评估上与SFT策略相比RLAIF被偏好71%的时间而RLHF则被偏好73%的时间。尽管RLHF略微优于RLAIF但这个差异在统计上并不显著。直接对比胜率RLAIF与RLHF在被偏好的程度上是平等的胜率都是50%。与人工写的摘要比较RLAIF和RLHF生成的摘要分别在79%和80%的时间内被更偏好与参考摘要的差异也不具统计意义。影响因素RLAIF和RLHF策略倾向于生成比SFT策略更长的摘要这可能是质量提升的一个因素。长度调整后表现即使控制摘要的长度RLAIF和RLHF都依然在同样的幅度内优于SFT策略。 下图是SFTRLHF和RLAIF策略生成的示例摘要。RLHF和RLAIF 比SFT产生更高质量的摘要。 对于prompt方式使用详细的OpenAI preamble和CoT给出了最高的对齐性能。少样本提示并没有提高准确性甚至可能使它变得更糟。 Self-Consistency with CoT对性能的影响如下用T1采样会导致与人类偏好的一致性较低。 作者还对用于评估的LLM的参数大小进行了探索发现与人类偏好的一致性随着LLM大小的增加而增加。 总结 这项工作似乎暗示RLAIF是一个不依赖于人工标注的、与RLHF可行的替代方案。但是为了更好地了解这些发现是否能推广到其他NLP任务还需要在更广泛的任务范围内进行实验。 进NLP群—加入NLP交流群