我国酒店网站建设存在的问题,2345网址大全导航下载,工程建设采购有哪些网站,网站 专题建设服务本文是LLM系列文章#xff0c;针对《Self-Alignment with Instruction Backtranslation》的翻译。 指令反翻译的自动对齐 摘要1 引言2 方法3 实验4 不足5 相关工作6 结论 摘要
我们提出了一种可扩展的方法#xff0c;通过用相应的指令自动标记人类书写的文本来建立高质量的…本文是LLM系列文章针对《Self-Alignment with Instruction Backtranslation》的翻译。 指令反翻译的自动对齐 摘要1 引言2 方法3 实验4 不足5 相关工作6 结论 摘要
我们提出了一种可扩展的方法通过用相应的指令自动标记人类书写的文本来建立高质量的指令跟随语言模型。我们的方法名为指令反翻译从一个在少量种子数据和给定的网络语料库上微调的语言模型开始。种子模型用于构建训练示例方法是生成网络文档的指令提示自增强然后从这些候选者中选择高质量的示例自管理。然后使用这些数据来微调更强的模型。在我们的方法的两次迭代中对LLaMa进行微调产生了一个优于Alpaca排行榜上所有其他基于LLaMa的模型的模型该模型不依赖于蒸馏数据证明了高效的自校准。
1 引言
2 方法
3 实验
4 不足
5 相关工作
6 结论
我们提出了一种可扩展的方法来微调大型语言模型以遵循指令。我们的方法通过开发一种迭代自训练算法来利用大量未标记的数据我们称之为指令反翻译。我们的方法使用模型本身来扩充和策划高质量的训练示例以提高其自身的性能。在Alpaca排行榜上我们的微调模型优于所有其他非蒸馏指令遵循模型同时使用更少的人工注释示例。未来的工作应该通过考虑更大的未标记语料库来进一步扩展这种方法我们的分析表明这应该会产生进一步的收益。