物流网站建设平台,平面设计专业哪个学校好,农产品网站建设需求,天河区建设网站随着发布给公众的大语言模型#xff08;LLMs#xff09;数量的增加#xff0c;迫切需要了解这些模型从第三方定制的微调数据中学习的安全性影响。论文研究了在包含不安全内容的噪声定制数据上微调的LLMs的行为#xff0c;这些数据集包含偏见、毒性和有害性 发现虽然对齐的L…随着发布给公众的大语言模型LLMs数量的增加迫切需要了解这些模型从第三方定制的微调数据中学习的安全性影响。论文研究了在包含不安全内容的噪声定制数据上微调的LLMs的行为这些数据集包含偏见、毒性和有害性 发现虽然对齐的LLMs可以轻松学习这些不安全内容但当随后在更安全的内容上进行微调时它们相对于其他示例更容易遗忘这些内容。受到遗忘差异的启发作者引入了“ForgetFilter”算法该算法根据模型对数据的遗忘信号强度过滤不安全的数据。 论文证明ForgetFilter算法确保了在定制微调中的安全性而不损害下游任务性能这与顺序安全微调不同。在抑制LLMs在定制微调过程中吸收不安全内容方面ForgetFilter优于替代策略如重播和道德自我纠正例如毒性评分中不应用任何安全措施的下降了75%比使用自我纠正下降了62%。