佛山网站优化质量好,大连金州旅游景点有哪些,怎么免费建公司网站,上海广告传媒公司排名ICLR 2025 558 当前的大语言模型#xff08;LLMs#xff09;在对齐时#xff0c;通常旨在反映普遍的人类价值观与行为模式#xff0c;但却常常无法捕捉到个体用户的独特特征与偏好。
为填补这一空白#xff0c;本文提出了**“人格对齐#xff08;Personality AlignmentLLMs在对齐时通常旨在反映普遍的人类价值观与行为模式但却常常无法捕捉到个体用户的独特特征与偏好。
为填补这一空白本文提出了**“人格对齐Personality Alignment”的新概念。该方法旨在使LLM的回答和决策过程能够贴合具体用户或相关群体的个性化偏好**。
受心理测量学psychometrics启发我们构建了PAPI 数据集Personality Alignment with Personality Inventories该数据集包含来自超过32万名真实用户的个性测试数据涵盖了 大五人格Big Five Personality Factors “黑暗三性格”特质Dark Triad Traits
这一全面的数据集使我们能够量化评估LLMs在正面人格维度与潜在问题人格维度上的对齐能力。
考虑到人格对齐面临的挑战如个人数据有限、偏好多样、对可扩展性要求高我们提出了一种名为**激活干预优化activation intervention optimization**的方法能够在仅需极少数据与计算资源的条件下有效提升LLMs对个体行为偏好的对齐能力。
我们的方法PAS在实验中展现出卓越性能且所需优化时间仅为现有方法 DPO 的 1/5在实用性与效率方面具有显著优势。
我们的研究为未来AI系统实现人格化决策与推理提供了全新路径使AI交互更具相关性、个性化与人本价值。 数据集与代码已开源地址为https://github.com/zhu-minjun/PAlign。