做网站资讯运营,北京展台设计制作,做区位分析的网站,机械设备上哪个网站做外贸推广最近#xff0c;预训练语言模型#xff08;PLM#xff09;在自然语言处理领域取得了巨大成功#xff0c;并逐渐引入推荐系统领域。本篇推文介绍了最近的两篇预训练语言模型和推荐系统结合的综述#xff1a;
[1] Pre-train, Prompt, and Recommendation: A Comprehensive … 最近预训练语言模型PLM在自然语言处理领域取得了巨大成功并逐渐引入推荐系统领域。本篇推文介绍了最近的两篇预训练语言模型和推荐系统结合的综述
[1] Pre-train, Prompt, and Recommendation: A Comprehensive Survey of Language Modeling Paradigm Adaptations in Recommender Systems
[2] Foundation Models for Recommender Systems: A Survey and New Perspectives
01
Pre-train, Prompt, and Recommendation: A Comprehensive Survey of Language Modeling Paradigm Adaptations in Recommender Systems
摘要
预训练语言模型PLM的出现在自然语言处理NLP领域取得了巨大的成功它通过在大规模语料库上进行自监督学习学习到了通用的表示方法。预训练模型和学到的表示对一系列下游NLP任务都有益处。最近这种训练范式已经被应用到推荐领域并被学术界和工业界视为一种有前途的方法。本文系统地研究了如何从不同的PLM相关训练范式学到的预训练模型中提取和转移知识以从多个角度如普适性、稀疏性、效率和效果提高推荐性能。具体而言我们提出了一个全面的分类法将现有的基于PLM的推荐系统根据其训练策略和目标进行划分。然后分析和总结了PLM-based训练范式与推荐系统中不同输入数据类型之间的关系。最后详细阐述了这个充满活力领域中的开放问题和未来的研究方向。
引言 推荐系统在发现用户兴趣和减轻决策过程中的信息过载方面起着关键作用。近年来基于深度神经架构和不断改进的计算基础设施的推荐系统取得了巨大成功。然而深度推荐模型天生对数据需求量大需要学习大量参数当它们的训练数据即用户-物品交互不足时很容易过拟合并且无法很好地推广到实际应用中。当大量新用户加入但交互较少时这种情况在实际推荐系统中普遍存在。数据稀疏性成为当前深度推荐模型的主要性能瓶颈。
随着自然语言处理NLP中预训练的兴起许多语言模型已经在大规模无监督语料库上进行了预训练并在各种下游监督任务中进行了微调以取得最先进的结果如GPT和BERT。这种预训练和微调范式的优势之一是通过自监督任务如遮蔽语言建模从丰富的无标签数据中提取有用且可迁移的知识当这些任务的标记数据不足时这些知识将有益于下游任务并避免从头开始训练新模型。
最近提出的一种范式即prompt learning以简单而灵活的方式统一了不同任务中预训练语言模型PLMs的用法。通常prompt learning依赖于一套合适的提示可以是硬文本模板或软连续嵌入将下游任务重新表述为预训练任务。这种范式的优点在于1它弥合了预训练和下游目标之间的差距允许更好地利用预训练模型中的丰富知识。当下游数据非常少时这个优势将倍增。2只需要调整少量的参数进行提示工程更加高效。
受到上述范式在解决数据稀疏性和效率问题方面的显著有效性的启发将语言建模范式应用于推荐被视为学术界和工业界的一个有前景的方向极大地推进了推荐系统的最新研究。尽管在计算机视觉、自然语言处理和图学习领域有几篇关于预训练范式的综述文章但与推荐系统相关的综述文章很少。这些综述文章总结了一些关于推荐模型的预训练研究并讨论了不同领域之间的知识转移方法。但这些文章仅涵盖了少量类似BERT的工作并没有深入探讨预训练推荐模型的训练细节。另外它们没有系统地分析推荐系统中不同数据类型和训练范式选择之间的关系。本综述是第一篇全面介绍语言建模范式在推荐系统中的最新研究成果的论文。本文的主要贡献如下
- 从训练策略、学习目标和相关数据类型的角度对基于PLM的推荐进行了综述并提供了迄今为止的第一份系统综述涵盖了这个新兴且快速发展的领域。
- 通过系统分类从预训练和微调以及提示两个角度全面回顾了现有的将语言建模范式应用于推荐任务的研究工作。对于每个分类提供并解释了几个子分类包括它们的概念、公式、涉及的方法以及它们在推荐中的训练和推断过程。
- 对限制和可能的未来研究方向进行了讨论以帮助对这个领域感兴趣的初学者和实践者更有效地学习并分享了集成资源。
总的来说综述全面回顾了语言建模范式在推荐系统中的应用并提供了对现有研究工作的细致分类和解释。此外指出了该领域的限制和未来的研究方向以促进该领域的进一步发展。
LMRS的通用架构
LMRSLanguage Model-based Recommendation System通过从预训练模型PTMs进行知识转移提供了征服数据稀疏性问题的新途径。图1显示了LMRS的基本框图突出了各种推荐任务的数据输入、预训练、微调/提示和推理阶段。一般来说输入数据对象的类型与训练和推理阶段都相关。在将输入预处理为图形、有序序列或对齐的文本-图像对等所需形式之后训练过程采用预处理数据并进行“预训练微调”或“预训练提示”的流程。如果推理仅基于预训练模型它可以被视为一种利用基于语言模型的学习目标的端到端方法。训练好的模型然后可以用于推断不同的推荐任务。 数据类型
将输入数据编码为嵌入向量通常是推荐系统中的第一步。然而与大多数自然语言处理任务相比推荐系统的输入更加多样化因此编码技术和过程可能需要调整以适应不同的输入类型。作为传播和传递知识的强大媒介文本数据通常用作建模用户偏好的输入。文本数据的示例包括评论、摘要、新闻、对话和代码。请注意为了简化起见将物品元数据和用户配置文件视为一种文本数据。顺序数据是严格按时间顺序或特定顺序排列的用户-物品交互用作顺序和基于会话的推荐系统的顺序输入。图形通常包含与其他类型的数据输入如用户-用户社交图或异构知识图不同的语义信息常用于提取结构化知识以提高推荐性能。在线环境的多样性促进了大量多媒体内容的生成这已被证明可以提高许多研究工作中的推荐性能。图像、视频和音频等多模态数据也可以是LMRS的重要来源。多模态数据在推荐系统中起着关键作用。在LMRS论文中利用多模态数据的情况很少可能是由于缺乏可访问的数据集。一些学者已经收集了自己的数据集以促进文本-视频-音频三模态音乐推荐或为购物场景建立基准。
LMRS的训练策略
鉴于PLM在预训练和微调范式中对NLP任务产生的重大影响最近在将这种范式应用于多个推荐任务方面出现了激增。如图1所示根据不同的训练范式主要有两类预训练、微调范式和提示学习范式。每个类别又根据对推荐模型不同部分的不同训练方法进行了进一步分类。本节将介绍针对特定推荐目的的各种训练策略。图2(a)展示了根据不同训练策略分组的最近LMRSs的出版物统计数据以及每年发表的研究论文总数。图2(b)展示了分类法和一些对应的代表性LMRSs。 5.1 RS的预训练、微调范式
“预训练微调”范式因其几个优点而引起了推荐领域研究人员的越来越多关注1预训练提供了更好的模型初始化通常导致在不同的下游推荐任务上更好的泛化能力从各个角度提高了推荐性能并加快了微调阶段的收敛速度2在庞大的源语料库上进行预训练可以学习到通用知识这对下游推荐器是有益的3预训练可以被视为一种正则化方法以避免在资源有限和小型数据集上过拟合。
预训练。这种训练策略可以被视为传统的端到端训练其中包含领域输入。不同的是我们只关注将基于语言模型的学习目标应用于训练阶段的研究。
预训练微调整体模型。在这个类别中模型会通过不同的数据源进行预训练和微调微调过程将调整整个模型的参数。预训练和微调阶段的学习目标也可以有所不同。
预训练微调部分模型。由于对整个模型进行微调通常耗时且不够灵活许多LMRSs选择只微调模型的部分参数以在训练开销和推荐性能之间取得平衡。
预训练微调模型的额外部分。随着PTM的深度增加它们所捕捉到的表示使得下游推荐更加容易。除了前面提到的两种微调策略一些工作利用PTM之上的特定任务层来进行推荐任务。微调只涉及PTM的这些额外部分通过优化任务特定层的参数进行微调。
5.2 RS的提示范式
近年来一个不同于设计特定目标函数来适应不同下游推荐任务的趋势是使用“预训练、提示和推理”范式通过硬/软提示重新构建下游推荐。在这个范式中可以避免微调预训练模型本身可以直接用于预测物品评分、生成前k个物品排名列表、进行对话、在编码时为程序员推荐类似的库甚至输出与推荐目标相关的子任务。提示学习突破了数据限制的问题并弥合了预训练和微调之间的目标形式差距。
固定-PTM提示调整。Prompt-tuning只需要调整一小组提示和标签的参数对于少样本推荐任务特别高效。尽管通过构建提示信息而不显著改变PTM的结构和参数取得了令人期待的结果但也需要选择最合适的提示模板和表达方式这对于推荐性能有很大影响。提示调整可以采用离散文本模板的形式这些模板更易于人类理解也可以采用软连续向量的形式。
固定-提示PTM调整。类似于“预训练微调”策略但额外使用具有固定参数的提示来引导推荐任务。一种常见的方法是使用人工设计的离散提示来指定推荐项。提示还可以是一个或多个标记/单词以无缝地将对话从各种任务转移/引导。
无调整提示。可以称为zero-shot推荐它直接生成推荐和/或相关的子任务而无需改变PTM的参数仅基于输入的提示。与最先进的基线相比zero-shot推荐已被证明在处理一个领域或跨领域设置中的新用户/物品时非常有效。在推理阶段一系列精心设计的离散文本模板提示被作为输入包括用于在新领域未出现在预训练阶段推荐物品的提示训练好的模型输出了优选的结果无需进行微调阶段。zero-shot推荐有效的原因在于训练数据和预训练任务能够从各种模态中提取语义和相关性的丰富知识并将其融入用户和物品的令牌中从而能够理解用户对物品特征的偏好行为。
提示PTM调整。在这种设置中参数包括两部分与提示相关的参数和模型参数。调整阶段涉及优化特定推荐任务的所有参数。提示PTM调整与“预训练微调整整体模型”的策略不同它在模型训练开始时提供额外的提示从而提供额外的引导。提示PTM调整阶段不一定意味着微调阶段而可以是为了针对特定数据输入从两个方面进行参数调整的任何可能阶段。
LMRS的学习目标
本节将概述语言模型的几种典型学习任务和目标以及它们在不同推荐任务中的适应方式。
6.1 推荐的语言建模目标
为了避免昂贵的手动标注数据集许多语言学习目标采用了自监督标签将它们转化为经典的概率密度估计问题。在语言建模目标中自回归建模、重构建模和辅助建模是三种常用的类别。这里只介绍用于推荐系统的几种语言建模目标。
部分/自回归建模Partial/Auto-regressive ModelingP/AM给定一个文本序列X1:T [x1, x2, · · · xT]AM的训练目标可以总结为给定所有前一个变量的情况下每个变量的负对数似然的联合值 现代语言模型推荐系统LMRS通常利用流行的预训练的从左到右的语言模型如GPT-2和DialoGPT分别作为可解释和对话推荐的基础以避免从头开始进行繁重的预训练任务。虽然自回归目标可以有效地建模上下文依赖关系但建模上下文只能从一个方向访问主要是从左到右。为了解决这个限制引入了部分/自回归建模PAM它通过将分解步骤扩展为一个范围来扩展AM。对于每个输入X会采样一个分解顺序M。
除了直接利用在文本输入上训练的PTM一些研究人员还将这个目标应用于具有顺序模式的输入比如图和用户-物品交互。这些模式可以作为评分函数从起始节点/用户到终止节点/物品选择合适的路径或者作为探索新的用户-物品对的探测器。
掩码语言建模Masked Language ModelingMLM将文本句子序列作为输入首先使用特殊的标记如[MASK]掩盖一个标记或多个标记。然后模型被训练以在将其余标记作为上下文的情况下预测掩码标记。其目标如下所示 其中M(X)和XM(X)分别表示输入序列X中的掩码标记和其余标记。同时一些研究工作提出了多个增强版本的MLM。
下一句预测Next Sentence PredictionNSP是一种二元分类损失用于预测两个片段是否在原始文本中相连。训练可以通过从输入文本语料库中获取连续句子的正例并通过将来自不同文档的片段配对来创建负例以自监督的方式进行。NSP的一般损失函数如下所示 其中x和y表示输入语料库中的两个片段如果x和y是相邻的则c 1否则c 0。NSP目标涉及对句子对之间的关系进行推理可用于更好地学习文本项如新闻文章、物品描述和对话数据的表示以用于推荐目的。此外它还可以用于建模两个组件之间的密切关系。作为NSP的一种变体句子顺序预测Sentence Order PredictionSOP以同一文档中的两个相邻片段作为正例然后将它们按顺序交换作为负例。SOP已被用于学习标题、描述和代码的内在一致性用于StackOverflow上的标签推荐。然而一些研究人员对于NSP和SOP在下游任务中的必要性和有效性提出了质疑这突显了在推荐场景中需要进一步的研究。
替换标记检测Replaced Token DetectionRTD用于预测一个标记是否被替换给定其周围的上下文 de Souza Pereira Moreira等人2021使用RTD目标训练了一个基于Transformer的模型用于基于会话的推荐在MLM和AM目标中取得了最佳性能。这可能是因为RTD将整个用户-物品交互序列作为输入并以双向方式建模上下文。
6.2 推荐的适应性目标
许多预训练或微调目标从语言模型LM目标中汲取灵感并根据输入数据类型和推荐目标有效地应用于特定的下游任务。在顺序推荐中通常希望以自回归的方式从左到右对有序的输入序列进行建模。
类似于文本句子Zheng等人2022和Xiao等人2022将用户的点击新闻历史视为输入文本并提出以自回归的方式建模用户行为用于下一次点击预测。然而由于顺序依赖性在推荐中的用户偏好方面不一定严格成立Yuan等人2020aMLM目标可以相应地进行修改。Yuan等人2020b在训练过程中随机屏蔽了一定比例的历史用户记录并预测了被屏蔽的项目。自回归学习任务也可以适应其他类型的数据。Geng等人2022b通过从预训练模型生成终节点以自回归的方式对从知识图谱中采样的一系列路径进行推荐建模。Zhao2022提出了预训练“重新排列序列预测”任务通过预测用户交互历史是否已被重新排列来学习用户整个交互历史的序列级信息这与排列语言建模Permuted Language ModelingPerLMYang等人2019类似。
MLM也被称为填空预测Cloze Prediction可以用于学习不同推荐目的的图表示。Wang等人2023a提出了在用户-物品-属性异构图的重构子图上对Transformer模型进行预训练的方法使用掩码节点预测Masked Node PredictionMNP、掩码边预测Masked Edge PredictionMEP和元路径类型预测作为目标。具体而言MNP通过在异构子图中随机屏蔽一定比例的节点然后根据剩余上下文预测被屏蔽的节点通过最大化被屏蔽节点与不相关节点之间的距离来进行。类似地MEP用于根据周围上下文恢复两个相邻节点的屏蔽边。除此之外MLM还可以适应多模态数据称为掩码多模态建模Masked Multi-modal ModelingMMMWu等人2022a。MMM通过给定未屏蔽的输入预测被屏蔽的新闻和新闻图像区域的语义并指示新闻图像和新闻内容段是否相对应用于新闻推荐。
NSP/SOP可以适应CTR预测称为Next K Behaviors PredictionNBP。NBP旨在通过推断候选行为是否是目标用户过去N个行为中的第i个行为来在预训练阶段学习用户表示。NBP还可以捕捉过去行为和多个未来行为之间的相关性。
用数据类型制定训练
为了将训练策略和学习目标与不同的输入数据类型关联起来我们在表格1中总结了该领域的代表性工作。所列出的训练策略和目标经过精心选择并且在现有工作中是典型的。由于篇幅限制只选择了LMRS领域的一部分最新研究。 考虑到数据集是LMRS方法的经验分析的另一个重要因素表格2列出了几个代表性的公开可用数据集考虑到数据使用的普及度和数据类型的多样性以及它们对应的推荐任务、训练策略和采用的数据类型。从表格2中得出了几个观察结果首先数据集可以转换为不同的数据类型然后可以从不同的角度进行分析以增强下游推荐。不同数据类型的整合也可以更有效地实现不同的推荐目标。进一步观察到在LMRS中提示方法主要用于文本和序列数据类型但对于多模态或图数据的探索还不足。这表明探索额外的数据类型可能是提示驱动的LMRS研究的未来方向。 评估
8.1 评估指标
作为推荐系统设计的重要方面评估可以从多个维度提供有关推荐质量的见解。除了离线模式下的常见指标如RMSE、MAP、AUC、MAE、召回率、精确率、MRR、NDCG、F1-score和命中率之外一些研究定义了组AUCZhang等人2022或用户组AUCZheng等人2022来评估组推荐的效用。Jiang等人2022和Liu等人2022进行了A/B测试使用转化率或CTR来评估与在线用户的性能。
将生成模块如GPT和T5集成到现有的推荐系统中为推荐系统提供了额外的可能性例如为推荐结果生成自由形式的文本解释或在会话推荐中模拟更真实的真实对话场景以增强用户体验。在这种情况下常用的评估指标是基于词汇重叠的BLEU和ROUGE用于自动评估生成文本的相关性。此外困惑度PerplexityPPL、Distinct-n和唯一句子比例Unique Sentence RatioUSR也是广泛使用的评估指标用于衡量生成文本的流畅性、多样性和信息量。根据LMRS的特殊要求还可以利用其他评估指标。
人工评估是客观评估的补充因为自动指标可能无法与用户的主观反馈相匹配。人工主观评估和自动客观评估的结果可能相反这凸显了现有自动指标在评估LMRS中生成的解释和对话时的局限性。图3显示了各自任务中不同评估指标的使用频率统计。 8.2 跨数据集评估的讨论
本节比较使用常用数据集获得的各种模型的结果。具体而言根据论文中报告的结果测量了不同模型相对于共享基准线的改进并使用相同的指标在相同的数据集上对它们进行评估。比较结果显示在表3-6中。大多数改进都以粗体显示Nk表示NDCGkHk表示HitRatek。重要的是要认识到如果没有精心设计的平台和周到的实验设置就无法进行全面和准确的评估。各种因素如不同的训练平台、参数设置和数据拆分策略都可能导致结果的波动。因此这些分析仅供参考目的。从表格中可以观察到以下几点首先在使用ReDial数据集评估的四个对话式推荐系统中固定提示的PTM调整范式相对于共享基线展示了最显著的改进。其次在亚马逊数据集上ChatGPT的零样本学习和少样本学习表现不如受监督的推荐基线。这可能是因为语言模型更擅长捕捉语言模式而不是通过有效合作基于用户偏好提供类似的物品推荐。此外候选物品在物品池中的位置也会影响直接推荐的性能。另一个基于提示的模型P5对亚马逊和Yelp数据集都显示出了最大的改进这验证了在使用大型预训练语言模型进行推荐时需要更多的指导。最后在MIND数据集上的新闻推荐中引入了一个与模型无关的微调框架并进行了缓存管理这可以加速模型训练过程并在基线上取得最大的改进。 讨论及未来方向
尽管已经在各种推荐任务中验证了LM训练范式的有效性但仍存在一些挑战可能成为未来的研究方向。
推荐中语言生成任务中的语言偏见和事实一致性。在生成对话式推荐系统的自由形式回复或推荐结果的解释时现有LMRS的生成组件往往倾向于预测通用标记以确保句子的流畅性或重复某些通用适用的“安全”句子。因此一个未来的研究方向是在保持语言流畅性的同时增强生成解释和回复的多样性和相关性而不是采用“太极”的回答方式。此外生成事实上一致的句子也是一个亟待解决但未得到足够关注的研究问题。
在将知识从预训练模型传输和注入到下游推荐。不恰当的训练策略可能导致不同程度的问题。张等人2022指出了在持续训练的工业推荐系统中出现的灾难性遗忘问题。预训练模型所具备的领域知识的程度以及将其传输和注入到推荐目的的有效方式都是开放的问题。例如张等人2021b尝试了一种简单的方法通过领域自适应预训练来注入知识结果只取得了有限的改进。此外关于如何最大化知识在不同推荐任务中的传递如何量化传递的知识程度以及是否存在知识传递的上限等问题都是需要在人工智能社区中进行研究和探索的有价值的问题。
推荐系统中预训练机制的可扩展性问题。随着模型参数不断增加其中存储的知识也在增加。尽管预训练模型在多个推荐任务中取得了巨大的成功但如何在不影响实际推荐效率和准确性的情况下维护和更新如此复杂和大规模的模型仍需要更多关注。一些研究提出通过对部分预训练模型或比模型规模小得多的额外部分进行微调来提高模型更新效率。然而Yuan等人2020b在实证研究中发现仅微调输出层通常会导致推荐场景下表现不佳。虽然适当微调最后几层有时会带来有希望的性能提升但改进结果相当不稳定而且依赖于预训练模型和任务。Yu等人2022提出将大型预训练语言模型压缩为学生模型以提高推荐效率而Yang等人2022b则专注于通过累积冗余物品编码的梯度来加速预训练语言模型的微调减少GPU内存占用在新闻推荐中。尽管取得了这些成就但在这个快速发展的领域仍然需要进一步努力。
在预训练中平衡多个目标。许多研究使用多任务学习目标以更好地将在预训练阶段学到的知识应用于下游任务Geng等人2022cWang等人2023a。针对推荐系统的多任务学习的主要目标是通过促进相关任务之间的交互来提高推荐准确性和/或其他相关方面。学习优化过程需要在不同目标之间进行权衡。例如Wang等人2023b微调参数以优化和平衡主题级别推荐、语义级别推荐和主题学习的整体目标。类似地在Wang等人2022c的工作中作者采用了一个参数要求在生成对话目标和引文推荐目标之间实现平衡学习。Yang等人2022a提出了一个对话式推荐框架包含一个生成模块和一个推荐模块。整体目标设计是通过微调过程学习一个参数来平衡这两个模块。然而不适当的优化可能会导致其他问题正如Deng等人2023指出的当按顺序解决多个任务时可能会出现“错误传播”导致每个任务的顺序完成时性能下降。虽然已经提出了一些潜在的解决方案Deng等人2023Li等人2022Geng等人2022a但仍需要进一步验证。
在推荐基础中选择多个PLM。随着变分PLM例如ChatGPT的进步以及它们在各种下游任务中的成功研究人员已经开始探索ChatGPT在对话式推荐任务中的潜力。例如Liu等人2023a和Gao等人2023研究了基于GPT-3/GPT-3.5的ChatGPT在零样本场景中的能力使用人工设计的提示来评估其在评分预测、顺序推荐、直接推荐和解释生成方面的性能。然而这些研究只是初步的探索还需要在基于各种预训练语言模型的不同推荐任务上进行更广泛的研究。这包括在不同领域中进行提示设计和性能评估。此外最近的LMRS研究尚未探索指令调优这可能是未来研究的一个有前景的方向。
隐私问题。Yuan等人2020b进行的研究揭示了预训练模型可以基于学习到的用户表示推断用户的个人信息如性别、年龄和婚姻状况这引发了对隐私保护的关注。预训练过程通常在大规模的网络抓取语料库上进行没有进行细粒度的过滤这可能暴露用户的敏感信息。因此开发在隐私保护和高性能推荐算法之间取得平衡的LMRS仍然是一个悬而未决的问题。
02
Foundation Models for Recommender Systems: A Survey and New Perspectives
摘要
最近基于Foundation Models (FMs) 的推荐系统FM4RecSys在推荐系统领域提供了独特的机会这些模型具有丰富的知识库和复杂的架构。本文试图全面地研究基于FM的推荐系统。首先回顾了FM4RecSys的研究背景。然后提供了现有FM4RecSys研究工作的系统分类可以分为数据特征、表示学习、模型类型和下游任务四个不同的部分。每个部分中回顾了最近的关键研究进展概述了代表性模型并讨论其特点。此外详细阐述了FM4RecSys的开放问题和机遇旨在为未来的研究方向提供启示。最后讨论了这一领域的新兴趋势。
引言
推荐系统RSs根据个性化偏好量身定制内容和体验越来越多地为业务增强和决策过程做出贡献。与此同时基础模型FMs在自然语言处理、计算机视觉和多模态任务等领域取得了重大进展。最近FMs已经在重塑推荐系统架构、提高性能和提供新的交互方式方面发挥作用。具有增强泛化能力的基础模型推荐系统能够利用更复杂的用户-物品信息并处理更多样化的推荐系统任务。具体而言FM4RecSys是指利用预训练和推荐数据集的知识捕捉用户偏好、物品特征和上下文变量的丰富表示以提高个性化和预测准确性。接下来探讨现有工作的动机以加深对在这一背景下应用和影响基础模型的理解。
1.1 动机
以下列举了推动FM4RecSys研究在不断发展的领域中的主要动机。
增强泛化能力。Foundation Models旨在从大规模数据中学习使它们能够理解复杂的模式。FMs在面对新的、未知的数据时能够更好地进行泛化。在推荐系统的背景下这意味着FMs能够更准确地预测用户的偏好和行为特别是在数据稀疏或新物品的情况下。通过从有限的信息或交互中推断用户的偏好或物品特征推荐可以变得更加有效即使对于新用户或物品也是如此。
提升推荐体验。Foundation Models为推荐系统引入了一种变革性的界面范式极大地改变了用户的交互体验。例如对话式推荐系统是一个经典的应用场景先前的CRSs 主要依赖于预先建立的对话模板这种依赖通常限制了用户参与的广度和适应性。相反FMs引入了一种向更动态、非结构化对话交互的范式转变提供了增强的互动性和灵活性。这种交互式设计可以实现更有吸引力和自然的用户与系统之间的交互。用户可以以对话的方式沟通他们的偏好、提问并获得定制的推荐。
改进解释和推理能力。Foundation Models增强了解释和推理能力。传统的推荐系统主要从用户评论或基本的用户行为如共购买的物品或同伴购买中获得解释这些解释往往缺乏深入的逻辑和上下文。相比之下Foundation Models具有利用常识和用户特定上下文进行丰富解释的能力。这些模型利用包括用户偏好、历史交互和独特物品特征在内的各种数据生成更连贯和逻辑合理的解释。利用Foundation Models来深入解释用户行为序列和兴趣可以显著提高未来推荐系统在复杂场景中的效果。这种方法有望在医学和医疗保健等领域推进明智和负责任的决策过程例如治疗和诊断推荐。
1.2 与最近的基于LLM的
推荐系统综述相比的显著特点
差异和主要贡献与先前的综述相比本文的方法论为研究FM4RecSys的交叉领域引入了独特的视角。图1所示系统地概述了在推荐系统中使用Foundation ModelsFMs的框架FM4RecSys涵盖了从推荐数据的特征到具体的下游任务的所有内容。我们、对FM4RecSys进行分类的方法是双管齐下既关注所使用的模型类型又关注推荐任务本身。这份综述不仅涵盖了大型语言模型LLMs还包括了更广泛的基础模型。我们进一步深入探讨了这一领域中最新未解决的问题和潜在机会。 FM4RecSys的研究进展
3.1 数据特征与表示学习
在基于基础模型之前的推荐系统中推荐系统主要依赖于使用一位有效编码one-hot encoding表示的用户和物品表示。随着FM4RecSys的出现推荐系统开始更多地采用多样化的输入如用户个人资料、物品的附加信息以及维基百科等外部知识库以提高推荐性能。具体而言许多研究 [Bao等2023c; Hua等2023b] 表明构建基于FM的推荐系统的关键在于弥合FMs的预训练和推荐任务之间的差距。为了缩小这一差距现有的工作通常将推荐数据表示为自然语言以便在FMs上进行微调[Zhu等2023]。在这个过程中每个用户/物品由一个唯一的标识符表示例如用户个人资料、物品标题或数字ID然后用户的历史交互被转换为标识符的序列。可以对这些标识符进行微调以学习它们在推荐任务中的表示能力。当前的推荐数据表示方法可以分为基于ID的表示、多模态表示和混合表示。
在FM的背景下最近的关于基于ID的表示的研究利用像[前缀][ID]例如user 123或item 57这样的数字ID来表示用户和物品有效地捕捉到物品的唯一性[Geng等2022; Hua等2023c]。然而数字ID缺乏语义信息无法充分利用FMs中的丰富知识。此外FMs需要足够的交互来微调每个ID的表示限制了它们在大规模、冷启动和跨领域推荐中的泛化能力。此外ID索引需要更新词汇表以处理词汇外OOV问题并且需要对FMs的参数进行更新这会带来额外的计算成本突显了对更具信息性的表示的需求。
一个有希望的替代方法是利用多模态附加信息包括利用图像[Sarkar等2023]如物品的视觉信息、文本内容[Li等2023a; Zhang和Wang2023]包括物品的标题、描述和评论、多模态元素[Shen等2022; Youwang等2022]如短视频片段和音乐以及外部知识源[Zhai等2023; Xi等2023]如维基百科中详细描述的物品关系。Yuan等人[2023]强调了基于多模态的推荐系统相对于基于ID的对应方法的优势引起了人们的关注。
然而纯物品附加信息和用户-物品交互之间的一致性可能并不总是存在[Zhu等2023; Liao等2023]。换句话说具有相似视觉或文本特征的两个物品可能与用户具有不同的交互模式。因此利用混合表示的另一种方法是将ID和多模态附加信息相结合以实现独特性和语义丰富性的双重目标。例如TransRec [Lin等2023d]利用多方面的标识符结合ID、标题和属性实现了物品表示中的独特性和语义丰富性。CLLM4Rec [Zhu等2023]通过硬提示和软提示通过扩充FMs的词汇表并对用户/物品ID标记进行对齐并结合用户-物品评论文本信息实现了用户/物品协同信息和内容语义的准确建模。
3.2 FM4RecSys的分类框架
图2呈现的FM4RecSys分类框架的结构化概述是按照模型类型进行组织的。与早期关注LLMs的调查不同该框架扩展到包括对最新语言基础模型用于推荐系统RS的讨论以及关于基于多模态FM的系统和在RS中使用FM的个性化代理的额外研究。这种更广泛的涵盖范围能够更全面地了解当前基于FM的RS领域的现状和潜在进展。 语言基础模型用于RecSys、
语言基础模型用于RecSys是FM4RecSys的主要分支重点关注预训练和直接微调的模型以及提示技术。
FM4RecSys的预训练模型。一些工作在大规模推荐数据集上对整个模型进行预训练采用基于Transformer的模型进行下一个物品预测并应用不同的语言建模任务如掩码语言建模、排列语言建模等。这一系列的研究通常需要大量的领域数据用于推荐系统导致训练成本高昂。
FM4RecSys的直接微调模型。一系列的工作采用经过微调的FM作为推荐系统。InstructRec [Zhang等2023e]为微调设计了丰富的指导包括39个手动设计的模板涵盖了用户的偏好、意图、任务形式和上下文。在指导微调之后LLMs可以理解和遵循不同的推荐指导。TallRec [Bao等2023b]使用了一种参数高效的微调方法LoRA [Hu等2022]用于处理LLMs的两阶段微调。首先在Alpaca的通用数据上进行微调然后再利用用户的历史信息进行进一步微调。它将物品标题作为输入并在冷启动推荐中显示出有效性。BIGRec [Bao等2023a]强调LLMs由于固有的语义偏见很难整合诸如流行度和协同过滤等统计数据。为了解决这个问题BIGRec通过指导微调LLMs来生成代表物品的标记。然而由于LLMs的创造性特质将LLM的输出与现实世界的物品对齐是具有挑战性的。BIGRec随后通过融入诸如物品流行度等统计数据将这些生成的标记与推荐数据库中的真实物品对齐。
FM4RecSys的提示技术。另一种方法是采用非微调的范式其中LLM的参数保持不变重点是使用提示策略提取知识。现有的非微调范式的工作主要集中在设计适当的提示来激发LLM的推荐能力。Liu等人[2023b]提出了一个提示构造框架评估ChatGPT在五个常见推荐任务上的能力并为每种类型的提示提供了零样本和少样本版本。He等人[2023b]不仅使用提示来评估LLMs在序列推荐上的能力还引入了以最近为重点的提示和上下文学习策略以缓解LLMs的顺序感知和位置偏见问题。最近一些工作 [Xu等2024] 还专注于为FM4RecSys设计新颖的提示结构。Yao等人[2023]包括自然语言中的物品属性、通过文本模板呈现的协同过滤信息以及知识图谱推理路径等启发式提示。类似地Rahdari等人[2023]设计了层次提示结构其中包含了关于推荐物品和用户交互历史中前k个相似物品信息的信息。
个性化代理用于RecSys的基础模型
个人代理通常被表示为用户模拟器或推荐系统本身如图3所示。 代理作为用户模拟器。使用代理来模拟现实世界中的用户行为。收集足够数量和高质量的用户行为数据是昂贵且伦理复杂的。此外传统方法 [Zhu等2017Ie等2019] 在模拟复杂用户行为方面往往存在困难而基础模型在模拟用户行为方面显示出潜力 [Wang等2023b]。因此采用由基础模型驱动的个性化代理用于RS成为一种合乎逻辑且有效的策略。Wang等人[2023b]将每个用户视为FM为基础的自治代理放置在名为RecAgent的虚拟模拟器中。该模拟器允许不同代理之间的自由互动、行为和演化考虑到不仅是RS内的行为如物品浏览和点击还包括社交互动等外部因素。张等人[2023a]进一步研究了基于FM的生成代理在电影RS中能够准确模拟真实人类行为的程度。他们设计了Agent4Rec一个推荐系统模拟器其中有1,000个由LLM驱动的生成代理以页面为单位与个性化电影推荐进行交互执行各种动作。之后[张等人2023d]提出了在RS中模拟用户-物品交互的方法将用户和物品都视为代理实现了一种协作学习过程优化了代理之间的交互。
代理作为RecSys。利用基础模型的强大能力包括推理、反思和工具使用进行推荐。Wang等人[2023e]首先引入了一种自我激发的规划算法跟踪代理的所有过去步骤帮助生成新的状态。在每一步中代理回顾之前所采取的所有路径以确定下一步该做什么。这种方法有助于利用数据库、搜索引擎和摘要工具结合用户数据生成定制化的推荐。[Huang等2023]将基础模型作为大脑而推荐模型则作为提供领域特定知识的工具然后基础模型可以解析用户意图并生成响应。他们指定了一组用于RS任务的核心工具——信息查询、物品检索和物品排序并引入了一个候选记忆总线允许之前的工具访问和修改物品候选池。
多模态基础模型用于RecSys
在RecSys中使用多模态基础模型(MFMs)主要有两个主要方向将MFMs作为多模态特征的编码器以及将MFMs集中集成到推荐系统中进行直接的多模态数据处理和推荐生成。
MFMs作为特征编码器。MFMs作为多模态数据的编码器利用其强大的表示和泛化能力来提取推荐所需的特征。例如ViT [Ji等2023]用于提取物品的图像特征CLIP [Wang等2023aZhang等2023b]用于提取图像和文本特征SentenceBert/BLOOM-176B [Shen等2022]用于文本特征DeepSim [McKee等2023]用于音频SlowFast [Shen等2022]用于视频特征。这些方法面临的一个关键挑战是如何弥合预训练的优化目标与下游推荐任务的优化目标之间的差异。
MFMs作为RecSys。Geng等人[2023]引入了VIP5这是他们早期工作的延伸专注于推荐任务中的视觉和文本模态。VIP5结合了多模态个性化提示和参数高效的训练策略其中包括冻结基础P5骨干网络并微调轻量级适配器以提高性能和效率。在同一基础工作的基础上Zhai等人[2023]提出了KP4SR方法利用外部知识库和结构化知识提示来解决顺序推荐系统中的语义鸿沟。在最近的一项研究中Zhou等人[2023b]研究了GPT-4V在以视觉为基础的推荐任务中的应用并评估了其在文化、艺术、娱乐和零售等不同领域的零样本推荐能力。然而作为一项初步研究它面临着一些限制如缺乏定量评估、样本偏差和潜在的响应不一致性。
3.3 FM4RecSys的应用
Top-K推荐任务
Top-K推荐任务本质上是一种排序任务。然而如果用户信息包括元信息和物品交互历史过长可能会超过基础模型的输入长度限制。为了解决这个问题可以在FMs中使用基于ID表示的方法[Hua等2023c]。基础模型使用仅包含用户信息的提示要求基础模型直接为这些用户生成推荐[Xu等2023bGeng等2022]。在多模态和生成表示方法的情况下生成的推荐物品可以与排名候选物品的多模态表示进行相似性计算[Liu等2023e]。此外一些方法[Li等2023dDai等2023]采用了NLP领域的做法。他们选择K个负样本或难例将它们与用户提示一起提供给FMs并获得最终的排序结果。然而这些方法针对的是理想化的实验场景可能对于拥有数百万个物品的真实世界推荐系统来说并不实际。
基于上下文感知的推荐系统中的FM
已经提出了各种基于FM的方法来利用它们在上下文感知推荐领域的能力。基于FM的世界知识不仅可以作为物品的丰富背景信息的来源[Harte等2023]而且FM的推理能力可以增强下一个物品的预测[Xi等2023Wang等2023f]。[Harte等2023]首先探索了三种不同的利用基础模型知识进行上下文感知推荐的方法基于FM语义相似性的方法、基于FM提示微调的方法以及由FM语义嵌入初始化的BERT4Rec方法。Wu等人[2022]利用用户个人资料知识生成个性化的软提示并采用面向提示的对比学习进行有效训练。
在此之后Zhai等人[2023]引入了用于上下文感知推荐的知识提示微调方法该方法有效地将外部知识库与FM集成通过将结构化知识转化为提示来缩小语义差距和减少噪声从而改进推荐结果。最近Liao等人[2023]采用了一种混合方法来表示FM的输入提示中的物品将传统推荐系统中基于ID的物品嵌入与文本物品特征相结合通过适配器来弥合传统推荐系统和FM之间的模态差距并促进将用户行为知识转移到FM的输入空间。同时Wang等人[2023f]利用基础模型(FMs)的推理能力引入了一种协同上下文演示检索方法抽象出高层次的用户偏好并减少噪声以改进推荐过程而无需对FM进行微调。
交互式推荐中的FM
交互式推荐的目标不仅是在多轮交互中向用户推荐物品还要提供人类般的回应用于偏好细化、知识讨论或推荐解释等多种目的[Jannach等2022Sun和Zhang2018]。FM的出现无疑对交互式推荐产生了影响特别是与CRS相关的研究。He等人[2023]提供了实证证据表明即使在零-shot设置下FM甚至在没有进行微调的情况下也能超越现有的对话式推荐模型。在此之后一系列工作[Liu等2023aLin和Zhang2023Wang等2023eSpurlock等2024]采用角色扮演提示来指导ChatGPT/GPT-4模拟用户与对话式推荐代理的互动。这些工作通过RAG和Chain-of-ThoughtCoT等技术增强了FM的能力。同时还有几项研究基于先前的知识图谱交互式推荐工作[Zhou等2020]。例如Wang等人[2021]引入了一个将类似DialoGPT的PLM与知识图谱集成的框架用于生成对话并推荐物品展示了如何利用FM的生成能力进行交互式推荐。Zhang等人[2023]探索了以用户为中心的方法强调通过基于图的推理和强化学习来适应FM对用户不断变化的偏好。最近Wang等人[2023c]批评了当前交互式推荐系统的评估协议并引入了一种基于FM的用户模拟器方法iEvaLM显著提高了评估准确性和可解释性。然而FM用于交互式推荐仍然受到对流行度偏见的倾向以及对地理区域的敏感性的限制。
FM4RecSys中的跨领域推荐
在现实世界的场景中数据稀疏性是协同过滤Collaborative FilteringCF推荐系统中普遍存在的问题因为用户很少对广泛范围的物品进行评分或评论尤其是新物品。跨领域推荐Cross-domain recommendationCDR通过利用来自已知源领域的丰富数据来增强数据稀缺目标领域中的推荐。多领域推荐Multi-domain recommendationMDR通过利用多个领域的辅助信息来为特定用户推荐这些领域内的物品[Zhu等2021]。然而领域冲突仍然是一个重要的障碍可能限制推荐的有效性。基于在各个领域上进行广泛预训练的基础模型的出现以及具有跨领域类比推理能力[Hu等2023]为应对这些挑战提供了有希望的解决方案。
HAMUR [Li等2023c]设计了一个领域特定的适配器集成到现有模型中并设计了一个领域共享的超网络动态生成适配器参数以解决先前模型中的相互干扰和缺乏适应性的问题。Tang等人[2023]讨论了在多领域推荐系统中使用FM的应用通过混合不同领域中的用户行为将这些物品的标题信息连接成一个句子并使用预训练的语言模型对用户行为进行建模展示了在不同数据集上的有效性。SR Multi-Domain FM [Gong等2023]利用FM来改进查询和物品的文本特征提高了在新用户或物品场景中的点击率CTR预测。KAR [Xi等2023]进一步利用FM的能力进行开放世界推理和事实知识提取和适应。它引入了一个包含知识推理和生成、适应和后续利用的综合三阶段过程。基于SR Multi-Domain FMUni-CTR [Fu等2023b]采用了一种独特的提示策略将特征转化为FM可以使用的提示序列生成语义表示既捕捉了领域间的共性又通过领域特定网络学习了领域特定的特征。最近Fu等人[2023a]研究了基于适配器的学习在CDR中的有效性该方法旨在利用原始物品的多模式特征如文本和图像进行推荐。他们进行了实证研究对现有的适配器进行了基准测试并考察了影响它们性能的关键因素。
FM4RecSys中的可解释性和公平性
FM4RecSys中的可解释性。增强推荐系统可解释性的常见任务是生成自然语言解释[Zhang和Chen2020]。这涉及指导推荐器或外部模型以句子或段落的形式为特定用户推荐特定物品的原因。例如给定一个用户u和一个物品i模型的任务是生成一个连贯和易于理解的自然语言解释阐明为什么向用户u推荐物品i。一系列的工作使用基于ID的表示并利用提示语如“向用户u解释为什么向其推荐物品i”[Li等2020]。然而仅使用ID作为提示可能导致解释模糊缺乏对推荐的具体方面的清晰度。为了解决这个问题Cui等人[2022]提出在提示中将物品特征作为提示词集成进来旨在更有效地指导模型进行解释过程。最近Liu等人[2023d]利用连续的提示向量而不是离散的提示模板。值得注意的是发现在上下文学习而无需微调的情况下ChatGPT的性能超过了几种传统的监督方法[Liu等2023a]。
FM4RecSys中的公平性。在推荐系统中公平性的必要性源于其在决策和满足用户需求方面的广泛应用。然而目前尚存在一个问题即不了解基础模型在推荐系统中表现出的公平程度以及在这些模型中公平地满足不同用户和物品群体需求的合适方法[Hua等2023aZhang等2023c]。对于用户群体方面Hua等人[2023a]基于反事实公平提示CFP技术提出了用于公平感知推荐的无偏基础模型UP5。之后Zhang等人[2023c]设计了度量标准和数据集考虑了两个推荐场景音乐和电影中不同敏感属性并评估了ChatGPT在用户方面的公平性关于各种敏感属性。对于物品方面Hou等人[2023b]通过提示指导FMs将推荐任务形式化为条件排名任务以改善物品方面的公平性。关于FM4RecSys中的非歧视和公平性的研究还处于早期阶段需要进一步的调查研究。
开放问题和机会
4.1 FM4RecSys中的长序列
FM4RecSys在处理长输入序列时面临挑战这是由于它们固定的上下文窗口限制所导致的这影响了它们在需要大量上下文的任务中的有效性[Kitaev等2019Beltagy等2020]例如上下文感知推荐。上下文感知的推荐系统依赖于用户的全面交互历史和广泛的物品排名列表往往超过了FM的上下文容量导致推荐效果较差。正在探索从自然语言处理NLP技术中进行的调整包括对输入进行分段和总结以适应上下文窗口并采用注意机制和记忆增强等策略以增强对输入的相关部分的关注。RoPE技术[Su等2024]通过创新的旋转位置嵌入在处理长输入方面显示出潜力并为在FM的上下文窗口约束下保持推荐系统性能提供了潜在的解决方案。
4.2 可解释性和可信度
在推荐系统中增强可解释性和可信度始终是一个重大挑战尤其是在FM时代。FM的复杂性和规模为解释FM4RecSys引入了新的障碍。推荐系统中有两种主要的可解释性方法一种是生成推荐的自然语言解释另一种是深入研究模型的内部工作原理。前一种方法在FM之前已经进行了相当多的探索[Zhang等2020]而后一种方法的发展较少。还有一些工作[Rahdari等2023Wang等2023d]将FMs如提示与显式知识库如知识图谱进行对齐。这种对齐可以使模型的决策过程在知识图谱中成为可追踪的特定路径提供更清晰的解释。然而这些方法仍处于初步阶段可能通过Chain/Tree of Thoughts等技术进一步增强。
4.3 时间推断
最近的研究[Jin等2023]表明FM可以以零样本的方式推广时间序列数据其性能与在特定任务上训练的专门模型相当或优越。这一成功主要归功于FM捕捉多模态分布的能力以及其对简单性和重复性的倾向这与时间序列数据中常见的重复和季节性趋势相 resonates。时间序列建模与其他序列建模不同因为它具有可变的尺度、采样率和偶尔的数据缺失尚未充分受益于大规模预训练。为了解决这个问题LLMTIME2 [Gruver等2023]通过将时间序列编码为数字字符串并将预测视为下一个标记预测任务利用LLMs进行连续时间序列预测。这种方法将标记分布转化为连续密度使LLMs可以轻松应用于时间序列预测无需专门的知识或高计算成本特别适用于资源有限的情况。此外通过将用户偏好数据视为时间序列序列这些模型可以灵活适应偏好的长期变化并随着时间的推移提高个性化和预测准确性特别是在LLMTIME2等方法的零样本能力下可以快速适应用户偏好的变化无需进行大量的重新训练。
4.4 RecSys的多模态Agent AI
多模态Agent AI [Durante等2024]是一个新兴领域专注于能够在各个领域和应用中感知和行动的AI系统。为了实现基于对周围世界的多模态理解的智能Agent AI系统利用各种生成模型和数据源进行与现实无关的训练。这些系统可以在物理和虚拟环境中具体化使它们能够处理视觉和上下文数据理解用户的行为和行为并产生有意义的回应。在推荐系统的应用中代理可以根据对用户偏好的推断来决定推荐什么。代理还可以更加交互以利用来自用户或环境的实时响应或反馈来调整推断并改进推荐。特别是它们不仅可以作为推荐系统的模拟器还可以作为用户的模拟器。这种方法允许在离线环境中进行数据收集和训练降低了在现实世界中进行A/B测试的成本。它可以扩展到更广泛的用户范围例如在路径规划推荐和医药发现和推荐等应用中。
4.5 RAG与推荐系统相结合
检索增强生成Retrieval-Augmented GenerationRAG是一种在FM中使用的技术通过将外部数据检索集成到生成过程中增强了其生成能力[Gao等2023b]。这种方法提高了FM输出的准确性、可信度和相关性尤其在信息检索和推荐系统等知识密集型任务中。RAG旨在通过将FM的内部知识与动态外部知识库相结合解决过时的知识、生成不正确的信息幻觉和有限的领域专业知识。RAG适用于增强FM4RecSys在现实世界的推荐系统环境中对用户行为序列进行建模[Lin等2023c]。它可以确保推荐系统与用户偏好和趋势的持续变化保持最新这对于准确识别和记录长期行为模式至关重要。例如考虑到FMs的输入标记长度限制RAG可以用于选择性地提取用户交互历史的相关部分和相关的外部知识从而符合模型的输入约束。此外RAG可以减少产生不相关推荐或不存在的项目幻觉的可能性从而提高FM4RecSys的可靠性。
4.6 系统性能分析
在基于FM的推荐系统的开发中一个关键方面是成本评估这取决于训练和推断阶段中数据和模型选择的不同[Bommasani等2021]。训练阶段的成本包括推荐模型的预训练、微调和算法开发等费用复杂性和对专业工程的需求可能会增加开销。在推荐推断阶段成本以系统维护、更新和基于API的服务提供的计算需求的形式持续存在。例如像OpenAI的GPT-3/4 [Brown等2020OpenAI2023]这样的系统与API使用和标记交互相关的成本会随着更复杂或更广泛的使用而升高。此外RAG工具的引入还可以通过扩展提示长度和因此处理的标记数量增加来进一步提高费用从而导致更高的API费用。此外通过微调进行定制化也会增加总体费用。 FM4RecSys中的效率问题是一个实际挑战直接影响系统性能和资源利用。参考表1我们概述了针对性的解决方案
1降低训练成本对于在推荐系统中的预训练或微调基础模型需要精心选择最具信息量和多样性的数据以便模型能够高效捕捉关键的用户-物品交互模式和特征并加速学习过程[Glass等2020Xie等2023]。此外采用技术[傅等2023a]如LoRA [Hu等2022]和LoftQ [Li等2023e]进行微调有助于管理内存使用和减少训练时间。
2降低推断延迟FM推断的计算需求是显著的。采用预计算的嵌入缓存[Hou等2023aHarte等2023]例如VQ-Rec或LLM4Seq等策略可以加快推断速度从而提供一定的缓解。类似地通过蒸馏[Jiao等2020]、修剪[Chen等2020]和量化[Lin等2023a]等方法来压缩模型大小可以改善内存成本和推断速度。
3降低API成本在基于FM的API推荐系统中通过使用选定的数据点的选定集可以提高微调效率[Chen等2023]。此外通过使用提示生成或压缩等方法来改进提示工程可以使FM输入更加高效使提示更加简洁或更加贴合尽管收益应在现实的期望范围内考虑。此外利用RAG增强基于API的推荐系统可能会导致额外的上下文长度特别是在将更长的物品描述作为提示输入时。因此在这种情况下采用自适应RAG[Mallen等2023]也是降低API成本的有效方法。
4.7 基准测试和评估指标
刘等人[Liu et al., 2023b]在五个推荐系统任务上使用定量和定性方法对四个最先进的大型语言模型LLMs进行了基准测试。然而他们只关注特定的LLMs如ChatGPT和ChatGLM并且由于计算成本高昂实验仅限于亚马逊美容数据集。因此由于推荐系统具有特定领域的特性需要更多的数据集、推荐任务和评估指标来创建一个更统一的基准。此外对于多模态和个性化代理FM为推荐场景专门设计新的基准测试和评估指标是必要的。总之为了全面评估和提升基于FM的推荐系统的性能需要一个全面而多样化的基准测试。这样的基准测试应该包括各种数据集、多样化的推荐任务和适用于不同模型的指标。
4.8 对新兴趋势的讨论
在FM4RecSys环境中FM的出色理解和生成能力可能成为一把双刃剑。
从安全性的角度来看FM容易受到红队攻击的威胁恶意行为者可以通过构造有害提示来操纵模型生成不良内容。这些内容可能涉及欺诈或种族主义材料、错误信息或不适合年轻受众的内容可能会造成重大的社会危害并使用户处于风险之中[Deng等2023]。因此在FM4RecSys的背景下特别是在使用会话界面时将FM与人类价值观保持一致变得至关重要。这种对齐包括收集相关的负面数据并采用监督式微调技术如在线和离线的人类偏好训练[Wang等2023gXu等2023a]。这些方法可以帮助改进模型使其更加贴合人类的指令和期望确保FM4RecSys生成的内容是安全、可靠和符合伦理的。
从隐私的角度来看如果FM直接在大量敏感用户交互数据上进行训练第三方可能会利用提示注入等方法来访问特定用户的交互历史从而构建用户画像。在这种意义上将联邦学习[Yu等2023]和机器遗忘[Chen等2022]等方法引入FM4RecSys代表了未来的一个有前途的方向可以提高隐私保护能力。