网站建设与管理任务分工,深圳福永做网站,品牌建设经费投入占销售比重,标签系统做的好的网站PaperWeekly 原创 作者 | 王锦鹏 单位 | 清华大学深圳国际研究生院 研究方向 | 多模态检索、推荐系统 序列推荐是一种主流的推荐范式#xff0c;目的是从用户的历史行为中推测用户偏好#xff0c;并为之推荐感兴趣的物品。现有的大部分模型都是基于 ID 和类目等信息做… ©PaperWeekly 原创 · 作者 | 王锦鹏 单位 | 清华大学深圳国际研究生院 研究方向 | 多模态检索、推荐系统 序列推荐是一种主流的推荐范式目的是从用户的历史行为中推测用户偏好并为之推荐感兴趣的物品。现有的大部分模型都是基于 ID 和类目等信息做推荐在可扩展性和迁移性方面存在劣势。近期的一些工作如 UniSRec [1]、VQ-Rec [2]、RecFormer [3] 等提出使用文本内容学习通用的物品和序列表征打开了结合内容分析的序列推荐的新研究点。 虽然文本信息能部分反映物品信息以及用户偏好但推荐场景的需求经常是多模态的比如在商品和短视频推荐中图文信息都会影响用户的行为如浏览、购买。多模态信息是否有助于序列推荐怎么利用多模态信息挖掘个性化偏好这些目前还都是待探究的问题。 在下面这篇论文中来自清华和华为的研究者针对这些问题提出了兴趣感知的多模态序列推荐预训练方法为多模态序列推荐任务提供了一种通用的解决方案。 论文题目 MISSRec: Pre-training and Transferring Multi-modal Interest-aware Sequence Representation for Recommendation 收录会议 ACM MM 2023 论文链接 https://arxiv.org/abs/2308.11175 代码链接 https://github.com/gimpong/MM23-MISSRec 背景 序列推荐是一个自回归的预测任务根据用户的历史行为如浏览序列预测用户下一个行为如可能浏览的物品。典型的序列推荐模型如 SASRec [4]、BERT4Rec [5] 等大部分基于 ID 和类目等信息学习物品和用户行为序列的表征存在以下问题 1. 少见物品的表征学习欠拟合具体表现是在长尾物品上推荐效果差 2. 可扩展性较差加入新的物品后存在冷启动问题 3. 在一个领域上训练完成的模型难以迁移到其他领域。更普遍地当 ID 集合完全不相交时各个领域就形成一座座“数据孤岛”——即便模式相似知识也难以迁移。 为了解决上述问题我们的目光不再局限于依据 ID 信息来表征物品和序列而是从物品多模态内容入手建模个性化。我们的直觉是用户的决策是一个综合了多模态信息处理的过程。例如对于商品的图文介绍贴合需求的标题描述和精美的图片都可能吸引用户的关注。因此我们认为多模态信息的有助于准确地描述物品和用户偏好并且该信息基本不受热度频次影响。 此外使用多模态信息的另一优势是跨场景的通用性。只要能获取到物品的描述文本、图片等元数据我们就可以统一多场景的训练和推荐服务。如图 1 所示我们期望借鉴 CV 和 NLP 的成功经验通过预训练技术发掘蕴含在多模态信息中的领域通用的个性化模式并通过微调实现推荐知识的高效迁移达到多领域“共同提升”的效果。 ▲ 图1从单领域训练转变为多领域数据联合训练每个圆圈代表一个推荐领域或场景。使用多模态信息可以将多个推荐领域的数据联合起来预训练再通过微调模型适配到具体领域这样做相比单领域训练有 “112” 的潜力。 对于这样一个目标我们认为挑战主要有两点如图 2 所示1不同用户对物品的多模态信息关注度不同比如在商品推荐中不同用户对文本和图片的关注程度可能不同2用户的历史序列可能同时刻画了多种类型的偏好且不同偏好的占比是不均衡的。比如在购物平台上食物或日用品的购买次数可能比较多而笔记本电脑等数码产品则一般相对较少。 ▲ 图2多模态序列推荐的挑战说明。a不同用户对不同模态的关注度有差别。b在用户的行为序列中可能包含多种偏好且不同偏好的占比不同。 方法 针对上述挑战我们提出了一个兴趣感知的多模态序列推荐预训练方法称为 MISSRec (Multi-modal IntereSt-aware Sequence representation for Recommendation)。 2.1 模型总览 ▲ 图3模型框架图 如图 3 所示MISSRec 包含了 “ID 无关的多模态预训练”以及“参数高效微调”两个阶段。在模型设计上我们搭建了一个包含编码器和解码器的 Transformer 模型用于行为序列表征并设计了多模态适配器、多模态兴趣发现模块等组件辅助建模。 给定一个行为序列其中每个元素是一个物品。序列表征模型的工作流程是 从行为序列中提取多模态信息使用冻结的预训练的 CLIP 提取每个物品的文本和图片特征并使用 Dropout 处理。分别使用文本和图片的特征适配器将特征投影到推荐任务的语义空间并通过相加或者拼接的方式形成多模态 token 序列从行为序列中提取用户的多模态兴趣表征得到多模态 token 序列后使用一个多模态兴趣发现模块Multi-modal Interest Discovery Module将多模态 token 序列转换为多模态兴趣 token 序列编码多模态兴趣的上下文表示将多模态兴趣 token 序列送入 Transformer 编码器模块获取多模态兴趣的上下文表示作为解码模块的 memorykey 和 value兴趣感知的解码将多模态 token 序列作为解码的 query送入 Transformer 解码器模块以序列末尾位置的输出作为整个序列的表征。 2.2 多模态兴趣挖掘 为了分析用户的多模态兴趣偏好我们在整个物品集合的多模态token空间中进行聚类选择的聚类算法名为 DPC-KNN [6]。 具体来说假设整个多模态 token 集合记为 。我们首先计算每个 token 的局部密度分数以第 个 token 为例计算方式如下 其中 表示 的 近邻集合。其次我们计算每个 token 到密度峰值的最小距离以第 个 token 为例计算方式如下 上述公式的含义是如果存在密度分数比自身大的 token 存在那么返回符合条件的最小距离否则返回到集合中任一点的最大距离。选择聚类中心的依据是挑选分数 最大的 k 个 token 作为 k 个聚类中心。在 MISSRec 的设定中聚类中心代表多模态兴趣的原型表征。 确定聚类中心后我们记录集合 中的每个 token 被分配到哪个聚类中心存储为映射表代表每个 token 分别反映了用户的何种兴趣。在我们的实现中多模态兴趣挖掘在每个训练 epoch 的启动前执行一次即多模态兴趣的原型表征和映射表会在每个 epoch 启动前更新一次。 在序列表征模型的工作流程中多模态兴趣发现模块负责将多模态 token 序列转化为多模态兴趣 token 序列。转化的方式是收集整个序列的兴趣映射结果并去重返回原 token 序列包含的兴趣的原型表征如图 4 所示。去重的目的是消除兴趣比例不均衡的影响。 ▲ 图4多模态兴趣发现模块的工作方式 2.3 自适应的用户-物品多模态匹配 在计算用户-物品的匹配分数时我们设计了一种自适应的多模态融合机制以建模不同用户对物品多模态信息的差异化关注。 记 是第 个用户的序列表征 和 分别是第 个物品的文本 token 和图片 token。用户个性化的物品表征通过以下方式计算 其中 是一个可学习的控制系数。我们简记 和 分别为用户和物品单模态的匹配分数。相应地用户-物品整体的匹配分数计算方式是 注意到这种自适应的机制等价于提前先计算用户-物品单模态的匹配分数再进行融合。融合的方式介于取平均和取最大之间。 2.4 优化目标 预训练的任务包含序列-物品匹配的对比学习、序列表征自监督对比学习、多模态兴趣表征的多样性正则。预训练的损失函数计算如下 为了提高微调阶段的训练效率我们去掉了序列的自监督表征训练损失函数计算如下 此外我们仅微调多模态特征适配器模型的其余部分保持冻结以达到参数高效性。 实验分析 3.1 数据集 我们选用 Amazon Review 数据集进行实验在其中选取了 Food、CDs、Kindle、Movies 和 Home 这 5 个领域作为预训练数据集选取 Scientific、Pantry、Instruments、Arts 和 Office 这 5 个领域作为下游微调数据集。数据集的统计信息见 Table 1。 该数据集在元数据中提供了物品的标题、类目等文本信息并提供了图片链接。我们根据链接下载了部分图片其余图片由于链接失效或网络问题未能爬取到。可以观察到图片模态的缺失比较严重我们选择保留这些缺失模态的物品而不是过滤它们目的是和现有方法公平对比。 我们使用预训练的 CLIP-ViT-B/32 模型抽取文本特征和图片特征相关数据我们也已在开源仓库中共享。 3.2 实验结果 我们对比了 MISSRec 和使用多种不同信息的序列推荐基线。如 Table 2 所示MISSRec 有非常强的竞争力在大多数领域的大多数指标上超越了现有方法在剩余部分指标上也达到了和最先进方法相当的水平证明了多模态信息的有效性以及 MISSRec 的优势。 我们还研究了不同模型在低频物品上的表现。如 Figure 4 所示横轴表示物品在训练集中的出现频次的区间灰色直方图表示物品在测试集上的总出现频次样本数折线图表示在测试集上的相对的召回性能以 SASRec为基准。从图上可以看出 MISSRec 在长尾、冷启动物品上的显著优势侧面证明了多模态信息在推荐中的价值。 我们还探究了在下游目标领域结合使用 ID 信息的效果以及预训练的影响。如 Table 4 所示首先可以观察在下游结合 ID 信息的增益特别是在物品数量更多的 Office 数据集上。我们认为的原因是多模态信息反映物品的属性刻画的是物品间的可迁移的共性“哪一类”而 ID 信息则刻画物品特性“哪一个”。随着物品增加物品间的辨识难度提升于是在表征中建模特性的需求也相应增加。 此外预训练在大多数情况下可以提升下游领域的推荐效果但在某些设定下MISSRec 的迁移效果仍然不理想比如在 Office 数据集上不使用 ID 信息进行微调出现了负向迁移的现象。除了部分原因是参数高效微调的设定限制了领域适应的效果外还有一部分原因是推荐应用的不同领域间行为模式的差异较大而 MISSRec 的设计还不足以解决这个问题。这是目前留给我们和社区的一个改进目标。 结论 本文的目标是使用多模态信息改善序列推荐的可扩展性和迁移性。我们提出了兴趣感知的多模态序列推荐预训练方法 MISSRec为多模态序列推荐任务提供了一种的通用的解决方案。在 MISSRec 中我们搭建了一个包含编码器和解码器的 Transformer 模型用于行为序列表征并设计了多模态适配器、多模态兴趣发现模块、自适应的用户-物品匹配等组件或机制辅助建模。通过实验我们展示了 MISSRec 的优势和不足。相关代码和预处理数据已经开源便于大家使用。 参考文献 [1] Hou Y, Mu S, Zhao W X, et al. Towards universal sequence representation learning for recommender systems[C]//Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 2022: 585-593. [2] Hou Y, He Z, McAuley J, et al. Learning vector-quantized item representation for transferable sequential recommenders[C]//Proceedings of the ACM Web Conference 2023. 2023: 1162-1171. [3] Li J, Wang M, Li J, et al. Text Is All You Need: Learning Language Representations for Sequential Recommendation[C]//Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 2023: 1258-1267. [4] Kang W C, McAuley J. Self-attentive sequential recommendation[C]//2018 IEEE international conference on data mining. 2018: 197-206. [5] Sun F, Liu J, Wu J, et al. BERT4Rec: Sequential recommendation with bidirectional encoder representations from transformer[C]//Proceedings of the 28th ACM international conference on information and knowledge management. 2019: 1441-1450. [6] Du M, Ding S, Jia H. Study on density peaks clustering based on k-nearest neighbors and principal component analysis[J]. Knowledge-Based Systems, 2016, 99: 135-145. 更多阅读 #投 稿 通 道# 让你的文字被更多人看到 如何才能让更多的优质内容以更短路径到达读者群体缩短读者寻找优质内容的成本呢答案就是你不认识的人。 总有一些你不认识的人知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁促使不同背景、不同方向的学者和学术灵感相互碰撞迸发出更多的可能性。 PaperWeekly 鼓励高校实验室或个人在我们的平台上分享各类优质内容可以是最新论文解读也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个让知识真正流动起来。 稿件基本要求 • 文章确系个人原创作品未曾在公开渠道发表如为其他平台已发表或待发表的文章请明确标注 • 稿件建议以 markdown 格式撰写文中配图以附件形式发送要求图片清晰无版权问题 • PaperWeekly 尊重原作者署名权并将为每篇被采纳的原创首发稿件提供业内具有竞争力稿酬具体依据文章阅读量和文章质量阶梯制结算 投稿通道 • 投稿邮箱hrpaperweekly.site • 来稿请备注即时联系方式微信以便我们在稿件选用的第一时间联系作者 • 您也可以直接添加小编微信pwbot02快速投稿备注姓名-投稿 △长按添加PaperWeekly小编 现在在「知乎」也能找到我们了 进入知乎首页搜索「PaperWeekly」 点击「关注」订阅我们的专栏吧 · ·