当前位置：首页 > news >正文

模板商城建站昆山品牌网站

news 2025/11/15 16:38:28

模板商城建站,昆山品牌网站,怎样建立公司网页,中核集团2023校园招聘信息论文题目#xff1a; A Survey on Knowledge Graph-Based Recommender Systems 论文链接#xff1a; 论文代码#xff1a; 想法出现Refine就是用某些方法更好的优化特征表示embed的意思就是变成低维向量#xff01; 论文摘要难点#xff1a; 当今推荐系统的难点 A Survey on Knowledge Graph-Based Recommender Systems 论文链接论文代码想法出现Refine就是用某些方法更好的优化特征表示embed的意思就是变成低维向量论文摘要难点当今推荐系统的难点数据稀疏和冷启动而基于KG的推荐系统不仅能减轻上面的两个问题同时能提供可解释性。全文内容全文将介绍两个方面一方面我们通过研究论文如何利用知识图进行准确和可解释的推荐来研究提出的算法。另一方面我们介绍了在这些工作中使用的数据集。最后提出了该领域的几个潜在研究方向。 1. Introduction recommender systems分为三类1. CF 2. Content-based recommender systems 3. hybrid recommender CF是基于user或者item的相似性 Content-based则是发掘item的内容属性。所以也就是的CF有自己的优点是能有效的捕获用户的喜好但是存在着冷启动和数据稀疏问题。所以第三种横空出世 KG-based recommender systems可以分为三种 Embedding-based method、path-based method和unified method。 KG可以是一个异构图包含了更多的side information比如用户的社会关系、item属性等。全文我们将讨论这些方法的不同 KG-based recommendation 的可解释性以及通过它们的应用场景进行分类 2. Related work和introduction是一样的 2.1 Knowledge Graphs 描述KG的常用方法就是使用RDFResource Description Framework 而KG可以被分为两类 1. cross-domain KGs 2. domain-specific KGs 像Google’s Knowledge Graph和Satori都被嵌入到了搜索引擎前者是Google的后者是Bing的 CN-DBPedia是复旦大学出的是目前中文最大的一个 2.2 Recommender Systems 推荐系统就是给定user u和item i最后来个得分函数查看该item值不值得推送所以主要目标就是学习user、item的表示以及得分函数的选择。到目前为止有三种方式 CFCF主要是将拥有相同交互记录的用户看做是相似的从而进行推荐。交互记录可以是显性的购买、评分和隐形的浏览和点击。 CF可以为了两种方式 memory-based CF 和 model-based CF。 1. memory-based CF就是从交互信息中学习user-user之间的相似性然后彼此推荐内容 2. model-based CF通过建立一个inference model来减轻稀疏问题一种常见的实现是潜在因素模型从高维度的user-item交互矩阵中提取用户与物品的潜在表示然后通过内积或其他方法计算用户与物品之间的相似度。 Content-based Filtering 这里我们是学习user和item的特征表示的其中user的特征表示是由其历史交互信息items得到的而item更多是其属性。所以Content-based Filtering更多是推荐一些过去的相似的items Hybrid Method user-item的交互数据的稀疏同样导致了冷启动问题因为没有数据来学习user和item的特征表示所以我们可以添加side informationcontent-based Filtering 基于user side information主要可以有人口的统计信息包括职业、性别、爱好、用户网络基于item side information主要可以有item attributes包含品牌、类别; 项目多媒体信息如文本描述、图像特征、音频信号、视频特征; 项目评论。 3 OVERVIEW 我们首先给出文中使用的符号和概念以消除误解。 Heterogeneous Information V和E是实体和链接而A和R是实体类型和链接类型这其中需要注意的是有两个函数ϕ\phiϕ和ψ\psiψ可以映射出实体和关系的类型但是并未在图中展示 Knowledge Graph (KG) RDF Meta-path: 用来提取图中的连接性特征用在HINA是实体类型R是关系类型 Meta-graph 是meta-path的多种组合版更有结构性知识图嵌入(KGE) 将图中的实体和关系用一个低维d向量来表示低维嵌入仍然保持了图的固有属性可以通过图的语义或者高阶接近程度来量化 User Feedback 如果是1那么就表示有隐式的交互但是隐式的交互不一定就是对该东西有好感除非有特殊的说明。有些情况下这种显示反馈能表达用户的喜好比如电影的评分很高或者低 H-hop邻居相关的实体给出交互矩阵R和知识图谱Gknow\mathcal{G}_{know}Gknowk−hopk-hopk−hop对于用户u的相关实体可以这样表示其中是用户的历史交互项的集合。 User Ripple Set 用户纹波集定义为头部实体为(k−1)-hop相关实体的知识三元组Euk−1\mathcal{E}_u^{k-1}Euk−1 Entity Ripple Set: 一个实体的波纹集e∈Ge\in\mathcal{G}e∈G被定义为 4 Methods of recommender systems with knowledge graphs 怎么使用KG可以被分成三部分embedding-based methods, path-based methods, and unified methods. 最近可解释性推荐成为了热门话题如果给用户提供适当的解释有助于用户采纳推荐系统产生的建议 4.1 Embedding-based Methods 基于嵌入的方法一般是直接利用KG中的信息来丰富物品或用户的表示。为了挖掘KG信息需要应用知识图嵌入(KGE)算法将KG编码为低秩嵌入。KGE算法可分为两类[98]:翻译距离模型如TransE[99]、TransH[100]、TransR[101]、TransD[102]等语义匹配模型如DistMult[103]。而基于嵌入的方法又可以分为两种有user的KGs和无user的KGs 4.1.1 无User的KGs 无User的KGsKGs中只有items该items graph可以从数据集或者外部知识众包中获得之后通过KGE丰富每个item的内容得到一个低维向量最后融合到我们的推荐系统中。总体而言通过多种来源的特征的融合我们得到item和user的最终向量VjV_jVj和UiU_iUi之后我们通过一个函数得到uiu_iui对vjv_jvj的选择概率其中f(⋅)f(·)f(⋅)可以是inner productDNNetc最后我们通过得分来进行Top-N推荐。举例 CKE模型该模型中一个itemVjV_jVj的向量由各种向量aggregated而成其中第一项从user-item交互矩阵中提取第二项是item的在KGs中通过TransR得到的结构向量第三项是文本特征(text)第四项是视觉特征(visiable) 在获得userUiU_iUi的潜在向量后最终的喜好分数y^i,j\hat{y}_{i,j}y^i,j通过inner product得到uiTvju_i^Tv_juiTvj之后我们通过分数来给用户推荐物品。 DKN模型同样是如何获得item 和 user的特征表示。在该模型中item j的特征由新闻的textual feature和通过TransD得到的knowledge-level feature组成这也就是获得了其高级语义特征VjV_jVj 对于user i的特征则是通过一个注意力机制聚合它的历史点击新闻{V1,V2,...,VNi}\left \{ V_1, V_2, ..., V_{N_i} \right \}{V1,V2,...,VNi}获得这个注意力权重通过下面的式子获得其中VjV_jVj就是我们前面求出的候选新闻的特征 g(⋅)g(·)g(⋅)是DNN层。最后的user embedding uiu_iui通过点击新闻的嵌入的权重和得到最后我们再通过前面的公式得到对该候选新闻的兴趣这里f(⋅)f(·)f(⋅)是DNN层 KSR模型 XXXXX有个图 4.1.2 User-item graph 其它的方法中则是构建异构图也就是建立user-item graph其中users、items和他们相关的属性函数作为结点其中attribute-level relation牌子、类别etc和user-related relationsco-buyco-viewetc都作为边。既然有了图那么就可以获得KG中实体的嵌入那么user i和item j的embedding也可以获得既可以直接通过公式一得到结果也可以添加relation得到分数 CFKG模型这里也是创建一个user-item graph其中user behaviorspurchase、mention会被认为是一种关系类型而item side information的多种类型比如reviewbrand categorybought-togetheretc也都包含在里面为了学习图中的关系和实体的embedding模型中定义了一个metric function d(⋅)d(·)d(⋅)来测量给定关系下两个实体的距离。最后在推荐阶段也是通过距离的上升顺序来进行推荐。其中rbuyr_{buy}rbuy是’buy’关系 SHINE模型将名人推荐任务社交网络中对某个明星的喜爱作为图中实体之间的情感链接推荐任务在该模型中将users和targets名人都嵌入到情感网络GsG_sGs中并利用了他们的社会关系GrG_rGr和档案信息网络GpG_pGp作为辅助信息这三个网络被auto-encoder 技术embedded了分析形成向量之后aggregate后作为user和target的向量最后使用公式一判断兴趣点其中f(⋅)f(·)f(⋅)是一个DNN层。 DKFM模型POI推荐在一个city KG上使用TransE丰富了目的地的特征表示提高了POI效果。原来的工作只是使用经过KGE后的raw vector现在更多的工作在refine 得到的实体的和关系的raw vector KTGANA GAN-based model。第一阶段获取初始user 和 movie的latent vector 其中对于movie vjv_jvj,其潜在向量可以这样得到VjinitialVjk⊕VjtV_j^{initial} V_j^{k} \oplus V_j^{t}VjinitialVjk⊕Vjt 其中VjkV_j^{k}Vjk通过在movie’s KG进行 Metapath2Vec model得到的而VjtV_j^{t}Vjt则是通过在movie’s attributes上进行Word2Vec model得到的同理用户uiu_iui的潜在向量可以这样得到 UjinitialUjk⊕UjtU_j^{initial} U_j^{k} \oplus U_j^{t}UjinitialUjk⊕Ujt 其中UjkU_j^{k}Ujk是uiu_iui的最喜欢的电影的知识嵌入的平均而UjtU_j^{t}Ujt是uiu_iui的tag 嵌入。第二步生成器G和辨别器D被引入来更好的更新user和item的初始向量表示生成器通过得分函数pθ(vj∣ui,r)p_{\theta}(v_{j}\mid u_i,r)pθ(vj∣ui,r)为用户uiu_iui产生相关最喜欢的电影其中r代表了uiu_iui和vjv_jvj的相关性。在测试阶段G尝试让pθ(vj∣ui,r)p_{\theta}(v_{j}\mid u_i,r)pθ(vj∣ui,r)近似于其最喜欢的电影分布ptrue(vj∣ui,r)p_{true}(v_{j}\mid u_i,r)ptrue(vj∣ui,r)以便G可以选择相关的用户电影对。 D是一个二分类器用来区分相关的user-movie对和不相关的user-movie对根据得分函数fϕ(ui,vj)f_\phi (u_i, v_j)fϕ(ui,vj)拍判断。损失函数如下其中表示电影vjv_jvj被用户uiu_iui喜欢的概率。在对抗训练结束后就可以得到最优的uiu_iui和vjv_jvj嵌入表示最后使用生成器G的得分函数pθ(vj∣ui,r)p_{\theta}(v_{j}\mid u_i,r)pθ(vj∣ui,r)得到排名。 BEM模型这里使用了为items准备的两种类型的图 knowledge-related graphitem attributes、brand、categoryetc和behavior graphinteraction-related information co-buy,co-add,co-rate to cart 首先BEM会首先利用TransE和GNN-based model学习初始embedding 然后BEM使用一个贝叶斯框架来refine这两种embedding。推荐可以通过在行为图中找到最接近交互项目的项目来生成这是通过“共同购买”或“共同点击”的关系来衡量的。 4.1.3 multi-task 之后的趋势则是multi-task学习的策略共同在KG-related task的引导下学习推荐任务。第一个任务就是推荐任务推荐任务就是寻找一个函数f(⋅)f(·)f(⋅)该函数可以预测user i 对未知item j的兴趣分而KG-related task则是学习另一个函数g(eh,r,et)g(e_h, r, e_t)g(eh,r,et)来决定(eh,r,et)\left (e_h, r, e_t \right )(eh,r,et)在KG中是一个有效的三元组。这样两部分结合就是目标函数其中前者是推荐的loss 函数后者是KG-related task的loss函数λ\lambdaλ是平衡参数。多任务学习的动机是推荐模块中的item embeddings和KG中的关联实体嵌入由相同的特征。 KTUP模型: 也是multi-task共同学习推荐和知识图谱任务。推荐模块的损失函数其中(u,v)(u, v)(u,v)是被观察到的user-item对而(u,v′)(u, v^{})(u,v′)是未被观察到的user-item对 ppp代表了user对给定item的喜好程度 f(⋅)f(·)f(⋅)是所提出的translation-based modelTUP建模一个user-item对的正确性对于KG完成模型hinge loss被采纳其中G−\mathcal{G}^-G−是替换了G\mathcal{G}G中的ehe_heh和ete_tetg(⋅)g(·)g(⋅)是一个TransH模型一个更低的g(eh,r,et)g(e_h, r, e_t)g(eh,r,et)值推断出这样一个三元组的更高正确性 [⋅]max(0,⋅)\left [ \cdot \right ] max\left ( 0, \cdot \right )[⋅]max(0,⋅)γ\gammaγ是一个margin参数推荐模块是为挖掘user i对item j的偏好关系而Knowledge completion task则是提取KG中items之间的关系而两者的桥梁就是他们在KG有相对应的实体。两者之间互相传递只是可以丰富item和preference的embedding MKR模型也包含了一个推荐模块和一个KGE模块。前者学习users和items的潜在表示后者则使用语义匹配KGE模型学习关联实体的item 这两部分通过一个crosscompress单元来传递知识 RCF模型它引入了item的层次描述包括关系类型嵌入和关系值嵌入。RCF利用DistMult模型作为KGE来保留items之间的关系结构然后后利用注意机制分别对用户的类型级偏好和价值级偏好进行建模。通过推荐模块和KG关系建模模块的联合训练可以做出像样的推荐。总结大多数基于嵌入式的方法构建具有多种类型的商品侧信息的KGs丰富了商品的表示这些信息可以用来更精确地建模用户表示。有的模型通过将用户引入图中来构建user-item图可以直接对用户偏好建模。entity embedding是基于嵌入方法的核心一些文献利用GAN或BEM对嵌入进行细化以便更好地推荐。基于嵌入的方法从本质上利用了图结构中的信息。有的文献采用多任务学习策略结合图相关任务联合训练推荐模块提高推荐质量。 4.2 Path-based Methods Path-based methods建立了一个user-item图并利用图中实体之间的连接模式进行推荐同时这种方式也被称为recommendation in HIN。这里的连接模式指的是users/items之间的连接相似性也就是相似性高则user/items之间或者之内相似性高。图中实体之间的连接相似性可以通过PathSim来度量其中Pm→nP_{m\to n}Pm→n是实体m和n的一条路径。 4.2.1 MF与HINs提取出的元路径整合一种基于路径的方法利用不同元路径中实体的语义相似性作为图的正则化以细化HIN中user和item的表示。之后就可以通过公式一来预测user i对item j的喜好程度这里f(⋅)f(·)f(⋅)是内积。 User-User Similarity目标函数这里的∥⋅∥F\left \| \cdot \right \| _F∥⋅∥F表明是matrix Frobenius norm Θ[θ1,θ2,⋯,θL]\Theta \left [ \theta _{1},\theta _{2},\cdots ,\theta _{L} \right ]Θ[θ1,θ2,⋯,θL]表明了每个meta-path的权重U[u1,u2,…,um]\mathrm {U}[\mathrm{u}_1,\mathrm{u}_2,\dots ,\mathrm{u}_m]U[u1,u2,…,um]表明了所有用户的潜在向量 si,jls_{i,j}^lsi,jl表明用户i和j在meta-pathlll的相似性分数这个相似度会迫使两个在元路径上相似的用户的潜在向量更近接近。 Item-Item Similarity 目标函数 V[v1,v2,…,vn]\mathrm {V}[\mathrm{v}_1,\mathrm{v}_2,\dots ,\mathrm{v}_n]V[v1,v2,…,vn]表明所有item的潜在向量.同上如果基于元路径的相似度很高那么物品的low-rank表示应该是接近的。 User-Item Similarity目标函数如果用户和物品的元路径相似度较高则用户和物品的潜在向量会变得更接近。 Hete-MF提取出了L条不同的meta-path并且在每条path中计算item-item之间的相似性 item-item正则化与加权非负矩阵分解方法相结合细化用户和项目的low-rank表示以便更好地推荐。Hete-CF把user-user相似性item-item相似性和user-item相似性聚在一起作为正则化项来找到用户对其为评分的item的亲和力。因此后者优于前者。 HeteRec模型:利用meta-path相似性来丰富user-item交互矩阵从而使得更丰富的users和items被提取。首先生成L条不同类型链接item和users的meta-paths其次计算item-item的相似性通过PathSim形成相似性矩阵S(l)∈R(n×n)S^{\left ( l \right )} \in \mathbb{R}^{\left ( n \times n \right )}S(l)∈R(n×n)其中l1,2,...,Ll 1,2,...,Ll1,2,...,L之后L通过公式R~(l)RS(l)\tilde{R}^{(l)} RS^{(l)}R~(l)RS(l)来分散用户的偏好矩阵R~(l)\tilde{R}^{(l)}R~(l)之后通过在这些分散的用户偏好矩阵上应用非负矩阵分解技术LLL定义了用户和物品在不同的元路径上潜在向量。最后将用户对每个路径的偏好与评分函数结合生成推荐: 其中θl\theta_lθl是在lll-th路径上的为了user-item潜在向量对的权重。 HeterRec-p 认为对于不同的users不同的meta-path的重要性是不同的。首先将用户按照他们的历史行为划分为ccc组并形成个性化推荐而不是用一个全局的偏好矩阵。得分函数如下其中(Ck,ui)\left ( \mathrm {C}_k, \mathrm{u}_i \right )(Ck,ui)表明了用户ui\mathrm{u}_iui和目标用户组别Ck\mathrm {C}_kCk的余弦相似度θlk\theta _l ^ kθlk表明了元路径lll对用户组kkk的重要性。 FMG模型该模型是为了克服元路径表示能力的限制而提出它用meta-graph替换了meta-path meta-graph有比meta-path更加丰富的连接信息。之后模型会利用矩阵分解MF生成items和users的潜在向量下面分解机FM会跨过不同的meta-graphs通过计算偏好分数y^i,j\hat{y} _{i,j}y^i,j来融合users和items的特征。 4.2.2 利用外部KG中的规则上面的局限性在于只会考虑用户喜欢的交互物品。因此SemRec模型会考虑用户喜欢和过去讨厌的交互作用。该模型中基于加权HIN和加权元路径来聚合属性值通过给积极的和消极的偏好模式建模更精确的item relations和user similarity会被表示出。 RuleRec 原来方法的缺点之一是调参很繁琐比如元路径的数目。因此该模型则引入了外部KG利用外部KG中items之间的连通性RuleRec学习了关联实体之间的关系。模型分为了两部分a rule Learing module和an item Recommendation module第一步前者会通过外部KG中的associated entities来 link items 第二步它会以KG中的元路径的形式总结可解释的规则进一步学习每个规则权重第三步推荐模块将规则和规则权重与用户购买历史结合使用MF生成推荐。规则和规则权重使得推荐过程更有可解释性。最近一些框架提出直接学习连接user-item对的路径的显性embedding然后直接给user-item关系建模。假如有K个连接uiu_iui和vjv_jvj的元路径而路径p的embedding被表示为hph_php之后uiu_iui和vjv_jvj的交互的最终表示为 g(⋅)g(·)g(⋅)可以看做是max-pooling操作和加权合并操作。之后uiu_iui的对于$v_j $的偏好可以这样建模 f是评分函数一个常用选择是全连接层。 MCRec模型学习元路径的显式表示以描述用户-项目对的交互上下文。首先MCRec会用一个look up layer来嵌入每个user-item对第二步它定义了LLL个元路径来连接uiu_iui和vjv_jvj其中每条元路径又取样KKK个路径实例。路径实例通过CNN获得特征表示hph_php 第三步每个元路径嵌入由在其KKK个路径实例上使用最大池化操作计算第四步所有的元路径通过注意力机制来聚合获得交互嵌入hhh 最后通过上面的公式二十得到偏好得分其中f函数是MLP层。 RKGE模型自动提取user i和item j之间的路径关系而不用手工定义元路径。具体而言首先RKGE模型会枚举所有连接了uiu_iui和vjv_jvj的不同语义的有长度限制的user-to-item对第二步每个路径都会被喂到一个Recurrent Network来获得整条path第三步根据公式19所有的路径的隐藏状态hph_php都会通过平均池化操作聚合最后根据公式二十得到评分偏好其中f(⋅)f(·)f(⋅)是一个全连接层。 KPRN模型和上面的方式是一样的只不过这里变成了LSTM。该模型使用实体嵌入和关系嵌入来提取path sequence之后路径被LSTM层编码uiu_iui对vjv_jvj的偏好会被一个全连接层预测通过加权池化层对每条路径的得分进行汇总最终的偏好估计可用于推荐。 EIUM模型它捕获用户的动态兴趣来进行sequence recommendation。推荐模块同样跟寻公式19和20。首先每个连接uiu_iui和vjv_jvj的路径会被编码并通过聚合获得user-item对(uiu_iui和vjv_jvj)的交互嵌入动态的偏好嵌入ppp通过将注意机制应用于interaction sequential。偏好得分通过y^i,jf(h,p)\hat{y} _{i,j}f(h,p)y^i,jf(h,p)得到。除了上面的path-based recommenddation module EIUM会进一步整合多模态融合约束模型该模块将KG结构约束引入框架该term可以细化在KG结构约束下的实体的特征。这样可以生成更准确的推荐 PGPR模型使用强化学习(RL)搜索user-item对之间的合理路径。他们将推荐问题表述为一个马尔可夫决策过程以找到连接用户-项目对的合理路径。他们通过设计路径搜索算法、转换策略、终端条件和RL奖励训练一个agent可以取样路径。在测试阶段PGPR可以为具有特定路径的用户生成推荐项来解释推理过程。 EKar*模型也是RL生成推荐。总结基于路径的方法是基于user-item图的这些方法在过去也被称作HIN-based。起初是将MF与HINs提取出的元路径整合这些方法利用了path的连通性缺点是需要领域知识来定义元路径的类型和数目之后RuleRec尝试自动地利用外部KG中的规则来克服这一限制。随着深度学习发展更多的模型被提出将path embedding编码的更详细。推荐会被path embedding生成或者发现链接user-item对的最显著的paths。基于路径的方法自然地将可解释性引入推荐过程。对于传统的基于路径的方法其动机是在元路径级别上匹配物品或用户的相似性推荐结果可以从预定义的元路径中找到引用。RuleRec利用外部KG生成推荐规则。为规则和权重是明确的所以推荐的理由也是用户可以理解的。最近的研究利用**深度学习模型来自动**挖掘用户-物品对的显著路径这反映了图中的推荐过程。 4.3 Unified Methods 在embedding-based methods中只是关注user/item在KG中语义表示来推荐而path-based methods中则是关注于语义连接信息来推荐。该类方法则是既考虑到实体、关系的语义又能考虑到它们的连通性。The Unified Methods方法是基于embedding propagation的这些方法会在KG的连接结构的引导下细化实体表示。获得user i 和 item j表示后再使用公式1. 4.3.1 聚焦于uiu_iui 利用历史交互信息refine用户特征表示。首先提取multi-hop ripple setsSuikS_{u_i}^kSuik其中Sui1S_{u_i}^1Sui1是用户uiu_iui参与的items的头一个实体。这个方法就是用交互过多额multi-hop的邻居来refine user的特征。其中gu(⋅)g_u(·)gu(⋅)是一个连接带有偏差的multi-hop的嵌入函数。由于传播是从用户参与的项目开始的所以可以称为是从图中传播用户的喜好。 RippleNet 第一个提出了preference propagation偏好传播的概念。首先RippleNet会给KG中的实体分配初始embedding使用KGE 第二步他会从KG中取样ripple setsSuikS_{u_i}^kSuik 为了精细化用户的表示聚合过程在下面从Sui1S_{u_i}^1Sui1开始每一个头部实体会与候选itemvjv_jvj的嵌入交互通过这个过程候选vjv_jvj和头部实体会在关系空间中被计算。之后用户的1-order历史交互的反应会被计算之后迭代地与在hhh-hop的ripple set SuikS_{u_i}^kSuik头部实体交互最后的用户uiu_iui的表示可以通过得到最终喜好分数通过这种方式RippleNet沿着KG中的路径从历史兴趣传播用户的偏好 AKUPM模型与上面不同的是在第二步中AKUPM使用了一个自注意力层来学习实体之间的关系在最后来自不同order的交互items的邻居也是使用自注意力机制来聚合来获得user的表示 RCoLM模型联合训练KG completion 模块和推荐模块将AKUPM当作backbone。作者认为两个模块中同一个item应该有相似的latent表示RCoLm将两个模块统一起来促进了它们的相互增强。 4.3.2 聚焦于vjv_jvj 第二组和第一组相同的理念只不是是用一个item的multi-hop邻居Nvk\mathcal{N}_v^kNvk来refine item的表示连接multi-hop邻居的嵌入有两个步骤。第一个步骤学习候选itemvjv_jvj的kkk-hop邻居其中α(eh,r,et)\alpha \left ( e_h, r, e_t \right )α(eh,r,et)表示不同邻居的重要性之后对于eh∈Svjke_h \in S_{v_j}^keh∈Svjk表示可以通过下面的更新其中agg是聚合算子。在此过程中将kkk-hop邻居的信息与(k−1)(k−1)(k−1)-hop邻居的信息进行聚合。常用的聚合器有四种: Sum Aggregator求和聚合器对两个表示进行求和然后进行非线性变换。 Concat Aggregatorconcat聚合器连接两个表示然后应用非线性变换。 Neighbor Aggregator邻居聚合器直接用邻居的表示替换实体的表示。 Bi-Interaction Aggregator 双向交互聚合器考虑实体之间的和和元素乘积关系。第二个术语允许从类似实体传递更多信息。 KGCN模型通过聚合从vjv_jvj的遥远邻居到vjv_jvj自身的实体在KG中的嵌入对候选item vjv_jvj的最终表示进行建模。KGCN首先对候选item的邻居进行抽样然后迭代地对每个实体的邻居进行固定数量的抽样。从H-hop邻居来时它通过公式29来迭代的代替kH,H−1,...,1kH,H-1,...,1kH,H−1,...,1。在迭代过程中multi-hop邻居能够在内部被传播到候选itemvjv_jvj。在这个特征传播过程中itemvjv_jvj的最终表示是它的初始表示和来自multi-hop的邻居的信息的混合。 RippleNet和KGCN是两个相似的框架不同之处在于前者是向外传播用户的历史兴趣爱好来建模用户而后者则从内部学习来自遥远邻居的item表示。此外KGCN利用了GCN的思想通过采样固定数量的邻居作为接受域使得学习过程高效且可扩展。 KGCN-LS模型添加了一个标签平滑LS机制LS用在了用户交互的消息上并且在KG上传播用户的交互标签。这可以引导学习进程和为候选itemvjv_jvj获得一个全面的表示。 RippleNet和它的变体聚焦于item- KG上的传播机制。最近一些论文开始探索user-item图上的传播机制。 KGAT模型直接用embedding propagation来建立users和items的高阶关系。首先TransR初始化KG实体第二步它从实体本身向外运行实体传播。同样的实体本身信息会被它的multi-hop邻居迭代的整合同理用户的和物品的表示都可以通过其相应的邻居来得到表示。用户的偏好将通过下面建模这两者是用户的物品的终极表示。 KNI模型进一步考虑了item-side物品端邻居和user-item用户端邻居之间的交互使用户嵌入和item嵌入的refine过程不分离。 IntentGC模型它利用图中丰富的用户相关行为来获得更好的推荐。他们还设计了一个更快的图卷积网络以保证IntentGC的可扩展性 AKGE模型已经看了学习user uiu_iui和候选item vjv_jvj的表示通过在user-item对的子图中传播信息。AKGE首先是用KGE初始化表示之后取样多个路径连接uiu_iui和vjv_jvj基于这些路径上的成对距离这也形成了uiu_iui和viv_ivi的子图接下来AKGE在这个子图中使用一个基于注意的GNN来传播来自邻居的信息以获得这个user-item对的最终表示。子图的构造过滤出图中关联较少的实体便于挖掘高阶user-item关系进行推荐。 Summary for Unified Methods就像前面所说该方法得益于KG的语义嵌入和path pattern模式。这些方法利用了嵌入传播的思想来refine在KG中拥有multi-hop的item或者user的表示。这些工作一般采用GNN-based架构并自然的适应嵌入传播的步骤。这之后自从RippleNet被提出有了新的进展统一方法继承了path-based的方法的可解释性。传播过程可以被视为在KG中发现用户的偏好模式这类似于在基于路径的方法中发现连接模式。 4.4 Summary 基于嵌入的方法利用KGE方法对item graph或user-item graph的KG进行预处理得到实体和关系的嵌入并进一步集成到推荐框架中。然而在这种方法中图中的信息连接模式被忽略了很少有工作能够提供有原因的推荐结果。基于路径的方法利用user-item graph来发现物品的路径级相似性方法是通过预先定义元路径或自动挖掘连接模式。基于路径的方法还可以为用户提供对结果的解释。将基于嵌入的方法与基于路径的方法相结合充分利用双方的信息是当前研究的一个趋势。此外统一的方法还具有解释推荐过程的能力。 5. 具有知识图的推荐系统数据集除了准确性和可解释性的好处之外基于kg的推荐的另一个好处是这种类型的边信息可以自然地整合到不同应用的推荐系统中。为了证明KG作为侧信息的有效性在不同场景下对基于KG的推荐系统进行了评估。在本节中我们根据数据集对这些工作进行了分类并说明了这些场景之间的区别。本节的贡献有两个方面。首先我们提供了在各种场景下使用的数据集的概述。其次我们将说明如何为不同的推荐任务构建知识图。本节可以帮助研究人员找到合适的数据集来测试他们的推荐系统。我们根据表4中总结的数据集对基于KG的推荐系统进行分组。一般来说这些工作可以分为七个应用场景我们将说明不同的工作如何使用每个数据集构建KG。 Movie. 在这个任务中推荐系统需要根据用户过去观看的电影来推断用户的偏好。最常用的两个数据集是:MovieLens和DoubanMovie。MovieLens维护着从MovieLens网站收集的一组数据集其中最常用的三个稳定的不同评级数的基准数据集是MovieLens- 100k、MovieLens-1m和MovieLens- 20m。每个数据集包含评级、电影的属性和标签。豆瓣电影来源于中国流行的社交媒体网络豆瓣。数据集包括用户之间的社会关系以及用户和电影的属性。电影相关的推荐KG有不同的构建方法。[2]、[14]、[44]、[45]、[69]、[70]、[73]、[88]、[89]、[91]、[92]、[93]、[95]等文献通过从Satori、DBpedia、Freebase、CN-DBPedia、IMDB中提取电影及其相关属性构建以电影为中心的项图丰富电影信息。通过这种方式**电影通过类型、国家、演员、导演等属性联系在一起**。此项图作为边信息方便协同过滤模块。另一种方法是直接将用户的评分作为一种关系并将用户介绍到图表中。[1]、[79]、[82]等文献直接利用MovieLens数据集或DoubanMovie数据集内的电影交互数据和属性来构建用户-项目图而[66]、[75]、[76]、[77]、[80]、[81]、[83]、[86]、[87]、[96]等文献仍然利用外部数据库来丰富电影侧信息。 Book 推荐书籍是另一个流行的任务。常用的数据集有五个:BookCrossing[114]、Amazon-Book[115]、DoubanBook、DBbook2014和IntentBooks[116]。Book-Crossing、DBbook2014、IntentBooks和Amazon-Book包含了用户和图书之间的二进制反馈每个数据集的KG是通过将图书映射到Satori[2]、[14]、[45]、[88]、[89]、[91]、[92]、[93]、[95]、DBpedia[70]、[87]或Freebase[44]、[90]、[93]中对应的实体来构建的。DoubanBook数据集是从豆瓣上抓取的[117]豆瓣既包含用户-条目交互数据也包含图书属性如作者、出版商、出版年份等信息。这项工作[82]利用DoubanBook数据集中的这一知识构建用户-项目图而不需要外部KG的帮助。 Music. Last. FM[118]是目前最流行的音乐推荐数据集。数据集包含关于用户和他们的音乐收听记录的信息。FM在线音乐系统[119]。[44][45][89][90][91]等论文通过从Freebase或Satori中提取音乐相关的子图来构建项目图。有些论文[87]、[96]利用Freebase或Satori的知识构建用户-项目图而本文[1]则从Last构建用户-项目图。FM数据集直接。另一个流行的数据集是KKBox数据集由WSDM杯2018挑战赛发布[120]。这个数据集包含用户-项目交互数据和音乐描述。论文[73]构建了项目图而[83]在没有利用任何外部数据库的情况下从该数据集构建了用户-项目图。 Product. 最流行的产品推荐任务数据集是Amazon product数据集[115]。该数据集包括多种类型的项目和用户信息如交互记录、用户评论、产品类别、产品描述和用户行为。这些作品[3]、[13]、[67]、[85]、[94]仅利用该数据集构建用户-项目图[84]利用外部Freebase数据库丰富项目信息构建项目图。也有一些论文[74]、[94]使用了阿里巴巴淘宝提供的数据。 POI.兴趣点(POI)推荐是对新业务和活动(餐厅、博物馆、公园、城市等)基于用户的历史签到数据。最流行的数据集是Yelp Challenge[121]它包含企业、用户、签到和评论的信息。[1]、[3]、[76]、[77]、[79]、[80]、[81]、[82]、[96]等论文利用数据集中的签到、评论和属性数据构建用户-项目图[90]构建项目图。论文[71]利用CEM数据1推荐下一次行程。另一项研究[91]使用大众点评网[122]提供的大众点评美食数据集进行餐厅推荐。 News.新闻推荐之所以具有挑战性是因为新闻本身具有时效性而且内容高度浓缩需要常识才能理解。此外人们在选择阅读新闻时对话题敏感可能更喜欢来自不同领域的新闻。传统的新闻推荐模型未能发现新闻之间的高层联系。因此在该场景中引入KGs[14][45][48][88]寻找不同新闻之间的逻辑关系提高推荐精度。最受欢迎的数据集是Bing-News它来源于Bing News的服务器日志[123]其中包含用户点击信息、新闻标题等。要构建新闻推荐的KG首先要提取标题中的实体。然后通过提取这些实体在顿悟中的邻居来构造子图。社交平台. 这个任务是向社区中的用户推荐可能感兴趣的人或会议。其中一个应用是利用收集的微博推文数据在社交平台微博上向用户推荐未被关注的名人[124][68]。虽然用用户-物品图来表示用户与名人之间的情感链接但通过构建带有Satori知识的物品图来丰富名人的信息。另一个应用是在社交网站MeetUp[125]上为用户推荐线下会议并提供该平台上的数据。最后一个应用是在学术领域向使用DBLP数据的研究人员推荐会议[126]。 6 FUTURE DIRECTIONS 在上面的章节中我们从更准确的推荐和可解释性方面展示了基于kg的推荐系统的优势。虽然已经提出了许多利用KG作为辅助信息进行推荐的新模型但仍存在一些进一步的机会。在这一部分我们概述和讨论一些未来的研究方向。动态推荐尽管GNN或GCN架构的基于kg的推荐系统取得了良好的性能但训练过程非常耗时。因此这种模型可以看作是静态偏好推荐。然而在某些场景中例如在线购物、新闻推荐、Twitter和论坛用户的兴趣可能会很快受到社会事件或朋友的影响。在这种情况下使用静态偏好建模的推荐可能不足以理解实时兴趣。为了捕获动态偏好利用动态图网络是一种解决方案。最近Song等人[127]设计了一个动态的图形注意力网络通过整合来自朋友的长期和短期兴趣来捕捉用户快速变化的兴趣。按照这种方法集成其他类型的边信息并构建动态推荐的KG是很自然的。 Multi-task Learning基于kg的推荐系统可以被自然地视为图中的链接预测。因此考虑KG的性质有可能提高基于图的推荐的性能。例如KG中可能存在缺失的事实这将导致缺失关系或实体。然而用户的偏好可能会被忽略因为这些事实是缺失的这可能会恶化推荐结果。[70]、[95]的研究表明联合训练KG完成模块和推荐模块对更好的推荐是有效的。其他研究则采用多任务学习的方法将推荐模块与KGE任务[45]和项目关系调节任务联合训练[73]。为了获得更好的推荐性能从其他kg相关任务(如实体分类和分辨率)中开发知识转移将是很有趣的。 Cross-Domain Recommendation最近出现了关于跨领域推荐的研究。这样做的动机是交互数据在各个领域之间是不相等的。例如在亚马逊平台上图书评级比其他领域更密集。通过迁移学习技术可以共享源领域中数据相对丰富的交互数据以便更好地在目标领域进行推荐。Zhang等[128]提出了一种基于矩阵的跨域推荐方法。后来Zhao等人[129]引入了PPGN将不同领域的用户和产品放在一个图中利用user-item交互图进行跨领域推荐。虽然PPGN的性能明显优于SOTA但user-item图只包含交互关系不考虑用户和项之间的其他关系。通过将不同类型的用户和产品侧信息合并到用户-产品交互图中以获得更好的跨领域推荐性能本调查的后续工作很有前景。 Knowledge Enhanced Language Representation:为了提高各种自然语言处理任务的性能将外部知识集成到语言表示模型中是一种趋势。知识表示和文本表示可以相互细化。例如Chen等[130]提出了用于短文本分类的STCKA方法该方法利用来自KGs(如YAGO)的先验知识来丰富短文本的语义表示。Zhang等[131]提出了ERNIE方法该方法融合了来自Wikidata的知识来增强语言表示这种方法在关系分类任务中被证明是有效的。虽然DKN模型[48]在新闻中同时使用了文本嵌入和实体嵌入两种方式但这两种嵌入方式只是简单地串联起来得到新闻的最终表示而没有考虑两个向量之间的信息融合。因此将知识增强的文本表示策略应用于新闻推荐任务和其他基于文本的推荐任务中可以更好地学习表示获得更准确的推荐结果。 Knowledge Graph Embedding Method:根据约束条件的不同KGE方法有翻译距离模型和语义匹配模型两种。在本调查中这两种KGE方法被用于所有三种基于kg的推荐系统和推荐任务。然而没有全面的工作来建议在哪些情况下包括数据源、建议场景和模型体系结构应该采用特定的KGE方法。因此另一个研究方向是比较不同KGE方法在不同条件下的优势。 User Side Information:目前大多数基于kg的推荐系统通过合并项目侧信息来构建图而很少有模型考虑用户侧信息。然而用户方面的信息如用户网络和用户人口统计信息也可以自然地集成到当前基于kgs的推荐系统的框架中。最近Fan等[132]使用GNN分别表示用户-用户社交网络和用户-物品交互图优于传统的基于cf的用户社交信息推荐系统。我们调查的最近一篇论文[96]将用户关系集成到图中并展示了这种策略的有效性。因此在KG中考虑用户侧信息可能是另一个研究方向。 7 CONCLUSION 在本文中我们对基于kg的推荐系统进行了研究并总结了该领域最近的研究成果。该调查说明了不同的方法如何利用KG作为边信息来改进推荐结果并在推荐过程中提供可解释性。此外还介绍了不同场景下使用的数据集。最后提出了未来的研究方向希望能促进该领域的发展。基于kg的推荐系统在准确的推荐和可解释的推荐方面很有前景这得益于kg所包含的丰富信息。我们希望这份调查报告能帮助读者更好地理解这一领域的工作。

查看全文

http://www.zqtcl.cn/news/704491/