网站建设尾款收取,zhon中国建设会计学会网站,东莞网站制作,做ppt模板网站双塔模型的结构
用户的特征#xff0c;我们知道用户ID还能从用户填写的资料和用户行为中获取很多特征#xff0c;包括离散特征和连续特征。所有这些特征不能直接输入神经网络#xff0c;而是要先做一些处理#xff0c;比如用embedding层把用户ID映射到一个向量
跟之前我们…双塔模型的结构
用户的特征我们知道用户ID还能从用户填写的资料和用户行为中获取很多特征包括离散特征和连续特征。所有这些特征不能直接输入神经网络而是要先做一些处理比如用embedding层把用户ID映射到一个向量
跟之前我们讲过的离散特征的做法相同用户还有很多离散特征比如所在城市感兴趣的话题等等。 用embedding层把用户的离散特征映射成向量对于每个离散特征用单独一个embedding层得到一个向量比如用户所在城市用一个embedding层 用户感兴趣的话题用另一个embedding层 对于性别这样类别数量很少的离散特征直接用one hot编码就行可以不做embedding
用户还有很多连续特征比如年龄、活跃程度、消费金额等等。 不同类型的连续特征有不同的处理方法最简单的是做归一化让特征均值是零标准差是一。 有些长尾分布的连续特征需要特殊处理比如取log比如做分桶做完特征处理得到很多特征向量把这些向量都拼起来输入神经网络。神经网络可以是简单的全连接网络也可以是更复杂的结构比如深度交叉网络。 神经网络输出一个向量这个向量就是对用户的表征。 做召回用到这个向量。
物品的特征也是用类似的方法处理
用embedding层处理物品ID和其他离散特征 用归一化取对数或者分桶等方法处理物品的连续特征 把得到的特征输入一个神经网络。 神经网络输出的向量就是物品的表征用于召回。
双塔模型 本模型直接拿用户表征rep和物品表征rep去融合史称后端特征融合模型
左边的塔提取用户的特征 右边的它提取物品的特征 跟上一篇文章的矩阵补充模型相比双塔模型的不同之处就在于使用了ID 之外的多种特征 作为双塔的输入两个塔各输出一个向量记作a和b 两个向量的内积就是模型最终的输出rate它即预估用户对物品的兴趣。
现在更常用的输出方法是余弦相似度。
两个塔的输出分别记作向量a和b余弦相似度意思是两个向量夹角的余弦值 它等于向量内积除以a的二范数再除以b的二范数 其实就相当于先对两个向量做归因化然后再求内积 余弦相似度的大小介于负一到正一之间。
二范数也称为欧几里得范数或L2范数在数学中是用来量化向量或矩阵大小的一种度量方式。根据不同的对象二范数有两种主要的定义 因为它提供了量化向量或矩阵大小的直观方式并且与几何距离的概念紧密相关。
双塔模型的训练方法pointwiseparawiselistwise