东莞市品牌网站建设,wordpress内容新窗口打开,百度网站类型,网站是什么在CTR预估中#xff0c;主流都采用特征embeddingMLP的方式#xff0c;其中特征非常关键。然而对于相同的特征#xff0c;在不同的样本中#xff0c;表征是相同的#xff0c;这种方式输入到下游模型#xff0c;会限制模型的表达能力。为了解决这个问题#xff0c;CTR预估…在CTR预估中主流都采用特征embeddingMLP的方式其中特征非常关键。然而对于相同的特征在不同的样本中表征是相同的这种方式输入到下游模型会限制模型的表达能力。为了解决这个问题CTR预估领域提出了一系列相关工作被称为特征增强模块。特征增强模块根据不同的样本对embedding层的输出结果进行一次矫正以适应不同样本的特征表示提升模型的表达能力。最近复旦大学和微软亚研院联合发布了一篇特征增强工作的总结对比了不同特征增强模块实现方法的效果。本文给大家介绍一下几种特征增强模块的实现方法以及本文进行的相关对比实验。
论文标题A Comprehensive Summarization and Evaluation of Feature Refinement Modules for CTR Prediction
下载地址https://arxiv.org/pdf/2311.04625v1.pdf
1.热症增强建模思路
特征增强模块旨在提升CTR预估模型中Embedding层的表达能力实现相同特征在不同样本下的表征差异化。特征增强模块可以用下面这个统一公式表达输入原始的Embedding经过一个函数后生成这个样本个性化的Embedding。 这类方法的大致思路为在得到初始的每个特征的embedding后使用样本本身的表征对特征embedding做一个变换得到当前样本的个性化embedding。下面给大家介绍一些经典的特征增强模块建模方法。 2.特征增强经典方法
An Input-aware Factorization Machine for Sparse PredictionIJCAI 2019这篇文章在embedding层之后增加了一个reweight层将样本初始embedding输入到一个MLP中得到一个表征样本的向量使用softmax进行归一化。Softmax后的每个元素对应一个特征代表这个特征的重要程度使用这个softmax结果和每个对应特征的初始embedding相乘实现样本粒度的特征embedding加权。 FiBiNET: Combining Feature Importance and Bilinear feature Interaction for Click-Through Rate PredictionRecSys 2019也是类似的思路为每个样本学习一个特征的个性化权重。整个过程分为squeeze、extraction、reweight三个步骤。在squeeze中将每个特征embedding通过pooling得到一个其对应的统计标量。在extraction中将这些标量输入到MLP中得到每个特征的权重。最后使用这个权重和每个特征embedding向量相乘得到加权后的embedding结果相当于在样本粒度做一个特征重要性筛选。 A Dual Input-aware Factorization Machine for CTR PredictionIJCAI 2020和上一篇文章类似也是利用self-attention对特征进行一层增强。整体分为vector-wise和bit-wise两个模块。Vector-wise将每个特征的embedding当成序列中的一个元素输入到Transformer中得到融合后的特征表示bit-wise部分使用多层MLP对原始特征进行映射。两部分的输入结果相加后得到每个特征元素的权重乘到对应的原始特征的每一位上得到增强后的特征。 GateNet: Gating-Enhanced Deep Network for Click-Through Rate Prediction2020利用每个特征的初始embedding过一个MLP和sigmoid函数生成其独立的特征权重分同时也使用MLP对所有特征进行映射生成bit-wise的权重分两者融合对输入特征进行加权。除了特征层外在MLP的隐层也利用类似的方法对每个隐层的输入进行加权。 Interpretable Click-Through Rate Prediction through Hierarchical AttentionWSDM 2020也是利用self-attention实现特征的转换但是增加了高阶特征的生成。这里面使用层次self-attention每一层的self-attention以上一层sefl-attention的输出作为输入每一层增加了一阶高阶特征组合实现层次多阶特征提取。具体来说每一层进行self-attention后将生成的新特征矩阵经过softmax得到每个特征的权重根据权重对原始特征加权新的特征再和原始特征进行一次点积实现增加一阶的特征交叉。 ContextNet: A Click-Through Rate Prediction Framework Using Contextual information to Refine Feature Embedding2021也是类似的做法使用一个MLP将所有特征映射成一个每个特征embedding尺寸的维度对原始特征做一个缩放文中针对每个特征使用了个性化的MLP参数。通过这种方式利用样本中的其他特征作为上下位增强每个特征。 Enhancing CTR Prediction with Context-Aware Feature Representation LearningSIGIR 2022采用了self-attention进行特征增强对于一组输入特征每个特征对于其他特征的影响程度是不同的通过self-attention对每个特征的embedding进行一次self-attention实现样本内特征间的信息交互。除了特征间的交互文中也利用MLP进行bit级别的信息交互。上述生成的新embedding会通过一个gate网络和原始的embedding进行融合得到最终refine后的特征表示。 3.实验效果
文中进行了各类特征增强方法的效果对比整体结论为在众多特征增强模块中GFRL、FRNet-V、FRNetB 表现的最好并且效果要优于其他的特征增强方法。