网站怎么做404页面,提卡网站要怎么做,深圳投资推广署,品牌建设pptNLP技术在搜索推荐中的应用非常广泛#xff0c;例如在搜索广告的CTR预估模型中#xff0c;NLP技术可以从语义角度提取一些对CTR预测有效的信息#xff1b;在搜索场景中#xff0c;也经常需要使用NLP技术确定展现的物料与搜索query的相关性#xff0c;过滤掉相关性较差的物…NLP技术在搜索推荐中的应用非常广泛例如在搜索广告的CTR预估模型中NLP技术可以从语义角度提取一些对CTR预测有效的信息在搜索场景中也经常需要使用NLP技术确定展现的物料与搜索query的相关性过滤掉相关性较差的物料防止对用户体验造成负面影响。在推荐场景中文本信息也可以作为一种泛化性较强的信息补充弥补协同过滤信号的稀疏性问题提升预测效果。
今天这篇文章梳理了NLP技术在搜索推荐场景中3个方面的应用分别是NLP提升CTR预估效果、NLP解决搜索场景相关性问题、NLP信息优化基于推荐系统效果。
1 NLP特征提升CTR预估效果
Learning Supplementary NLP Features for CTR Prediction in Sponsored SearchKDD 2022是微软必应团队在近年KDD上发表的一篇工作主要介绍了如何利用NLP特征提升CTR预估的效果。这篇工作的应用场景是必应的搜索广告需要对给定搜索词下不同的广告document进行CTR预测并根据预测的CTR进行排序。
业内一般使用NLP特征的方法是使用预训练的BERT模型给当前query和document对进行相关性打分将这个打分作为一维特征输入到CTR预估模型中。然而文中指出这种应用NLP特征的方法并不是最优的。本文提出了一种BERT和CTR预估模型联合训练的方式让BERT提取的语义特征和CTR预估任务更加契合。
基础的模型结构如下图左侧是位置特征和CTR预估的其他特征如user、context特征等右侧是语义特征使用预训练的BERT以query和ad文本作为输入得到query和ad匹配的向量。CTR预估的向量和BERT生成的向量相加后作为最终表示进行CTR预测。
由于BERT模型的参数量很大网络层数很深而CTR预估模型的网络层数比较浅。这两个模型直接一起优化会比较困难。因此文中采用了两阶段的训练方法。在第一阶段先分别独立的使用CTR预估的label训练不带语义特征的CTR预估模型以及预训练的BERT模型这一步得到了初始化参数。在第二阶段将两个网络融合到一起学习同时更新所有网络的参数。
由于BERT网络参数量大计算比较慢文中还采用了一种蒸馏的策略压缩BERT模型的体积。Teacher部分是原始的BERTCTR模型Student部分将BERT改为一个轻量级的语义模型使用正则化约束轻量级语义模型和原始BERT输出的向量表示相接近让Student网络蒸馏主模型的知识。
2 NLP解决搜索场景相关性问题
NLP在搜索场景或电商场景的一大应用就是解决相关性问题。相关性和CTR预估问题存在比较大的差异相关性是影响CTR的一个因素CTR还受到user、展现创意质量等多种因素的影响。相比而言相关性更加客观的衡量了搜索词和展现商品是否匹配。因此业内一般会将相关性建模和CTR建模分开考虑而NLP技术对于解决相关性问题至关重要。
BERT2DNN: BERT Distillation with Massive Unlabeled Data for Online E-Commerce SearchICDM 2020是京东和清华大学发表的一篇解决电商场景相关性问题的工作。下图对比了本文提出的方法和业内其他基础方法的差异。
解决相关性问题数据来源有两个方面一方面是根据用户的搜索和点击行为构造数据例如query-item发生点击就认为是相关的。这种数据标注成本很低数据量也很大但是并不代表真正的相关性存在一定的噪声。另一种类型的数据是人工标注的相关性数据这类数据由于需要人工标注比较精准噪声小但是标注成本较高往往不会积累很多数据。A unified neural network approach to e-commerce relevance learning2019这篇解决相关性问题的文章中使用了先在用户行为数据上预训练再使用人工标注的高质量数据finetune的架构构建相关性模型。
本文提出的BERTDNN方法优化点主要体现在对BERT的蒸馏以及模型训练流程上。模型主体结构采用BERT输入query和item文本信息预测打分结果。首先在干净的相关性语料数据以及人工标注的高质量数据上训练BERT模型然后利用这个模型对搜索日志中的用户行为数据打分得到大量的包含相关性打分的数据。接下来使用一个DNN模型拟合这个打分将BERT中的知识蒸馏到DNN模型中。DNN模型的结构可以采用query和item的embedding在底层直接交叉的双单塔结构或者分别交叉的双塔结构。DNN模型大大降低了运行开销作为线上最终部署的模型。
3 NLP优化推荐系统效果
在推荐系统中一般根据user对item的打分结果学习user和item的表示向量然后利用向量检索进行推荐。然而协同过滤信号存在稀疏性容易影响模型效果。而user的填写的评价、item的描述等文本信息在协同过滤信号的基础上提供了高泛化性特征对于提升推荐效果很有帮助。
Gated Attentive-Autoencoder for Content-Aware RecommendationWSDM 2019就采用了item content表示与user-item打分关系的表示相融合的方式提升效果。文中利用user-item打分学习一个embedding同时利用item的内容信息结合attention模块学习一个文本表示信息然后使用一个门结构对两侧的信息进行融合。此外本文还是用了item的邻居信息结合attention来丰富中心节点表示。
另一篇文章Aligning Dual Disentangled User Representations from Ratings and Textual ContentKDD 2022也采用了类似的方法。本文为了刻画user与item之间发生交互行为的底层因素采用了分解学习的方法根据user-item的打分信息以及user的评论信息分别学习两个表示然后在分解学习得到多个因素后在因素这个维度进行两个表示的对齐。
4 总结
本文主要介绍了NLP技术在搜索推荐场景中的应用。在搜索推荐中文本信息是很常见的一种信息来源因此如何利用文本信息提升CTR预估、推荐等模型效果以及如何利用NLP技术解决相关性问题都是搜推广场景中很有价值的研究点。