当前位置: 首页 > news >正文

PHP网站建设项目经验网站建设新闻+常识

PHP网站建设项目经验,网站建设新闻+常识,python做网站效率,电影网站怎么做推广摘要#xff1a;传统的推荐手段主要还是深度挖掘用户行为和内容本身相似性的价值#xff0c;包括但不限于协同过滤#xff0c;内容表征向量召回#xff0c;以及各式各样的点击率预估模型#xff0c;然后这样的推荐行为缺乏内在的逻辑性和可解释性#xff0c;有一种知其然…摘要传统的推荐手段主要还是深度挖掘用户行为和内容本身相似性的价值包括但不限于协同过滤内容表征向量召回以及各式各样的点击率预估模型然后这样的推荐行为缺乏内在的逻辑性和可解释性有一种知其然不知所以然的体感。本文中阿里巴巴高级算法专家王悦就为大家分享了搜索场景下的智能推荐演变之路。 演讲嘉宾简介王跃跃神阿里巴巴高级算法专家。浙江大学硕士毕业阿里巴巴高级算法专家加入阿里巴巴以来一直致力于研究搜索推荐相关技术相关工作包括自然语言处理查询词分析技术研究知识图谱数据构建实体推荐等多个不同方向。当前是夸克浏览器智能推荐业务业务负责人致力于推动推荐从传统的用户行为推荐向知识化推荐的升级从而提升用户信息获取信息的边界加快信息决策的效率。 本次分享将首先介绍神马搜索在推荐领域有哪些应用场景之后为大家分享在神马搜索的推荐系统中所做的召回和排序相关的工作。 一、概览 场景介绍 首先为大家介绍神马搜索的推荐场景有哪些比如大家在向搜索框输入内容之前搜索框就会提供一些预置的搜索词这属于没有搜索Query的推荐。其次如果大家点击网页之后返回结果神马搜索会在URL下面提供一些相关的Query这是与URL本身相关的推荐。再次还有Query推荐和相关搜索这中推荐的主要目的是引流国内的搜索引擎基本上都是商业化的产品因此通过这样的推荐方法就能够很好地吸引一些流量进来。此外还有体感比较好的实体推荐以及在内容消费页面所做的相关推荐。 推荐大致可以分为三个阶段首先在输入之前神马搜索引擎会基于用户画像以及其他的一些相关推荐技术将一些内容推荐给用户第二个阶段就是在搜索的结果页进行推荐最后一个阶段就是在内容页面上做一些相关推荐。从另外一个维度上来看推荐也可以分为三个部分分别为没有Query的推荐、有Query的推荐以及基于URL的推荐。 技术大图 正如下图所展示的推荐的业务应用场景非常多因此无论是从横向还是纵向上进行划分都可以将推荐划分为多个视角。而如果对于每种推荐都从头到尾搭建一套系统那么成本将会非常高而UC团队有一套比较通用的技术体系来支撑如下图所示的推荐相关业务。搜索场景下智能推荐的技术大图可以大致分为三个部分最底层是数据以及数据相关的梳理其上层就是通过召回以及排序等手段对于数据进行一定的处理最上面一层就是使用处理好的数据来支撑业务。 对于上层大部分的推荐场景而言所采用的召回方法基本都是相同的而所采用的排序方法往往不同。比如对于预置词这种业务而言它是没有Query的因此在做模型设计的时候就无法利用这些信息。 二、召回 接下来为大家整体地介绍一下推荐系统中的召回体系在本次分享中只会涉及其中比较通用的4种召回方法但实际上召回体系远远不止这4种一些比较通用的召回方法没有在本文中列出。 用户行为召回 在召回部分介绍的第一种方法就是用户行为召回也就是去深挖用户行为的价值。用户行为的挖掘是搜索引擎推荐的重要环节这部分会针对于用户行为做两件事情。第一件事情就是从Session的角度来分析哪些Query经常会出现在一起这样分析也会遇到一些问题比如首先要去区分Session里面不同的Query类型在搜索引擎里面可以自己主动地发起一次搜索也可以自己去点击一些推荐结果。但是这两种行为存在一定的区别比如主动搜索和被动通过推荐来搜索是不同的主动搜索行为往往会获得较高的分数如果在比较靠后的位置点击了推荐结果和在相对比较靠前的位置点击了推荐结果的行为也是不同的。因此在这里需要对于不同类型的行为做一些权重计算同时做一些比较机器化的规则比如在某一个Session里面某一个Query是用户最后一次搜索此时就需要去考虑这个Query是不是已经满足了用户需求因此会对于这些Query加一定的权重。 第二个问题就是时效性优化问题对于一些头部的Query而言可能一天之内就能达到几万甚至十万的量级。对于这样的Query通常的做法就是拉一个时间窗口去看所有Session里面Query的情况如何。但实际上对于这些头部的Query没有任何意义因为其一天的数据就足够分析了因此在这种情况下会做一些采样对于一些长尾的Query则会做一些时间窗口的拉长操作。第三个问题是稀疏优化对于前面所提到的基于URL的推荐而言通常的做法就是收集用户点击了URL之后又搜索了哪些Query的行为但是这种情况下点击的URL往往是很稀疏的因此会使用URL下面本身的一些与Title相似的Doc共享推荐的List实现基于文本的泛化或者通过相似Query共享推荐List实现基于行为的泛化这样一来推荐的效果和覆盖率都会有极大的提升。 行为分析 下图展示的是协同过滤算法但是经典的协同过滤算法往往存在一些问题比如同一个Item权重的分配而言在行为非常丰富的用户和行为较少的用户之间可能更加倾向于前者。 但是这样的做法并不一定合理因此我们复用了集团的一些成果做了两点主要的改进第一个就是尽量地降低行为特别丰富的用户的比重使得其相对比较平滑。第二个就是构建如上图所示的菱形结构进而达到闭环的效果使得推荐的理由更加强烈一些。综上所述可以从入度出度、行为丰富度不同等闭环的结构上面做优化来提升整体协同过滤类算法的效果。 标签召回 基于标签的召回与基于用户画像的召回非常类似对于用户画像而言现在业界比较传统的做法就是在用户身上打上各种各样的标签比如性别、年龄以及爱好等。因此这里将基于标签的召回和基于用户画像的召回合在一起讲解。这里列举了一个例子就是在做APP推荐时如何去分析偏长尾的标签比如搜索“什么软件拍照带耳朵”时能够发现非常丰富的问答数据并且发现Faceu这款APP在答案里面。而如果其他的问答网站里面反馈出了其他的APP就能计算出Faceu和其他拍照APP之间存在非常强大的相关性这样一来可以做一些关联的推荐并且可以标注出其推荐者。 标签召回主要包括两个步骤第一步就是建立比较完整的标签体系将标签归纳到比较稀疏的链路下面去。在定义好这些链路体系之后第二步就可以分门别类地去进行挖掘这里的挖掘相对而言还是比较传统的比如先分取一些Query然后去判断有哪些数据并对于已有的数据进行一些标注做一些标签的识别之后进一步扩大。当我们累积到一定量之后就可以尝试借助有监督的方法实现进一步的泛化。 知识图谱召回 基于知识图谱的召回是最近一段时间内在学术界比较火的方法。UC团队在基于知识图谱的召回方面也做了大量的尝试大致分析了一下有这样几类算法比如文本建模算法DLA和Doc2vec知识表示算法tranE、transH、transD以及transR网络关系算法DeepWalk、Node2Vec以及SNDE等。文本建模算法基本上都是无监督学习因此没有办法很好地利用关系网络主要是利用文本信息知识表示算法对于关系的稠密度要求非常高如果关系稠密度没有达到要求那么采样效果就会非常差基于深度学习的网络关系算法即可以结合文本信息也可以融合关系网络。综上所述基于深度学习的网络关系算法相对而言比较中庸一点能够同时利用文本和网络信息整体效果也会相对好一些。 UC团队主要针对Node2vec的基础版本做了一些优化。之所以优化Node2vec是因为其具有深度优先和广度优先的机制能够使得其整个训练过程和方向变得可控。Node2vec的过程主要可以分为3部分主要就是以知识图谱这个图关系网络为基础做随机游走并且控制随机游走需要深度优先还是广度优先深度优先会更加关注全局信息而广度优先则会更加关注Doc信息。UC团队在Node2vec上面主要做了两方面优化一个是数据增广也就是增加了用户行为数据以及百科数据和超链接数据将这些数据抽取出来实现层级化这样就能够在一定程度上解决网络稀疏的问题。第二个优化点就是利用深度学习中一个比较好的方法也就是利用文本信息做embedding比如在知识图谱里面某一个人物有相应的描述可以对于这些描述信息进行切词并embedding到网络中来。 向量召回 基于向量的召回也是最近几年在学术界和工业界中比较热门的方法。向量召回的出发点就是分析输入的Query或者用户与候选的推荐Query之间的文本语义匹配问题。这个模型是YouTube在2016年发的一篇论文中提出的UC团队在此基础上进行了改进比如对于Query以不同的粒度进行切词。此外Query还会有一些文本特征比如检索切词、语义切词等还会将用户画像的特征以及实时信息特征一起训练来提升模型的性能。 下图所展示的是向量召回的效果图左边的第一列是训练的特征第二列是召回的数据第三列是真实的搜索Query。对于向量召回方法而言有一些优化的方法比如线上存在真实的排序情况那么可以将线上真实情况和线下召回的情况做一个比较从而大致了解向量召回的优势情况以及准确率如何。 三、排序 基础相关性 在排序部分首先介绍基础相关性。下图中展示了一个Query例子“泰勒级数展开公式”。在线上首先会对于这个Query做切词切词完成之后每个Token都会召回一系列的候选Doc此时会出现一系列的问题因为已经将Query切成Token了所以极有可能产生的Doc结果和原始的Query是不相关的因为切分之后无法得到足够的Query信息。此时需要借助相关性模型大致地控制所获取的文本与原始Query的相关性将相关性特别低的候选Doc在这一步过滤掉。在模型设计时也会考虑一些应用的场景比如在做实体推荐时就会将Query里面实体的信息引入进来进而实现共享网络。 如果将Query分类信息引入进来就能很好地解决一些歧义的问题。 CTR预估 UC团队在两年前做了CTR预估的相关工作那个时候其他的一些方法还没有成熟因此这部分做的相对比较简单主要的工作集中在样本的选择以及特征的选择上面。对于样本选择而言通常会在一个推荐序列里面将点击过的结果作为正样本将没有被点击过的结果作为负样本。在模型设计方面比较重要的是CTR类特征如果这个特征不佳就会使得整个模型的特征打一个比较大的折扣。而UC团队所实现的CTR预估模型能够达到小时级更新保证线上的效果。 MAB MAB的意思就是“多臂老虎机”比如一个老虎机有多种可以玩的方法我们一开始不知道哪种方法才能获胜因此需要逐个实验每种玩法获胜的几率是多少最终去确定应该以什么顺序来玩。这和排序是非常相关的因为在推荐时如果直接使用CTR排序可能导致一些比较好的潜在的推荐Item因为刚刚出来没有被很多用户点击过就会导致其永远无法排在前面。此时就需要借助一个探索机制来缓解这样的问题也就是当使用CTR排序完成之后并不完全按照CTR去提供排序结果而是使得所有的推荐候选项都有一定的概率被选中。如果经常性地进行探测那么推荐结果也会逐渐地收敛。 小结 这里简单做一个总结在本文中已经介绍了大部分的推荐算法。对于召回而言从精准到泛化基本上可以分为基于检索的召回、基于标签的召回、协同过滤、基于知识图谱的召回以及基于向量的召回。对于排序而言也介绍了基础相关性、语义相关性以及CTR预估和MAB。 原文链接 本文为云栖社区原创内容未经允许不得转载。
http://www.zqtcl.cn/news/217382/

相关文章:

  • 离线推广网站规划书常用的网站都有哪些
  • 成都 视频网站建设网站邮件推送
  • 深圳均安网站制作温州网站优化案例
  • 做网站需要哪些流程网站建设中项目经理的职责
  • 专业低价建设微网站微商城怎么样在wordpress上添加播放视频
  • 网站制作经费预算表域名备案信息查询系统
  • 苏州网站建设找苏州聚尚网络推荐南昌个人网站制作怎么做
  • 普法网站建设wordpress伪静态404错误
  • 易语言如何做浏网站湛江高端网站开发
  • 窦各庄网站建设wordpress 意见反馈
  • 建站公司还有前途吗海拉尔做网站的公司
  • 素材网站有哪些如何做简单视频网站
  • 如何做网站公证宁波网站建设公司比较好
  • 网站建设公司行情新网站建设风格
  • 30天网站建设实录 pdf微信分销工具
  • 深圳电子商务网站 开发招标文件范本
  • 常州网站制作包括哪些网站商城模板
  • wordpress下拉式菜单哈尔滨seo优化公司
  • 网站添加百度地图标注怎么在百度免费推广
  • 如何用照片做模板下载网站南京做网站seo的
  • 网站建设平台方案设计删除网站内容
  • 建设部人才交流中心网站wordpress theauthor
  • 物联网网站开发公司比较还做的调查网站
  • 网站建设教程 冰美人视频全国网站建设排名
  • 对网站策划的看法公司宣传册设计与制作图片
  • 手机医疗网站网站模板的制作怎么做
  • 那种投票网站里面怎么做百度浏览器网站入口
  • 宁波城乡建设局网站有专门做面包的网站么
  • 网站推广方法及特点网站添加内容
  • c2c网站怎么做网页模板布局