当前位置: 首页 > news >正文

2003怎么建设网站空间辽宁城乡和住房建设部网站

2003怎么建设网站空间,辽宁城乡和住房建设部网站,中国工程建设标准网站,西点培训学校尽管BERT为代表的预训练模型大肆流行#xff0c;但是身处工业界才会知道它落地有多难#xff0c;尤其是QPS动辄几百的在线推荐、搜索系统#xff0c;哪怕在大厂也很难在线上系统见到它们。 今天就想反其道而行之#xff0c;谈谈工业界搜索、推荐、广告这类核心场景中落地能…尽管BERT为代表的预训练模型大肆流行但是身处工业界才会知道它落地有多难尤其是QPS动辄几百的在线推荐、搜索系统哪怕在大厂也很难在线上系统见到它们。 今天就想反其道而行之谈谈工业界搜索、推荐、广告这类核心场景中落地能力最强的算法之一因子分解机FM。我不敢说它是最简单的FM的确很简单但是作为一个推荐算法调参工程师掌握FM一定是性价比最高的。我推崇FM算法的原因有以下三点 功能齐全 众所周知推荐算法有三个应用领域召回、粗排、精排。推荐算法千千万但是有的算法只能用于召回有的算法只能用于排序。像FM这样实现三个领域全覆盖的多面手目前为止孤陋寡闻的我尚不知道有第二个。但是需要强调的是我们不能只训练一个FM排序模型 然后直接拿这个排序模型用于召回。尽管都是基于FM算法但是FM召回与排序有以下不同 使用的特征不同 FM召回由于未来要依赖Faiss进行线上检索所以不能使用user与doc的交叉特征。只有如此我们才能独立计算user embedding与doc embedding FM排序则没有这方面的限制可以使用user与doc的交叉特征。是的你没看错。因为FM所实现自动二阶交叉仅能代表“共现”。但是user与doc之间还有其他形式的交叉比如user tag与doc tag之间的重合度喂入这样的交叉对于排序性能提升仍然有很大帮助。 使用的样本不同 训练FM做排序时必须使用“曝光未点击”这样的“真负”样本。 训练FM做召回时起码不能只使用“曝光未点击”做负样本。大部分的负样本必须通过随机采样得到。个中原因见我的文章《负样本为王评Facebook的向量化召回算法》。 使用的Loss不同 FM排序时由于负样本是真实的可以采用CTR预估那样的point-wise loss FM召回时由于负样本是随机采样得到的存在一定的噪声最好采用BPR, hinge这样的pair-wise loss。 性能优异 推荐系统的两大永恒主题“记忆”与“扩展”FM也能实现全覆盖。 FM存在一阶项实际就是LR能够“记忆”高频、常见模式 FM存在feature embedding。如我在《无中生有论推荐算法中的Embedding思想》据说Embedding是提升推荐算法“扩展性”的法宝。FM通过feature embedding能够自动挖掘低频、长尾模式。在这一点上基于embedding的二阶交叉并不比DNN的高阶交叉逊色多少。 便于上线 现在深度学习是推荐领域的宠儿LR/FM/GBDT这样的传统机器学习算法不招人待见。 DNN虽然性能优异但是它有一个致命缺点就是上线困难。训练的时候各位调参侠把各种酷炫的结构什么attention, transformer, capsule能加上的都给它加上看着离线指标一路上涨心里和脸上都乐开了花却全然无视旁边的后端工程师恨得咬紧了牙根。模型越复杂离线和线上指标未必就更好但是线上的时间开销肯定会增加轻则影响算法与后端的同事关系打工人何苦为难打工人重则你那离线指标完美的模型压根没有上线的机会。虽说目前已经有TF Serving这样的线上serving框架但是它也不是开箱即用的也需要一系列的性能调优才能满足线上的实时性要求。 所以如果你身处一个小团队后端工程人员的技术能力不强DNN的线上实时预测就会成为一个难题这个时候FM这样的传统机器学习算法就凸显出其优势。 FM排序虽然理论上需要所有特征进行二阶交叉但是通过公式化简可以在 O(n)的时间复杂度下完成。n是样本中非零的特征数目由于推荐系统中的特征非常稀疏所以预测速度是非常快的。 召回由于候选集巨大对于实时性的要求更高。很多基于DNN的召回算法由于无法满足线上实时生成user embedding的需求只能退而离线生成user embedding 对于用户实时兴趣的捕捉大打折扣。FM召回这时就显现其巨大的优势。事先把doc embedding计算好存入Faiss建立索引user embedding只需要把一系列的feature embedding相加就可以得到再去faiss中进行top-k近邻搜索。FM召回可以实现基于用户最新的实时兴趣从千万量级候选doc中完成实时召回。 总结与参考 由于以上优点我心目中将FM视为推荐、搜索领域的瑞士军刀。风头上虽然不及DNN那么抢眼但是论在推荐系统中发挥的作用丝毫不比DNN逊色有时还能更胜一筹。FM有如此众多的优点优秀的调参侠打工人还等什么还不赶快学起来。想迅速掌握FM我推荐如下参考文献 掌握FM原理推荐读美团的博客《深入FFM原理与实践》。FFM的部分可以忽略在我看来FFM更像是为了Kaggle专门训练的比赛型选手损失了FM的很多优点。这就好比奥运会上的射击冠军未必能够胜任当狙击手一样。 FM用于召回推荐读《推荐系统召回四模型之全能的FM模型》。注意如我所述FM虽然万能但是FM排序与FM召回在特征、样本、Loss都存在不同不可能训练一个FM排序就能直接拿来做召回。这一点《全能FM》一文没有提到需要读者特别注意。 如果想亲手实践可以尝试alphaFM。该项目只不过是作者八小时之外的课外作品却被很多公司拿来投入线上实际生产环境足见该项目性能之优异和作者功力之深厚令人佩服。强烈建议不满足只当“调参侠”的同学通读一遍alphaFM的源代码一定收获满满。 [1] https://zhuanlan.zhihu.com/p/165064102 [2] https://zhuanlan.zhihu.com/p/320196402 [3] https://link.zhihu.com/?targethttps%3A//tech.meituan.com/2016/03/03/deep-understanding-of-ffm-principles-and-practices.html [4] https://zhuanlan.zhihu.com/p/58160982 [5] https://link.zhihu.com/?targethttps%3A//github.com/CastellanZhang/alphaFM
http://www.zqtcl.cn/news/411402/

相关文章:

  • 做网站架构网页浏览器怎么卸载
  • 做甜品的网站网页传奇游戏排行榜比亚迪
  • 广州网站建设菲利宾百度关键词优化排名
  • 南昌网站建设业务wordpress添加购买按钮
  • 个人现在可以做哪些网站企业所得税是多少
  • 网站建设招标信息科技企业网站建设
  • 怎样弄网站站长工具综合查询
  • 表白网站在线制作软件合肥seo按天收费
  • 襄阳企业网站建设免费行情的软件入口下载
  • 对百度网站进行分析中国机械加工网18易0下6拉en
  • 一般做网站都在什么网做wordpress轮播图设置
  • 深圳装饰公司网站thinkphp 网站根目录地址
  • 购物网站建设资讯原创文章代写
  • 门票预订网站建设wordpress siren主题
  • 单位建设网站装修公司需要什么资质
  • 做做做网站做网站赚外快
  • 网站备案后应该做什么网站流量监测
  • 开发网站用什么语言做名片的网站叫什么来着
  • 织梦做网站好不好iis中的网站启动不了
  • 临汾住房与城乡建设厅网站迎访问中国建设银行网站_
  • 织梦做的网站首页幻灯片怎么不能显示北大青鸟网站建设课程
  • 做淘客的网站有哪些延安市住建建设网站
  • 南京林业大学实验与建设网站现在都用什么软件搜索附近的人
  • 建站系统wordpress下载亚马逊雨林十大恐怖生物
  • 凡科网做网站怎么样专业团队电影
  • 有什么有趣的网站移动网站排名怎么做
  • 深圳网站建设专家wordpress 4.5下载地址
  • 网站建设公司公司我我提供一个平台wordpress如何去版权信息
  • seo怎么给网站做外链受欢迎的网站建设教程
  • 网站建设使用多语言河南电商网站设计