网站空间 数据库,百度互联网营销是什么,优化外包哪里好,网站建设经营服务合同范本简介#xff1a; 搜索一直是电商行业流量来源的核心入口之一#xff0c;如何搭建电商行业搜索并提升搜索效果#xff0c;一直是电商行业开发者努力攻克的难题。基于传统数据库或开源引擎虽然能够搭建基础搜索服务#xff0c;但随着商品数据的增多和业务流量的增长#xff…简介 搜索一直是电商行业流量来源的核心入口之一如何搭建电商行业搜索并提升搜索效果一直是电商行业开发者努力攻克的难题。基于传统数据库或开源引擎虽然能够搭建基础搜索服务但随着商品数据的增多和业务流量的增长难免会遇到性能瓶颈和效果瓶颈。另一方面随着电商、直播、云计算等技术的不断发展越来越多的传统零售企业正在进行互联网云上转型特别是受近两年疫情等因素的影响APP、小程序已经成为零售企业重要的业务增长来源。在此背景下如何快速搭建高效搜索服务成为零售行业上云及转型的难题。
本文作者 刘志嘉 阿里云智能 产品经理
搜索一直是电商行业流量来源的核心入口之一如何搭建电商行业搜索并提升搜索效果一直是电商行业开发者努力攻克的难题。基于传统数据库或开源引擎虽然能够搭建基础搜索服务但随着商品数据的增多和业务流量的增长难免会遇到性能瓶颈和效果瓶颈。另一方面随着电商、直播、云计算等技术的不断发展越来越多的传统零售企业正在进行互联网云上转型特别是受近两年疫情等因素的影响APP、小程序已经成为零售企业重要的业务增长来源。在此背景下如何快速搭建高效搜索服务成为零售行业上云及转型的难题。
为解决这两个问题阿里云计算平台事业部推出基于 MaxCompute 和开放搜索的电商、零售行业的搜索解决方案实现商品存储、建库、搜索、调优的搜索开发平台。
本文将从产品简介、电商行业特点、行业搜索开发实践、更多解决方案这四个方面介绍如何快速、高效的基于MaxCompute 和开放搜索搭建电商行业搜索服务。
一、产品简介
MaxCompute 简介
简单、易用、全托管的开放服务
MaxCompute 是阿里云推出的一款简单、易用、全托管的面向分析的企业级 Saas 模式云数据仓库它简单、易用能够匹配业务发展进行灵活弹性扩展面向云上开发者MaxCompute 支持机器学习、数据湖、传统数仓、近实时数仓等多种业务分析场景并提供更开放的开发生态。 Serverless 灵活数据仓库
为实现企业在满足差异化需求的前提下最小化成本的目标MaxCompute 以 Serverless 架构提供快速、全托管的在线数据仓库服务消除了传统数据平台在资源扩展性和弹性方面的限制满足用户的业务敏捷性、周期波动调度、关键任务保证、稳定可预期等需求最小化用户运维投入从而使用户可以经济、高效的分析处理海量数据。这些特性使得MaxCompute非常适合电商、零售行业的应用场景满足行业开发者的计算、存储需求。 此外MaxCompute 还提供Serverless的数据接入服务、多计算环境、存储服务、资源管理大幅度降低用户运维成本让用户更专注自身业务扩展与开发。 开放的生态
在产品生态方面MaxCompute 提供丰富的诸如产品自身开放生态、阿里云产品解决方案生态、数据应用生态、开源引擎工具集成等全方位开放生态基于 MaxCompute开发者可以自由选择业务开发方式更灵活的定制个性化产品解决方案。 持续打造开放的产品生态
而 MaxCompute 的离线、实时、分析、服务一体化数据仓库特别适用于企业实时数仓场景、BI报表交互查询场景、用户画像分析等场景而这些场景正是电商行业商品数据存储、用户行为引导与分析不可或缺的组成部分。
在阿里巴巴集团内部MaxCompute 作为双11即时查询场景的最佳实践能够支持数亿级TPS写入速度PB级数据亚秒级查询相应充分满足电商行业大促场景下的高时效性需求。基于这些特性MaxCompute 已经成为电商行业云上开发者的首选存储、计算服务。 前面提到MaxCompute 支持开源生态集成、主流商业软件集成等多种开放生态同时在能够与阿里云其他产品共同组成一站式解决方案搭建电商常用的搜索、推荐等大数据服务应用。特别是针对电商、零售行业搜索业务MaxCompute能与另一款云产品开放搜索联动形成一站式搜索开发平台。 开放搜索简介
开放搜索是阿里集团搜索业务中台是基于大数据深度学习在线服务体系打造的智能搜索云服务产品。在阿里集团内部共有淘系、天猫、盒马、菜鸟等超过500个业务接入支持日均百亿级别的搜索访问。双十一期间稳定支持阿里集团内部各产品的搜索服务单业务搜索QPS峰值超百万。开放搜索自2014年开始在阿里云上商业化输出目前已经为数千家客户、数百家电商、零售企业提供搜索服务。 一站式智能搜索业务开发平台
开放搜索产品提供核心引擎、召回排序、搜索引导等搜索前、中、后各个环节的服务与能力实现一站式搜索业务开发。针对经验丰富的搜索开发者开放搜索提供应用结构、召回、排序、算法等多个环节的开放服务满足开发者的个性化定制需求针对零基础的小白用户以及产品、运营同学开放搜索提供电商、教育等行业的行业模板一键式快速搭建效果更优的搜索服务助力企业完成业务目标。
特别是针对电商行业开放搜索提供商品、订单、门店搜索数据库加速和分析等多场景搜索方式及解决方案。 二、电商行业特点
电商行业是高度的成交导向、GMV导向行业以引导更多更高额的购买成交作为最终目标实现电商平台、买家、卖家的三赢。而搜索和推荐是目前电商行业最主要的流量入口像图中的这三款APP都将搜索入口放置在整个APP的最核心位置方便用户第一时间发现搜索入口下面是其他子应用或商品分类筛选再下面是推荐feed流。数据显示有90%以上的GMV贡献来源于搜索和推荐的流量引导。
当用户已经有了明确的购买需求打开电商APP时他有很大概率通过搜索寻找目标商品而在这种场景下的引导购买率、转化率非常高因此搜索效果对于电商行业而言至关重要。 那么要如何衡量搜索的效果呢根据积累多年的电商行业搜索经验我们主要将电商搜索核心指标分为效果指标和性能指标效果指标包含点击率、无结果率等性能指标包含搜索响应时间、数据同步响应时间等简单而言就是让终端用户更快更准的找到目标商品。
此外电商行业搜索Query与其他行业的Query也有所差异电商行业用户在搜索时会习惯性的进行关键字堆砌比如当搜索一个Query没有找到指定商品后会再继续输入补充说明Query以实现对搜索结果的筛选这也同时导致了电商行业Query的词序对搜索的影响没有其它行业大比如搜索华为手机和手机华为完全可以理解成同一种搜索行为。由于很多通用电商类APP会包含各行各业的商品信息当同一词汇在不同语境下出现时会代表不同的信息。当小米后边跟着手机时它是一个手机品牌当小米前面带着有机时它是一个商品品类。
基于这些电商行业特殊的搜索Query特点用户通过数据库或开源引擎自建搜索时常常会遇到口语化查询导致查询召回少、文档相关性差、排序结果不理想等问题影响搜索效果乃至影响用户购买转化。
在用户意图识别方面不同用户在不同场景下输入同一词汇时可能会覆盖多种领域的众多商品。比如当用户输入苹果时他可能指的是手机、水果、平板电脑、耳机、笔记本等多种品类。这也是通过开源方案自建电商搜索初期经常遇到的badcase之一。
那么如何解决这些问题与badcase优化电商行业搜索效果、提升搜索引导GMV呢 三、行业搜索开发实践
MaxCompute开放搜索行业搜索开发实践
电商搜索服务涉及商品数据、搜索Query、用户行为等多种维度以及搜索前、搜索中、搜索后等多个环节我们在对接不同企业时也经常会遇到客户提出的各种各样的问题。之前没有过搜索经验的同学可能会问商品要如何建库如何准确的理解用户查询意图呢经验老道的开发者可能会问如何为用户提供个性化的搜索体验如何保证高并发场景下的性能呢
为了更快更好的帮助电商、零售行业开发者解决上述问题MaxCompute 联合开放搜索提出了相应的行业搜索解决方案。
整体而言用户将存储在 MaxCompute 中的商品数据、行为数据等通过数据库自动同步或API/SDK同步的方式传输到开放搜索然后在开放搜索中定制查询分析、排序、搜索引导、干预、扩展功能等。最终实现搜索效果更优的高性能、高实时型、高可靠、全托管、免运维的电商行业搜索解决方案。 这一解决方案可以根据用户实际搜索行为拆解为搭建搜索应用、用户输入查询词、用户意图识别、访问搜索引擎、返回搜索结果五个关键环节分别对应MaxCompute建库、搜索引导、查询分析、搜索引擎、排序服务五个模块的开发。 商品建库
在商品建库阶段用户将自身商品数据、用户行为数据存储到 MaxCompute 中为了方便电商行业开发者使用开放搜索提供了电商行业模板用户可以一键式创建搜索应用结构实现快速建库。接下来根据MaxCompute 中的字段或开放搜索中自定义的应用结构定义每个表中的字段类型、含义以及多个表之间的关联关系。然后根据不同业务场景的搜索需求把不同的字段组合成目标索引到相应的索引中进行搜索。比如在电商行业中商品名称、店铺名称、商品品类等都是常见的搜索字段则可以将这些字段统一构建为一个索引则当用户输入Query后会去这些字段中搜索关联到商品、店铺等信息。索引结构构建完成后将开始为用户构建搜索服务当应用的状态为“可用”时基础版本的搜索服务就搭建完成了。 搜索引导
在用户输入搜索Query之前电商行业往往会提供一些预置的搜索Query这一流程被称为搜索引导。目前常见的搜索前引导模块包括热搜、底纹热搜就是会根据近期热点事件、用户搜索行为提供一些热门搜索词使用户直接点选搜索。而底纹是指搜索框中在用户输入搜索词之前已经存在了预置Query用户直接点击搜索就可以搜索相应的搜索词。热搜、底纹是搜索环节中的重要组成部分一方面热搜、底纹可以引导用户搜索行为降低后续环节的调优难度另一方面也可以根据不同时间的不同运营目标达到提升搜索引导购买的目标。目前开放搜索不仅支持热搜、底纹模型的自动训练还可以通过黑白名单实现定时、定位的人工干预达到人工运营与引导的效果。
另一种常用的搜索中引导为下拉提示即在用户输入Query的过程中自动联想出现其他候选Query降低用户输入成本实现流量引导效果。目前开放搜索支持多种下拉提示模型构建方式并支持高频搜索词、历史搜索词、智能排序、人工干预等下拉提示扩展功能。
通过热搜、底纹、下拉提示的搜索引导可以提升用户的搜索体验并实现人工运营吸引购买转化。 用户意图识别
在用户通过搜索引导或者手动输入Query后一次搜索请求开启了。
首先我们需要理解用户的实际搜索意图之前我们提到过电商行业用户在输入搜索Query时有时会带有一些口语化表达或者会进行关键词堆砌。因此我们需要将用户从购买需求角度描述的Query转化为结构化的相对清晰规范的表达形式这就是用户意图识别流程。
我们常见的用户意图识别包括同义词拓展、停用词省略、纠错改写、实体标签识别、类目预测。 接下来我们通过一个例子详细介绍一下用户意图识别环节。
比如用户输入了一个query叫NIKE的蓝球鞋高帮。我们首先会进行归一化对一些标点符号或者是大小写进行归一化第一步就变成了nike的蓝球鞋高帮再通过电商行业分词对输入的query进行分词处理划分成niki 的 蓝球鞋 高帮。接下来进入停用词环节比如设置里“的”是一个没有意义的词就变成了nike 蓝球鞋 高帮。接下来是拼写纠错会把错别字纠正变为nike 篮球鞋 高帮。接下来就用行业里经常会用到的一个类目叫行业实体识别分析之前的词是什么含义变化为nike品牌篮球鞋品类高帮款式。除此之外开发搜索还支持类目预测。通过上述的结果会给当前的query做一个权重nike-高篮球鞋-中高帮-中。再进行一个搜索词的扩展比如nike OR 耐克运动鞋 高帮。最终输出一个层层改写之后引擎能够理解的query输入到搜索引擎中。 搜索引擎召回
在完成Query改写之后会进入搜索引擎召回阶段。开放搜索提供包含文本召回、个性化召回、向量召回在内的多种召回策略。文本召回是搜索领域最常见的召回策略会对比改写后Query与商品数据中的文本相关性利用倒排索引实现召回。开放搜索使用阿里巴巴集团内部自研的问天3文本搜索引擎能够高性能的处理高并发、多写入场景下的搜索任务更快的返回搜索结果。个性化召回会在查询词改写基础上引入用户的个性化信息返回面向用户的千人千面的个性化搜索结果。向量召回会在改写词基础上引入向量信息根据查询词与商品数据的向量相似度返回搜索结果。传统文本搜索可能会遗漏部分看上去没有相关性但实际上也是用户目标需求的搜索结果而向量召回可以解决这一问题。利用文本召回和向量召回同时进行多路搜索能大幅度降低搜索结果的无结果率优化搜索效果。 结果排序
在完成召回阶段后我们已经得到了一些跟用户搜索需求相关的商品数据接下来需要把已经召回的商品数据进行排序以最合理的顺序反馈给用户保障用户最有可能点击的搜索结果排在前面进而提升搜索引导转化和GMV。开放搜索提供粗排、精排两轮排序机制支持排序表达式、自定义插件、算法模型等多种排序方式将内部排序过程充分开放给开发者使得开发者能够按照自身业务需求定制专属排序策略。 其中在自定义插件环境开放搜索提供cava编译语言及其插件。cava是一款阿里巴巴自研的编译语言它的语法和java类似性能与C相当支持面向对象编程。开放搜索控制台中已经集成了支持cava编译的IDE用户可以直接在控制台上编译定制cava插件更方便的进行调试和修改。
综上用户利用 MaxCompute 和开放搜索实现了商品建库、搜索引导、用户意图识别、搜索引擎召回、结果排序的电商、零售行业搜索开发拥有了性能更优充分定制的搜索服务。接下来要如何衡量与优化搜索效果呢。 方案特效与效果优化
首先分词是搜索中最基础的也是中文搜索不可缺少的环节。针对电商、零售行业开放搜索集成了淘宝搜索团款的电商分词器模型训练语料来自淘宝搜索多年积累的百万级有标注的电商行业数据。我们将开放搜索通用的电商分词器与开源IK分词器进行了效果对比在100个电商搜索实际Query中有63个Query的分词结果优于开源分词器。Good、bad比例超过41。 在电商通用分词器基础之上我们与达摩院自然语言处理团队合作进行了电商行业模板专项优化提出电商增强版分析器和相应的查询分析算法。具体来看将电商分词F1分词准确率提升至95%实体识别F1准确率提升至80%拼写纠错FAR降低至1.4%同时还新增了超过10万条的电商同义词这些效果均处于NLP电商领域的领先水平。
下面是一些通用版分析器与电商行业增强版分析器的效果对比。除此之外针对不同领域、不同垂类的电商、零售行业客户我们还支持算法专项定制服务提供用户级别定制的查询分析、CTR预估、向量模型、个性化模型等全方面提升搜索效果。 一键式配置
针对电商用户特别是刚刚开始云上互联网转型的零售行业用户我们提供了一键式配置能力用户只需在控制台上勾选想要实现的召回、查询分析、排序、周边服务等搜索相关功能即可自动生成相应的应用结构、索引结构以及各具体功能策略实现电商搜索全方位一键式配置。 客户案例
电商行业客户
下面简单介绍两个电商、零售行业搜索的典型客户案例。一家电商购物平台类APP为用户提供商品搜索、优惠券导购等功能。客户最开始选择自研搜索开发但很快就遇到了一些瓶颈比如在亿级商品索引量下复杂的搜索、筛选需求经常会影响搜索性能特别是在电商大促期间流量峰值会大幅提升。用户调研了多种产品及解决方案之后最终选择了MaxCompute开放搜索的解决方案。MaxCompute 灵活弹性运维机制高度适用电商行业场景而开放搜索能够为搜索业务提供性能、效果保障。在持续使用了一段时间之后我们得到了客户良好的反馈特别是工程、运维上的稳定保障使得用户能够专心研究业务与算法推动产品营收与发展。 零售行业客户
另一家用户是近期刚刚接入的零售行业用户。这是一家在全球用于超过一万家店铺的超市零售品牌在国内新零售市场高速发展的背景下想要快速布局和提升品牌影响力线上业务尤为重要。用户最初同样选择了自研搜索方案并应用到了线上商城但效果远远没有达到预期用户购物体验不佳。最近用户接入了开放搜索电商行业模板利用内置的多路召回、个性化排序等功能大幅提升了搜索效果。在接入半个月之后整体加购转化率提升10%无结果率从29%大幅降低至7.5%。另外用户还特别提到MaxCompute开放搜索的云端全托管服务模型大幅降低了人员投入和运维成本用户超高的整体性价比。 四、更多解决方案
多模态、多场景搜索效果优化
在电商行业除了商品搜索场景外还存在订单检索、收藏夹搜索、类目搜索等多种简单条件搜索场景在这些场景下MaxCompute开放搜索能够提供数据库检索加速服务保证高性能、高实时性的搜索。
另外使用开放搜索的向量召回能力能够实现以图搜图的拍立淘效果成为搜索倒流了另一个典型应用场景。
在此基础上联合阿里云提供的智能推荐等其它云产品能够实现电商行业搜索推荐广告的电商全环节应用保障。 更开放的引擎能力
在另一个方向开放搜索目前正在进行引擎能力透出将内置核心引擎透出到云上供更多开发者使用预计将于九月底正式上线届时将提供更加开放的生态和全方位用户定制能力。 原文链接
本文为阿里云原创内容未经允许不得转载。