没固定ip怎么做网站,消防电气火灾监控系统网站开发,域名注册商网站,qq互联网站备案号简介#xff1a;智能开放搜索上线定制召回模型-定制分词器功能#xff0c;满足各行业、垂类、业务特殊#xff0c;对搜索有较高分词要求的客户#xff0c;提升语义理解能力#xff0c;精准召回用户搜索意图。
NLP算法在搜索链路中的应用
这是一个完整的从查询词到搜索结…简介智能开放搜索上线定制召回模型-定制分词器功能满足各行业、垂类、业务特殊对搜索有较高分词要求的客户提升语义理解能力精准召回用户搜索意图。
NLP算法在搜索链路中的应用
这是一个完整的从查询词到搜索结果的链路其中自然语言处理NLP算法发挥作用的地方主要在第二阶段的查询分析该阶段包含多个NLP算法模块如分词、纠错、实体识别、词权重、同义词以及语义向量等。开放搜索结合了文本和语义向量实现多路召回从而满足不同业务场景的搜索效果需求。 查询分析
NLP算法可以在这几个子模块发挥作用 分词精准的分词能提高检索效率让召回结果更加精准。拼写纠错对用户输入query中出现的拼写错误进行自动纠错提升用户搜索体验。实体识别为query 中的每个词打上对应的实体标签从而为后续的query改写和排序提供关键特征。词权重会对每个词划分不同的权重在查询结果时去做丢词的重查提升搜索准确率并降低无结果率。同义词扩展出相同、相近意思的词来扩大召回范围。最后经过完整的查询分析模块之后进行整体的query改写将用户输入query转换成向量和查询串到相应搜索引擎中进行查询。
自研NLP模型难点
自建模型领域适配难
自研搜索在具体场景业务中效果差强人意
例如开源IK分词VS电商行业增强版 公开行业模型少
云服务产商基本只提供通用模型公开行业数据集也主要覆盖通用领域自主参与领域模型优化难度大
构建一个行业搜索NLP模型主要包含一下流程首先是标注数据集这一步对于行业知识的要求非常高同时数据量也至少需要达到万级别标注这些数据的耗时可能长达数月。接着是模型训练这一步需要专业的算法从业人员进行开发调试如果对算法不熟悉将大幅降低模型效果与迭代效率。最后是模型上线这一步需要工程、算法人员共同部署运维如果涉及到深度模型还需进行工程性能相关的效率优化。
从零开始自主开发行业模型困难重重在数据集标注阶段其实就已经存在了很多的挑战
标注难点
分词标注领域知识要求高交叉歧义判断难
例如药物的名称利多卡因氯己定气雾剂 | 利多卡因 氯己定 气雾剂 地址南召县四棵树乡王营村 | 南召 县 四棵树 乡 王营 村 洗衣服粉 | 洗衣 服 粉b
实体识别标注领域知识要求高
例如澳洲爱他美母婴品牌金装一段、科比球鞋系列 pytorch实现GAN算法模型
针对分词、查询分析模型影响搜索效果行业模型训练开发难度大等问题开放搜索提供了轻量化客户定制解决方案
开放搜索轻量化客户定制解决方案
方案效果介绍及选型 搜索召回和相关性排序在实际应用中最突出的问题之一就是NLP任务的领域适配问题。上图为开放搜索根据不同业务痛点和诉求提供的解决思路及对应效果分数参考;上面提到的分数不是严格的技术指标
直接使用通用模型大概能达到60分的效果开放搜索产品结合阿里经济体内数据资源积累提供开箱即用的行业模型电商、内容、教育、游戏、互娱等)对客户场景具备不错的适用性可以达到80分的效果当客户有针对性优化团队资源充足情况下可以自主定制进行领域模型优化但NLP任务的标注门槛相对较高标注质量不可控模型训练难度大、周期长很难突破85分轻量化客户定制可以减少客户标注量级实现完全无标注或少量简单标注。同时基于行业、垂类、业务的特殊数据结合原有成熟的NLP模型让定制与扩展更简单从而直接达到85分效果;
轻量化客户定制召回模型-定制分词器
分词是搜索引擎的重要基础组件分词效果会直接影响搜索召回和最终结果。由于业务场景的多样性不同行业、垂类、业务都有各自的特殊性通用、开源的分词器很难满足具体到每个客户的分词要求。
阿里云智能开放搜索OpenSearch提供了丰富的行业分析器基于对应的行业分析器经过简单的配置、训练得到业务专属的定制分析器。整个定制过程无需进行额外的数据对接工作召回定制模型训练会自动抽取已有数据进行适配。
通过定制召回模型-业务定制分析器功能客户可以基于预训练行业NLP模型和自身业务数据定制专属分析器减小特殊行业、垂类、业务分词场景下的bad case无需进行数据标注实现一站式搜索引擎开发与NLP模型定制智能化提升搜索效果。
适用客户
搜索为核心业务重要场景对搜索有更高效果要求的客户行业、垂类、业务特殊有较多专属名词的客户搜索投入人力有限算法同学相对较少的客户
开放搜索后续还会上线更多定制召回模型例如定制拼写纠错、定制同义词等敬请期待~
效果对比
电商社区场景
智能开放搜索OpenSearch提供的电商行业模型虽然已经能正确处理大部分的case但仍存在一些切错的情况。结合客户数据基于电商行业模型训练定制分词模型后badcase基本都被修复。 地址场景
产品目前虽然还未开放地址行业模型通用模型对于一些语义歧义多的case处理不好但是结合客户数据基于通用模型训练定制分词模型后也可以修复大部分badcase。 小结
如果您的业务目前正在或准备使用开放搜索OpenSearch的行业版可以在行业模型的基础上进行定制分词模型的训练如果开放搜索还没有提供与您业务接近的行业版建议选择在通用版模型的基础上进行定制这种情况需要数据尽量多分布尽量全面均衡有助于提升定制分词模型的效果。
模型接入流程
创建并训练模型
创建模型训练模型其中基础分析器包括中文-通用分析、中文-电商分析、IT内容分析、行业-游戏通用分析行业-教育搜题、行业-内容IT分析、行业-电商通用分析
创建自定义分析器可选
在搜索算法中心分析器管理页面选择文本分析器创建选择分析器类型为定制模型分析创建完成后可使用定制自定义分析器进行分词测试以及词条管理等功能配置定制分析器模型
定制分析器创建完成后即可通过线下变更将已配置定制召回模型的定制化分析器应用到索引中在配置索引结构页面找到对应的索引替换成已配置定制召回模型的定制化分析器并选择需要生效的模型版本索引重建结束即可在搜索测试界面测试效果
原文链接
本文为阿里云原创内容未经允许不得转载。