西安可以做网站的,如何进行网络推广,绵阳房产网站建设,微网站注意事项ES-DSL查询语法#xff08;全文检索、精准查询、地理坐标查询#xff09;
1.DSL查询文档
elasticsearch 的查询依然是基于 JSON 风格的 DSL 来实现的。
1.1.DSL 查询分类
Elasticsearch 提供了基于 JSON 的 DSL#xff08;Domain Specific Language#xff09;来定义查…ES-DSL查询语法全文检索、精准查询、地理坐标查询
1.DSL查询文档
elasticsearch 的查询依然是基于 JSON 风格的 DSL 来实现的。
1.1.DSL 查询分类
Elasticsearch 提供了基于 JSON 的 DSLDomain Specific Language来定义查询。常见的查询类型包括 查询所有查询出所有数据一般测试用。例如match_all 全文检索full text查询利用分词器对用户输入内容分词然后去倒排索引库中匹配。例如 match_querymulti_match_query 精确查询根据精确词条值查找数据一般是查找 keyword、数值、日期、boolean 等类型字段。例如 idsrangeterm 地理geo查询根据经纬度查询。例如 geo_distancegeo_bounding_box 复合compound查询复合查询可以将上述各种查询条件组合起来合并查询条件。例如 boolfunction_score
查询的语法基本一致
GET /indexName(索引库名称)/_search
{query: {查询类型: {查询条件: 条件值}}
}
我们以查询所有为例其中
查询类型为 match_all没有查询条件
// 查询所有
GET /heima/_search
{query: {match_all: {}}
}
其它查询无非就是查询类型、查询条件的变化。
1.2. 全文检索查询
1.2.1. 使用场景
全文检索查询的基本流程如下
对用户搜索的内容做分词得到词条根据词条去倒排索引库中匹配得到文档 id根据文档 id 找到文档返回给用户
比较常用的场景包括
商城的输入框搜索百度输入框搜索
例如京东
因为是拿着词条去匹配因此参与搜索的字段也必须是可分词的 text 类型的字段。
1.2.2. 基本语法
常见的全文检索查询包括
match 查询单字段查询multi_match 查询多字段查询任意一个字段符合条件就算符合查询条件
match 查询语法如下
GET /indexName/_search
{query: {match: {FIELD: TEXT}}
}
mulit_match 语法如下
GET /indexName/_search
{query: {multi_match: {query: TEXT,fields: [FIELD1, FIELD12]}}
}
1.2.3. 示例
match 查询示例
multi_match 查询示例
可以看到两种查询结果是一样的为什么
因为我们将 brand、name、business 值都利用 copy_to 复制到了 all 字段中。因此你根据三个字段搜索和根据 all 字段搜索效果当然一样了。
但是搜索字段越多对查询性能影响越大因此建议采用 copy_to然后单字段查询的方式。
1.2.4. 总结
match 和 multi_match 的区别是什么
match根据一个字段查询multi_match根据多个字段查询参与查询字段越多查询性能越差
1.3. 精准查询
精确查询一般是查找 keyword、数值、日期、boolean 等类型字段。所以不会对搜索条件分词。常见的有
term根据词条精确值查询range根据值的范围查询
1.3.1.term 查询
因为精确查询的字段搜是不分词的字段因此查询的条件也必须是不分词的词条。查询时用户输入的内容跟自动值完全匹配时才认为符合条件。如果用户输入的内容过多反而搜索不到数据。
语法说明
// term查询
GET /indexName/_search
{query: {term: {FIELD: {value: VALUE}}}
}
示例
当我搜索的是精确词条时能正确查询出结果 但是当我搜索的内容不是词条而是多个词语形成的短语时反而搜索不到
1.3.2.range 查询
范围查询一般应用在对数值类型做范围过滤的时候。比如做价格范围过滤。
基本语法
// range查询
GET /indexName/_search
{query: {range: {FIELD: {gte: 10, // 这里的gte代表大于等于gt则代表大于lte: 20 // lte代表小于等于lt则代表小于}}}
}
示例
1.3.3. 总结
精确查询常见的有哪些
term 查询根据词条精确匹配一般搜索 keyword 类型、数值类型、布尔类型、日期类型字段range 查询根据数值范围查询可以是数值、日期的范围
1.4. 地理坐标查询
所谓的地理坐标查询其实就是根据经纬度查询官方文档https://www.elastic.co/guide/en/elasticsearch/reference/current/geo-queries.html
常见的使用场景包括
携程搜索我附近的酒店滴滴搜索我附近的出租车微信搜索我附近的人
附近的酒店
附近的车
1.4.1. 矩形范围查询
矩形范围查询也就是 geo_bounding_box 查询查询坐标落在某个矩形范围的所有文档
查询时需要指定矩形的左上、右下两个点的坐标然后画出一个矩形落在该矩形内的都是符合条件的点。
语法如下
// geo_bounding_box查询
GET /indexName/_search
{query: {geo_bounding_box: {FIELD: {top_left: { // 左上点lat: 31.1,lon: 121.5},bottom_right: { // 右下点lat: 30.9,lon: 121.7}}}}
}
这种并不符合 “附近的人” 这样的需求所以我们就不做了。
1.4.2. 附近查询
附近查询也叫做距离查询geo_distance查询到指定中心点小于某个距离值的所有文档。
换句话来说在地图上找一个点作为圆心以指定距离为半径画一个圆落在圆内的坐标都算符合条件
语法说明
// geo_distance 查询
GET /indexName/_search
{query: {geo_distance: {distance: 15km, // 半径FIELD: 31.21,121.5 // 圆心}}
}
示例
我们先搜索陆家嘴附近 15km 的酒店
发现共有 47 家酒店。
然后把半径缩短到 3 公里
1.5. 复合查询
复合compound查询复合查询可以将其它简单查询组合起来实现更复杂的搜索逻辑。常见的有两种
fuction score算分函数查询可以控制文档相关性算分控制文档排名bool query布尔查询利用逻辑关系组合多个其它的查询实现复杂搜索
1.5.1. 相关性算分
当我们利用 match 查询时文档结果会根据与搜索词条的关联度打分_score返回结果时按照分值降序排列。
例如我们搜索 “虹桥如家”结果如下
[{_score : 17.850193,_source : {name : 虹桥如家酒店真不错,}},{_score : 12.259849,_source : {name : 外滩如家酒店真不错,}},{_score : 11.91091,_source : {name : 迪士尼如家酒店真不错,}}
]
在 elasticsearch 中早期使用的打分算法是 TF-IDF 算法公式如下 在后来的 5.1 版本升级中elasticsearch 将算法改进为 BM25 算法公式如下
TF-IDF 算法有一各缺陷就是词条频率越高文档得分也会越高单个词条对文档影响较大。而 BM25 则会让单个词条的算分有一个上限曲线更加平滑 小结elasticsearch 会根据词条和文档的相关度做打分算法由两种
TF-IDF 算法BM25 算法elasticsearch5.1 版本后采用的算法
1.5.2. 算分函数查询
根据相关度打分是比较合理的需求但合理的不一定是产品经理需要的。
以百度为例你搜索的结果中并不是相关度越高排名越靠前而是谁掏的钱多排名就越靠前。如图
要想认为控制相关性算分就需要利用 elasticsearch 中的 function score 查询了。
1语法说明 function score 查询中包含四部分内容
原始查询条件query 部分基于这个条件搜索文档并且基于 BM25 算法给文档打分原始算分query score)过滤条件filter 部分符合该条件的文档才会重新算分算分函数符合 filter 条件的文档要根据这个函数做运算得到的函数算分function score有四种函数 weight函数结果是常量field_value_factor以文档中的某个字段值作为函数结果random_score以随机数作为函数结果script_score自定义算分函数算法 运算模式算分函数的结果、原始查询的相关性算分两者之间的运算方式包括 multiply相乘replace用 function score 替换 query score其它例如sum、avg、max、min
function score 的运行流程如下
1根据原始条件查询搜索文档并且计算相关性算分称为原始算分query score2根据过滤条件过滤文档3符合过滤条件的文档基于算分函数运算得到函数算分function score4将原始算分query score和函数算分function score基于运算模式做运算得到最终结果作为相关性算分。
因此其中的关键点是
过滤条件决定哪些文档的算分被修改算分函数决定函数算分的算法运算模式决定最终算分结果
2示例
需求给 “如家” 这个品牌的酒店排名靠前一些
翻译一下这个需求转换为之前说的四个要点
原始条件不确定可以任意变化过滤条件brand “如家”算分函数可以简单粗暴直接给固定的算分结果weight运算模式比如求和
因此最终的 DSL 语句如下
GET /hotel/_search
{query: {function_score: {query: { .... }, // 原始查询可以是任意条件functions: [ // 算分函数{filter: { // 满足的条件品牌必须是如家term: {brand: 如家}},weight: 2 // 算分权重为2}],boost_mode: sum // 加权模式求和}}
}
测试在未添加算分函数时如家得分如下
添加了算分函数后如家得分就提升了 3小结
function score query 定义的三要素是什么
过滤条件哪些文档要加分算分函数如何计算 function score加权方式function score 与 query score 如何运算
1.5.3. 布尔查询
布尔查询是一个或多个查询子句的组合每一个子句就是一个子查询。子查询的组合方式有
must必须匹配每个子查询类似 “与”should选择性匹配子查询类似 “或”must_not必须不匹配不参与算分类似 “非”filter必须匹配不参与算分
比如在搜索酒店时除了关键字搜索外我们还可能根据品牌、价格、城市等字段做过滤 每一个不同的字段其查询的条件、方式都不一样必须是多个不同的查询而要组合这些查询就必须用 bool 查询了。
需要注意的是搜索时参与打分的字段越多查询的性能也越差。因此这种多条件查询时建议这样做
搜索框的关键字搜索是全文检索查询使用 must 查询参与算分其它过滤条件采用 filter 查询。不参与算分
1语法示例
GET /hotel/_search
{query: {bool: {must: [{term: {city: 上海 }}],should: [{term: {brand: 皇冠假日 }},{term: {brand: 华美达 }}],must_not: [{ range: { price: { lte: 500 } }}],filter: [{ range: {score: { gte: 45 } }}]}}
}
2示例
需求搜索名字包含 “如家”价格不高于 400在坐标 31.21,121.5 周围 10km 范围内的酒店。
分析
名称搜索属于全文检索查询应该参与算分。放到 must 中价格不高于 400用 range 查询属于过滤条件不参与算分。放到 must_not 中周围 10km 范围内用 geo_distance 查询属于过滤条件不参与算分。放到 filter 中 3小结
bool 查询有几种逻辑关系
must必须匹配的条件可以理解为 “与”should选择性匹配的条件可以理解为 “或”must_not必须不匹配的条件不参与打分filter必须匹配的条件不参与打分
参考链接https://www.cnblogs.com/DeryKong/p/17002533.html