ElasticSearch学习笔记(1)——基本语法

前言

ES权威指南


1.Java交互

1.1 节点客户端(Node client)

节点客户端作为一个非数据节点加入到本地集群中。换句话说,它本身不保存任何数据,但是它知道数据在集群中的哪个节点中,并且可以把请求转发到正确的节点。

1.2 传输客户端(Transport client)

轻量级的传输客户端可以可以将请求发送到远程集群。它本身不加入集群,但是它可以将请求转发到集群中的一个节点上。

1.3 spring-data-elasticsearch

与Spring框架整合,可以使用java链式风格构建语句或者使用Json请求,构建index可以使用注解方式或模版方式。


2.REST API


3.深入搜索

3.1 term/terms 包含搜索 : 处理数字(numbers)、布尔值(Booleans)、日期(dates)、文本(text)

-{ "term" : { "price" : 20 }}

-{"terms" : { "price" : [20, 30] }}

3.2 bool过滤器 : must、should、must_not

-{ "bool" : { "must" : [], "should" : [], "must_not" : [] }}

-{ "query": { "bool": { "should": [ { "match": { "title": "brown" }}, { "match": { "title": "fox" }}, { "match": { "title": "dog" }} ], "minimum_should_match": 2 } }} //minimum_should_match控制should中多少条件需要被满足,可以是数字可以是百分比,百分比会自动截断

-{"should": [ { "match": { "content": { "query": "Elasticsearch", "boost": 3 } }}, { "match": { "content": { "query": "Lucene", "boost": 2 } }} ]} //boost用来控制条件的权重

3.3 range 范围搜索 : 

在倒排索引中的词项就是采取字典顺序(lexicographically)排列的,这也是字符串范围可以使用这个顺序来确定的原因

-"range" :{ "price" : { "gte" : 20, "lte" : 40 }}

-"range" : { "title" : { "gte" : "a", "lt" : "b" }}

3.4 exists、missing 处理null

-{ "exists" : { "field" : "tags" } } //tags字段不为null的

-{ "missing" : { "field" : "tags" } } //tags字段为null的,es5.x废弃

判断一个对象是否为null时,相当于做一个bool判断

-{ "name" : { "first" : "John", "last" : "Smith" }} 

-{ "exists" : { "field" : "name" }}

-{ "bool": { "should": [ { "exists": { "field": "name.first" }}, { "exists": { "field": "name.last" }} ] }}

3.5 match 高层查询

-{"match": { "title": "QUICK!" }} //单词查询

-{"match": { "title": { "query": "BROWN DOG!"} }} //多词查询默认是包含关系,即brown/dog

-{"match": { "title": { "query": "BROWN DOG!", "operator": "and" }}} // 多词查询精确匹配

-{"match": { "title": { "query": "quick brown dog", "minimum_should_match": "75%" }}} // 控制匹配精度,这里会自动截断成66.66%,匹配包含2个词以上的文档

Elasticsearch 执行上面这个 match 查询的步骤是:

1) 检查字段类型。如果标题 title 字段是一个 string 类型( analyzed )已分析的全文字段,这意味着查询字符串本身也应该被分析。

2) 分析查询字符串。将查询的字符串 QUICK! 传入标准分析器中,输出的结果是单个项 quick 。因为只有一个单词项,所以 match 查询执行的是单个底层 term 查询。

3) 查找匹配文档。用 term 查询在倒排索引中查找 quick 然后获取一组包含该项的文档。

4) 为每个文档评分。用 term 查询计算每个文档相关度评分 _score ,这是种将词频(term frequency,即词 quick 在相关文档的 title 字段中出现的频率)和反向文档频率(inverse document frequency,即词 quick 在所有文档的 title 字段中出现的频率),以及字段的长度(即字段越短相关度越高)相结合的计算方式。

PS:Elasticsearch 的相似度算法被定义为检索词频率/反向文档频率,TF/IDF,包括以下内容:

1)检索词频率。检索词在该字段出现的频率,出现频率越高,相关性也越高。 字段中出现过 5 次要比只出现过 1 次的相关性高。

2)反向文档频率。每个检索词在索引中出现的频率,频率越高,相关性越低。检索词出现在多数文档中会比出现在少数文档中的权重更低。

3)字段长度准则。字段的长度是多少,长度越长,相关性越低。 检索词出现在一个短的 title 要比同样的词出现在一个长的 content 字段权重更大。

3.6 analyzer 分析器

1)查询自己定义的 analyzer ,否则

2)字段映射里定义的 search_analyzer ,否则

3)字段映射里定义的 analyzer ,否则

4)索引设置中名为 default_search 的分析器,默认为

5)索引设置中名为 default 的分析器,默认为

6)standard 标准分析器

3.7 dis_max 分离最大化查询:将任何与任一查询匹配的文档作为结果返回,但只将最佳匹配的评分作为查询的评分结果返回,比如针对如下文档

(1) { "title": "Quick brown rabbits", "body": "Brown rabbits are commonly seen."}

(2) { "title": "Keeping pets healthy", "body": "My quick brown fox eats rabbits on a regular basis."}

使用bool查询,(1)文档匹配中两个,两个评分相加然后除以子查询个数(这里为2),(2)文档匹配中一个,两个评分相加然后除以子查询个数(这里为2),所以(1)文档评分会高一点

{ "query": { "bool": { "should": [ { "match": { "title": "Brown fox" }}, { "match": { "body": "Brown fox" }} ] } }}

使用dis_max查询,(1)文档匹配中两个,两个评分相加然后除以子查询个数(这里为2),(2)文档匹配中一个,只有该评分参与最终评分的计算,所以(2)文档评分会高一点

{ "query": { "dis_max": { "queries": [ { "match": { "title": "Brown fox" }}, { "match": { "body": "Brown fox" }} ] } }} 

PS:tie_breaker(0到1之间的数),提供了一种 dis_max 和 bool 之间的折中选择,它的评分方式如下:(1) 获得最佳匹配语句的评分 _score;(2)将其他匹配语句的评分结果与 tie_breaker 相乘;(3)对以上评分求和并规范化。

{ "query": { "dis_max": { "queries": [ { "match": { "title": "Quick pets" }}, { "match": { "body": "Quick pets" }} ], "tie_breaker": 0.3 } }}

3.8 multi_match 多字段查询,支持正则表达式(可以使用 ^ 字符语法为单个字段提升权重)

{ "multi_match": { "query": "Quick brown fox", "fields": [ "*_title", "chapter_title^2" ] } }

使用"type": "most_fields"将所有匹配字段的评分合并起来

{ "query": { "multi_match": { "query": "jumping rabbits", "type": "most_fields", "fields": [ "title", "title.std" ] } }}

3.9 copy_to 自定义 _all 字段解决跨字段查询问题

{ "mappings": { "person": { "properties": { "first_name": { "type": "string", "copy_to": "full_name" }, "last_name": { "type": "string", "copy_to": "full_name" }, "full_name": { "type": "string" } } } }}

3.10 sort 排序

{"sort": {"date": {"order":"desc"}}} 

{"sort": [ { "date": { "order": "desc" }}, { "_score": { "order": "desc" }} ]} //多级排序

{"sort": { "dates": { "order": "asc", "mode": "min" }}} //使用min,avg,max,sum模式

对analyzed字段字符串进行强制排序会消耗大量内存,可以使用多值字段字符串进行排序

"tweet": {

  "type": "string", 

 "analyzer": "english",

 "fields": { "raw": { "type": "string", "index": "not_analyzed" } }

}

=>{"sort": "tweet.raw"}

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,186评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,858评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,620评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,888评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,009评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,149评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,204评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,956评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,385评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,698评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,863评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,544评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,185评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,899评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,141评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,684评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,750评论 2 351

推荐阅读更多精彩内容