elasticsearch 7.0 新特性之Intervals query

intervals query 允许用户精确控制查询词在文档中出现的先后关系，实现了对terms顺序、terms之间的距离以及它们之间的包含关系的灵活控制

1、介绍

为了更加简单灵活的控制查询时字符串在文本中匹配的距离与先后顺序，官方在es7.0引入了intervals query，用户可单一或者组合多个规则集合在某一个特定的text field上进行操作。

例如，我们用“my favourite food”这样一个字符串在my_text field里进行intervals查询，查询规则是该字符串出现在"hot water"或者“cold porridge”字符串的前面，那么query语句可以这样来写：

POST _search
{
  "query": {
    "intervals" : {
      "my_text" : {
        "all_of" : {
          "ordered" : true,
          "intervals" : [
            {
              "match" : {
                "query" : "my favourite food",
                "max_gaps" : 0,
                "ordered" : true
              }
            },
            {
              "any_of" : {
                "intervals" : [
                  { "match" : { "query" : "hot water" } },
                  { "match" : { "query" : "cold porridge" } }
                ]
              }
            }
          ]
        },
        "boost" : 2.0,
        "_name" : "favourite_food"
      }
    }
  }
}

简要概述上面语句，像包含“my favourite food is cold porridge”这样字符串的文档就会被检索到，因为“my favourite food ”出现在“cold porridge”前面，满足intervals query语法规则；另一个只包含了“when it's cold my favourite food is porridge ”字符串的文档就不会被匹配到，因为“cold” 和“porridge”出现在了“my favourite food”两边，不符合我们配置的intervals query语法规则。

2、参数

match

参数	描述
query	用户查询的字符串
max_gaps	字符串中每个词在text field中出现的最大词间距，超过最大间距的将不会被检索到；默认值是-1，即不限制，设置为0的话，query中的字符串必须彼此相连不能拆分
ordered	query中的字符串是否需要有序显示，默认值是false，即不考虑先后顺序
analyzer	对query参数中的字符串使用什么分词器，默认使用mapping时该field配置的 search analyzer
filter	可以为query搭配一个intervals filter，该filter不同于Boolean filter 有自己的语法结构

all_of

参数	描述
intervals	一个interval集合，集合里面的所有match需要同时在一个文档数据上同时满足才行
max_gaps	多个interval查询在一个文档中允许的最大间距，超过最大间距的将不会被检索到；默认值是-1，即不限制，设置为0的话，所有的interval query必须彼此相连不能拆分
ordered	配置 intervals 出现的先后顺序，默认值false
filter	可以为query搭配一个intervals filter，该filter不同于Boolean filter 有自己的语法结构

any_of

参数	描述
intervals	一个interval集合，集合里面的所有match不需要同时在一个文档数据上同时满足
filter	可以为query搭配一个intervals filter

filters
match query filter，不是严格的查询过滤器，不同于Boolean filter ，有自己的语法结构.我们先看一个例子，假设我们要在my_text field上查询包含“hot”和“porridge”的文档，要求这两个词的词距不超过10个字符，且文档中不包含“ salty”，以下是查询语句：

POST _search
{
  "query": {
    "intervals" : {
      "my_text" : {
        "match" : {
          "query" : "hot porridge",
          "max_gaps" : 10,
          "filter" : {
            "not_containing" : {
              "match" : {
                "query" : "salty"
              }
            }
          }
        }
      }
    }
  }
}

参数说明：

参数	描述
containing	interval query中terms之间需要包含filter中的terms
contained_by	interval query中的字符串需要被包含在filter query的terms里
not_containing	containing 对立面
not_contained_by	contained_by 对立面包
not_overlapping	query 与filter 词距不重叠

script filters
如果上面filters语句不能满足你的需求，那么可以尝试一下script filter ，它提供了一个interval变量，通过start、end、gaps三个函数更加灵活的控制term在文本中的顺序与距离：

POST _search
{
  "query": {
    "intervals" : {
      "my_text" : {
        "match" : {
          "query" : "hot porridge",
          "filter" : {
            "script" : {
              "source" : "interval.start > 10 && interval.end < 20 && interval.gaps == 0"
            }
          }
        }
      }
    }
  }
}

3、Minimization

itervals query 会优化最小化间距，使得查询性能保持在一个线性可控的范围内；itervals query有时候会出现意想不到的查询结果，尤其是在使用了max_gaps来限制查询间距，例如查询包含salty 但必须出现在hot porridge词间：

POST _search
{
  "query": {
    "intervals" : {
      "my_text" : {
        "match" : {
          "query" : "salty",
          "filter" : {
            "contained_by" : {
              "match" : {
                "query" : "hot porridge"
              }
            }
          }
        }
      }
    }
  }
}

上面的查询不会匹配“hot porridge is salty porridge”，因为这两个term只是在文档中出现而没有覆盖salty。

还有另外一种情况，是在使用 any_of 时，如果包含了多个interval，且其中一个短语是另一个的前缀，那么较长的哪个interval将不会工作，例如查询“the”，后面需要紧跟“big”或“big dad”，最后紧跟“wolf”：

POST _search
{
  "query": {
    "intervals" : {
      "my_text" : {
        "all_of" : {
          "intervals" : [
            { "match" : { "query" : "the" } },
            { "any_of" : {
                "intervals" : [
                    { "match" : { "query" : "big" } },
                    { "match" : { "query" : "big bad" } }
                ] } },
            { "match" : { "query" : "wolf" } }
          ],
          "max_gaps" : 0,
          "ordered" : true
        }
      }
    }
  }
}

这个查询不会匹配到包含“the big bad wolf”内容的文档，在一个intervals组合规则里“big”是“big bad”的前缀，所以“big bad”被最小化了，如果想实现该效果，需要进行query重写，如：

POST _search
{
  "query": {
    "intervals" : {
      "my_text" : {
        "any_of" : {
          "intervals" : [
            { "match" : {
                "query" : "the big bad wolf",
                "ordered" : true,
                "max_gaps" : 0 } },
            { "match" : {
                "query" : "the big wolf",
                "ordered" : true,
                "max_gaps" : 0 } }
           ]
        }
      }
    }
  }
}

最后编辑于：2019.04.15 13:43:23

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 215,384评论 6赞 497
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 91,845评论 3赞 391
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 161,148评论 0赞 351
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,640评论 1赞 290
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,731评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,712评论 1赞 294
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,703评论 3赞 415
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,473评论 0赞 270
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,915评论 1赞 307
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,227评论 2赞 331
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,384评论 1赞 345
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,063评论 5赞 340
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,706评论 3赞 324
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,302评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,531评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,321评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,248评论 2赞 352

elasticsearch 7.0 新特性之Intervals query

1、介绍

2、参数

3、Minimization

推荐阅读更多精彩内容