elasticsearch 7.0 新特性之Intervals query

intervals query 允许用户精确控制查询词在文档中出现的先后关系,实现了对terms顺序、terms之间的距离以及它们之间的包含关系的灵活控制

1、介绍

为了更加简单灵活的控制查询时字符串在文本中匹配的距离与先后顺序,官方在es7.0引入了intervals query,用户可单一或者组合多个规则集合在某一个特定的text field上进行操作。

例如,我们用“my favourite food”这样一个字符串在my_text field里进行intervals查询,查询规则是该字符串出现在"hot water"或者“cold porridge”字符串的前面,那么query语句可以这样来写:

POST _search
{
  "query": {
    "intervals" : {
      "my_text" : {
        "all_of" : {
          "ordered" : true,
          "intervals" : [
            {
              "match" : {
                "query" : "my favourite food",
                "max_gaps" : 0,
                "ordered" : true
              }
            },
            {
              "any_of" : {
                "intervals" : [
                  { "match" : { "query" : "hot water" } },
                  { "match" : { "query" : "cold porridge" } }
                ]
              }
            }
          ]
        },
        "boost" : 2.0,
        "_name" : "favourite_food"
      }
    }
  }
}

简要概述上面语句,像包含“my favourite food is cold porridge”这样字符串的文档就会被检索到,因为“my favourite food ”出现在“cold porridge”前面,满足intervals query语法规则;另一个只包含了“when it's cold my favourite food is porridge ”字符串的文档就不会被匹配到,因为“cold” 和“porridge”出现在了“my favourite food”两边,不符合我们配置的intervals query语法规则。

2、参数

  • match
参数 描述
query 用户查询的字符串
max_gaps 字符串中每个词在text field中出现的最大词间距,超过最大间距的将不会被检索到;默认值是-1,即不限制,设置为0的话,query中的字符串必须彼此相连不能拆分
ordered query中的字符串是否需要有序显示,默认值是false,即不考虑先后顺序
analyzer 对query参数中的字符串使用什么分词器,默认使用mapping时该field配置的 search analyzer
filter 可以为query搭配一个intervals filter,该filter不同于Boolean filter 有自己的语法结构
  • all_of
参数 描述
intervals 一个interval集合,集合里面的所有match需要同时在一个文档数据上同时满足才行
max_gaps 多个interval查询在一个文档中允许的最大间距,超过最大间距的将不会被检索到;默认值是-1,即不限制,设置为0的话,所有的interval query必须彼此相连不能拆分
ordered 配置 intervals 出现的先后顺序,默认值false
filter 可以为query搭配一个intervals filter,该filter不同于Boolean filter 有自己的语法结构
  • any_of
参数 描述
intervals 一个interval集合,集合里面的所有match不需要同时在一个文档数据上同时满足
filter 可以为query搭配一个intervals filter
  • filters
    match query filter,不是严格的查询过滤器,不同于Boolean filter ,有自己的语法结构.我们先看一个例子,假设我们要在my_text field上查询包含“hot”和“porridge”的文档,要求这两个词的词距不超过10个字符,且文档中不包含“ salty”,以下是查询语句:
POST _search
{
  "query": {
    "intervals" : {
      "my_text" : {
        "match" : {
          "query" : "hot porridge",
          "max_gaps" : 10,
          "filter" : {
            "not_containing" : {
              "match" : {
                "query" : "salty"
              }
            }
          }
        }
      }
    }
  }
}

参数说明:

参数 描述
containing interval query中terms之间需要包含filter中的terms
contained_by interval query中的字符串需要被包含在filter query的terms里
not_containing containing 对立面
not_contained_by contained_by 对立面包
not_overlapping query 与filter 词距不重叠
  • script filters
    如果上面filters语句不能满足你的需求,那么可以尝试一下script filter ,它提供了一个interval变量,通过start、end、gaps三个函数更加灵活的控制term在文本中的顺序与距离:
POST _search
{
  "query": {
    "intervals" : {
      "my_text" : {
        "match" : {
          "query" : "hot porridge",
          "filter" : {
            "script" : {
              "source" : "interval.start > 10 && interval.end < 20 && interval.gaps == 0"
            }
          }
        }
      }
    }
  }
}

3、Minimization

itervals query 会优化最小化间距,使得查询性能保持在一个线性可控的范围内;itervals query有时候会出现意想不到的查询结果,尤其是在使用了max_gaps来限制查询间距,例如查询包含salty 但必须出现在hot porridge词间:

POST _search
{
  "query": {
    "intervals" : {
      "my_text" : {
        "match" : {
          "query" : "salty",
          "filter" : {
            "contained_by" : {
              "match" : {
                "query" : "hot porridge"
              }
            }
          }
        }
      }
    }
  }
}

上面的查询不会匹配“hot porridge is salty porridge”,因为这两个term只是在文档中出现而没有覆盖salty。

还有另外一种情况,是在使用 any_of 时,如果包含了多个interval,且其中一个短语是另一个的前缀,那么较长的哪个interval将不会工作,例如查询“the”,后面需要紧跟“big”或“big dad”,最后紧跟“wolf”:

POST _search
{
  "query": {
    "intervals" : {
      "my_text" : {
        "all_of" : {
          "intervals" : [
            { "match" : { "query" : "the" } },
            { "any_of" : {
                "intervals" : [
                    { "match" : { "query" : "big" } },
                    { "match" : { "query" : "big bad" } }
                ] } },
            { "match" : { "query" : "wolf" } }
          ],
          "max_gaps" : 0,
          "ordered" : true
        }
      }
    }
  }
}

这个查询不会匹配到包含“the big bad wolf”内容的文档,在一个intervals组合规则里“big”是“big bad”的前缀,所以“big bad”被最小化了,如果想实现该效果,需要进行query重写,如:

POST _search
{
  "query": {
    "intervals" : {
      "my_text" : {
        "any_of" : {
          "intervals" : [
            { "match" : {
                "query" : "the big bad wolf",
                "ordered" : true,
                "max_gaps" : 0 } },
            { "match" : {
                "query" : "the big wolf",
                "ordered" : true,
                "max_gaps" : 0 } }
           ]
        }
      }
    }
  }
}
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352

推荐阅读更多精彩内容

  • rljs by sennchi Timeline of History Part One The Cognitiv...
    sennchi阅读 7,320评论 0 10
  • 感恩今天杨总指导我,出现问题,如何和客户沟通,如何去积极解决问题。感恩他的帮助和指导。感恩客户今天主动打款发货,让...
    那朵花蕾阅读 136评论 0 1
  • 学习过js的人大概对typeof都比较了解,但是对instanceof呢,可能感觉比较陌生,我也是,我也是发现了需...
    lxt410725阅读 351评论 0 1
  • 姓名:王明坤 单位:上海日朗门窗有限公司 【日精进打卡第14天】 【知~学习】 《六项精进》大纲3遍 《大学》开篇...
    日月五一阅读 207评论 0 0
  • 数据库的五个基本单位 分类 选择MySql的原因 什么是sql SQL(Structured Query Lang...
    zzzsssr阅读 715评论 0 0