Elasticsearch分页查询总结

使用 from / size 分页

from - 表示起始位置,size - 表示每页数量;类似与 MySQL 的 limit + offset。
示例:

GET /_search
{
    "from" : 10, "size" : 10,
    "query" : {
        "term" : { "user" : "kimchy" }
    }
}

需要注意的是,from + size 不能超过10000,也就是说在前10000条之内,可以随意翻页,10000条之后就不行了。

实际上,通过设置 index.max_result_window 可以修改这个限制,但是不建议这么做,因为这种方式翻页越深效率越低。

原理:

Query阶段:

  1. 当一个请求发送到某个ES节点时,该节点(Node1)会根据from和size,建立一个结果集窗口,窗口大小为from+size。假如from=10000,size=100,则窗口大小为10100。
  2. 此节点将请求广播到其他相关节点上,从每个Shards中取Top 10100条的score和id。
  3. 所有Shards获取的结果汇聚到Node1,假如有5个Shards,则一共会取到5 * 10100 = 50500条数据。
  4. Node1进行归并排序,并选择Top 10100条,存入结果集窗口。

Fetch阶段:
根据Query阶段得到的排序结果,从 from 位置取 size 条数据,抓取文档详细内容返回。

从此过程中可以看出,翻页越靠后,需要参与排序的文档就越多,效率也就越低。所以,如果结果集很大,不建议用这种分页方式。

关于ES搜索请求过程,推荐一篇博文:https://blog.csdn.net/caipeichao2/article/details/46418413(其中query_and_fetch已经在对外接口中去掉了,所以只需了解query_then_fetch过程即可。)

使用 scroll 分页

使用scroll就像传统数据库中的游标一样,方式如下:

第一步

POST /twitter/_search?scroll=1m
{
    "size": 100,
    "query": {
        "match" : {
            "title" : "elasticsearch"
        }
    }
}

scroll=1m,表示“search context”存活时间1分钟。返回结果中会带有一个“_scroll_id”,这个值在后续的翻页过程中使用。

第二步

POST /_search/scroll
{
    "scroll" : "1m",
    "scroll_id" : "DXF1ZXJ5QW5kRmV0Y2gBAAAAAAAAAD4WYm9laVYtZndUQlNsdDcwakFMNjU1QQ=="
}

不用指定index和type,也不用其他查询条件,只要把上一步的_scroll_id即可。

之后翻页一直如此,每次执行会自动滚动100条数据,直到返回的结果为空为止。

每次执行间隔不要超过1分钟,否则“search context”会释放掉。

第三步

DELETE /_search/scroll
{
    "scroll_id" : "DXF1ZXJ5QW5kRmV0Y2gBAAAAAAAAAD4WYm9laVYtZndUQlNsdDcwakFMNjU1QQ=="
}

结果遍历完成后,删除scroll_id。这一步也可以不做,等1分钟后没有继续翻页请求,“search context”会自动释放掉,不过建议还是手动清除,节省资源。

优化:
如果目的是为了遍历所有结果,而不关心结果的顺序,那么可以按“_doc”排序来提高性能

POST /twitter/_search?scroll=1m
{
    "size": 100,
    "query": {
        "match" : {
            "title" : "elasticsearch"
        }
    },
    "sort": ["_doc"]
}

与 from/size 分页方式不同,使用 scroll 分页只能单向顺序翻页,不能随机翻页,适用于遍历结果集的场景。

scroll 翻页能够深度翻页,但是翻页期间需要维护“search context”,这是需要占用一定资源的。

所以对于用户高并发访问的场景,不推荐用这种方式,scroll 更适用于批处理类的后台任务。

使用 search after 分页

这种方式同样可以深度翻页,但是弥补了 scroll 方式的不足。其思想是:用前一次的查询结果作为下一次的查询条件。

示例:

首次查询

GET /user_model/_search
{
  "size": 10,
  "query": {"match_all": {}},
  "sort": [
    {"_id": "asc"}
  ]
}

返回结果:

{
  "took" : 4379,
  "timed_out" : false,
  "_shards" : {
    "total" : 6,
    "successful" : 6,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : 38213940,
    "max_score" : null,
    "hits" : [
      ...
      {
        "_index" : "user_model",
        "_type" : "_doc",
        "_id" : "00000f78f59644b1967783986c35496c",
        "_score" : null,
        "_source" : {
          ...
        },
        "sort" : [
          "00000f78f59644b1967783986c35496c"
        ]
      }
    ]
  }
}

后续查询

GET /user_model/_search
{
  "size": 10,
  "query": {"match_all": {}},
  "sort": [
    {"_id": "asc"}
  ],
  "search_after": ["00000f78f59644b1967783986c35496c"]
}

其中,search_after 为上次查询结果中最后一条记录的 sort 值。

总结:

  1. 如果数据量小(10000条内),或者只关注结果集的TopN数据,可以使用from / size 分页,简单粗暴
  2. 数据量大,深度翻页,后台批处理任务(数据迁移)之类的任务,使用 scroll 方式
  3. 数据量大,深度翻页,用户实时、高并发查询需求,使用 search after 方式
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,937评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,503评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,712评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,668评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,677评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,601评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,975评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,637评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,881评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,621评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,710评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,387评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,971评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,947评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,189评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,805评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,449评论 2 342