步骤拆解：使用ES做分桶聚合又聚合

题目

已知：es里存储了一套在线数据索引：log_online
存储了从多个服务器按每分钟一次的频率统计的，各服务器在线人数
求：系统内在线人数的曲线图数据

规则：

在线人数的最小统计粒度是1分钟。在线人数 = 某一时刻，所有服务器的在线人数总和
如果按每10分钟统计，按10分钟内的最高在线人数统计

思路

需要先统计出每分钟，在线人数总和sum
第一个聚合：group_by_min，聚合方式：时间，每分钟
聚合后的统计方式：sum

"aggs": {
  "group_by_min": {
     "date_histogram": {
       "field":  "log_time",
       "fixed_interval": "1m",
       "min_doc_count": 0
     },
   "aggs": {
     "sum_online": {
       "sum": {
          "field": "online"
       }
     }
   }
  }
}

基于步骤1的结果，再根据要统计的粒度：比如每小时，再聚合。用max_bucket找出每个分桶的最大值

 "aggs": {
    "group_by_hour": {
      "date_histogram": {
        "field": "log_time",
        "fixed_interval": "1h",
        "format": "yyyy-MM-dd HH",
        "time_zone": "+08:00", 
        "min_doc_count": 0
      },
      "aggs": {
        "group_by_min": {
          "date_histogram": {
            "field": "log_time",
            "fixed_interval": "1m",
            "format": "yyyy-MM-dd HH:mm:ss",
            "time_zone": "+08:00",
            "min_doc_count": 0
          },
          "aggs": {
            "sum_online": {
              "sum": {
                "field": "online"
              }
            }
          }
        },
        "max_aggs": {
          "max_bucket": {
            "buckets_path": "group_by_min>sum_online"
          }
        }
      }
    }
  }

进过两次聚合，数据已经非常多了，而实际要返回的数据其实只是每个时段的最高在线人数，和时段的值，这个需要通过filter_path

GET /log_online/_search?filter_path=aggregations.group_by_hour.buckets.max_aggs.value,aggregations.group_by_hour.buckets.key,aggregations.group_by_hour.buckets.key_as_string

最后编辑于：2022.08.05 20:36:25

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

步骤拆解：使用ES做分桶聚合又聚合

题目

思路

友情链接更多精彩内容