步骤拆解:使用ES做分桶聚合又聚合

题目

已知:es里存储了一套在线数据索引:log_online
存储了从多个服务器按每分钟一次的频率统计的,各服务器在线人数
求:系统内在线人数的曲线图数据

规则:

  1. 在线人数的最小统计粒度是1分钟。在线人数 = 某一时刻,所有服务器的在线人数总和
  2. 如果按每10分钟统计,按10分钟内的最高在线人数统计

思路

  1. 需要先统计出每分钟,在线人数总和sum
    第一个聚合:group_by_min,聚合方式:时间,每分钟
    聚合后的统计方式:sum
"aggs": {
  "group_by_min": {
     "date_histogram": {
       "field":  "log_time",
       "fixed_interval": "1m",
       "min_doc_count": 0
     },
   "aggs": {
     "sum_online": {
       "sum": {
          "field": "online"
       }
     }
   }
  }
}
  1. 基于步骤1的结果,再根据要统计的粒度:比如每小时,再聚合。用max_bucket找出每个分桶的最大值
 "aggs": {
    "group_by_hour": {
      "date_histogram": {
        "field": "log_time",
        "fixed_interval": "1h",
        "format": "yyyy-MM-dd HH",
        "time_zone": "+08:00", 
        "min_doc_count": 0
      },
      "aggs": {
        "group_by_min": {
          "date_histogram": {
            "field": "log_time",
            "fixed_interval": "1m",
            "format": "yyyy-MM-dd HH:mm:ss",
            "time_zone": "+08:00",
            "min_doc_count": 0
          },
          "aggs": {
            "sum_online": {
              "sum": {
                "field": "online"
              }
            }
          }
        },
        "max_aggs": {
          "max_bucket": {
            "buckets_path": "group_by_min>sum_online"
          }
        }
      }
    }
  }
  1. 进过两次聚合,数据已经非常多了,而实际要返回的数据其实只是每个时段的最高在线人数,和时段的值,这个需要通过filter_path
GET /log_online/_search?filter_path=aggregations.group_by_hour.buckets.max_aggs.value,aggregations.group_by_hour.buckets.key,aggregations.group_by_hour.buckets.key_as_string
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。