题目
已知:es里存储了一套在线数据索引:log_online
存储了从多个服务器按每分钟一次的频率统计的,各服务器在线人数
求:系统内在线人数的曲线图数据
规则:
- 在线人数的最小统计粒度是1分钟。在线人数 = 某一时刻,所有服务器的在线人数总和
- 如果按每10分钟统计,按10分钟内的最高在线人数统计
思路
- 需要先统计出每分钟,在线人数总和sum
第一个聚合:group_by_min,聚合方式:时间,每分钟
聚合后的统计方式:sum
"aggs": {
"group_by_min": {
"date_histogram": {
"field": "log_time",
"fixed_interval": "1m",
"min_doc_count": 0
},
"aggs": {
"sum_online": {
"sum": {
"field": "online"
}
}
}
}
}
- 基于步骤1的结果,再根据要统计的粒度:比如每小时,再聚合。用max_bucket找出每个分桶的最大值
"aggs": {
"group_by_hour": {
"date_histogram": {
"field": "log_time",
"fixed_interval": "1h",
"format": "yyyy-MM-dd HH",
"time_zone": "+08:00",
"min_doc_count": 0
},
"aggs": {
"group_by_min": {
"date_histogram": {
"field": "log_time",
"fixed_interval": "1m",
"format": "yyyy-MM-dd HH:mm:ss",
"time_zone": "+08:00",
"min_doc_count": 0
},
"aggs": {
"sum_online": {
"sum": {
"field": "online"
}
}
}
},
"max_aggs": {
"max_bucket": {
"buckets_path": "group_by_min>sum_online"
}
}
}
}
}
- 进过两次聚合,数据已经非常多了,而实际要返回的数据其实只是每个时段的最高在线人数,和时段的值,这个需要通过filter_path
GET /log_online/_search?filter_path=aggregations.group_by_hour.buckets.max_aggs.value,aggregations.group_by_hour.buckets.key,aggregations.group_by_hour.buckets.key_as_string