Elasticsearch 之聚合分析入门

本文主要介绍 Elasticsearch 的聚合功能，介绍什么是 Bucket 和 Metric 聚合，以及如何实现嵌套的聚合。

首先来看下聚合（Aggregation）：

什么是 Aggregation？

首先举一个生活中的例子，这个是京东的搜索界面，在搜索框中输入“华为”进行搜索，就会得到如上界面，搜索框就是我们常用的搜索功能，而下面这些，比如分类、热点、操作系统、CPU 类型等是根据 ES 的聚合分析获得的相关结果。

看完上面这个例子，下面来看下聚合的定义：

ES 除了搜索以外，还提供针对 ES 数据进行统计分析的功能，也就是聚合，它的特点是实时性非常高，所有的计算结果都是即时返回的，而 Hadoop 等大数据系统得到一个统计结果需要一天的时间，一般都是 T + 1 级别的。

通过聚合，我们会得到一个数据的概览，是分析和总结全套的数据，而不是寻找单个文档，比如海淀区和东城区的客房数量，不同价格区间，可预订的经济型酒店和商务型酒店的数量，这样可以帮助我们过滤搜索的结果，这样的优点是性能高，只需要一条语句，就可以从 ES 得到分析结果，无需再客户端自己去实现分析逻辑。

在 ES 的聚合中主要一共分为四大类：

Bucket Aggregation：分桶类型，一些列满足特定条件的文档的集合
Metric Aggregation：指标分析类型，一些数学运算，可以对文档字段进行统计分析，比如计算最大值、最小值、平均值等
Pipeline Aggregation：管道分析类型，对其他聚合结果进行二次聚合
Matrix Aggregation：矩阵分析类型，支持对多个字段的操作并提供一个结果矩阵

在以后的文章会对这些做详细的讲解，本文先来了解下什么是 Bucket 和 Metric：

Bucket 简单来说相当于 SQL 中的 GROUP，可以根据条件，把结果分成一个一个的组，那 Metric 相当于 SQL 中的 COUNT，可以去执行一系列的统计方法。

接下来看什么是 Bucket Aggregation：

Bucket Aggregation

Bucket 就是桶的意思，即按照一定的规则将文档分配到不同的桶中，达到分类分析的目的。如上图所示，左边有一堆文档，右边有三个桶，每个桶有不同的规则，比如第一个桶的规则为价格小于 3000 的，第二个桶为价格大于等于 3000 小于 6000 的，最后一个桶的规则为价格大于 6000 的，然后不同的文档根据不同的价格分到不同的桶中，那么我们就实现了分类。

有了 Bucket 聚合分析机制，我们就可以把公司员工以年龄方式进行区分，以地理位置的方式来区分客户，以男性女性来区分演员等。

根据 Bucket 的分桶策略，常见的 Bucket 聚合分析如下：

Terms：直接按照 term 来分桶，如果是 text 类型，则按照分词后的结果分桶
Range：指定数值的范围来设定分桶规则
Date Range：指定日期的范围来设定分桶规则
Histogram：直方图，以固定间隔的策略来分割数据
Date Histogram：针对日期的直方图或者柱状图，是时序数据分析中常用的聚合分析类型

下面以 Terms 为例，让我们动手实践下：

这是一个查看航班目的地的统计信息的例子，通过指定关键词为 terms，然后指明 term 字段 field 为 DestCountry，下面我们请求下，查看下请求结果：

从结果中可以看到文档根据目的地分成了不同的桶，每个桶还包括 doc_count，这样就可以很轻松知道 ES 存储的航班信息中，去往意大利、美国、中国等国家分别有多少架航班。

在简单了解了 Bucket 聚合分析后，让我们来看下 Metric 聚合分析：

Metric Aggregation

Metric 是基于数据集计算的结果，除了支持在字段上进行计算，同样也支持在脚本产生的结果之上进行计算。Metric 主要分为单值分析和多值分析，具体内容如下：

单值分析，只输出一个分析结果：

Min、Max、Avg、Sum
Cardinality

其中，Min、Max、Avg、Sum 这些很容易理解，在这里说一下 Cardinality，它是指不同数值的个数，相当于 SQL 中的 distinct。

多值分析，输出多个分析结果：

Stats、Extended Stats
Percentiles、Percentile Ranks
Top Hits

其中，Stats 是做多样的数据分析，可以一次性得到最大值、最小值、平均值、中值等数据；Extended Stats 是对 Stats 的扩展，包含了更多的统计数据，比如方差、标准差等；Percentiles 和 Percentile Ranks 是百分位数的一个统计；Top Hits 一般用于分桶后获取桶内最匹配的顶部文档列表，即详情数据。

了解之后，让我们实操起来，紧接着刚才查看航班目的地的统计信息的例子，如果还想知道机票的均价，最高最低价格，该怎么做呢？这就需要用到 Metric 了：

我们在请求中加入 aggs，其中 avg_price 为自己定义的名字，这个是为了方便在以后理解这个字段返回值的含义，然后分别关键词分别选择 avg、max、min 来完成计算目的地不同的航班的机票均价、最高最低价格，这个请求的执行结果如下所示：

从结果中可以看出，飞往意大利的航班一共有 2371 架，其中机票最高价格为 1195 元，最低价格为 100 元，平均价格为 586 元，很快就可以得到统计的一些结果。

另外，聚合分析还支持嵌套，那么让我们看下如果实现一个嵌套聚合分析：

通过这个请求不但可以获取到航班目的地的统计信息，还可以得到航班抵达时的天气状况，运行结果如下所示：

可以看出，在抵达意大利的航班中，抵达时的天气有 424 次为晴天，417 次为下雨天等，所以通过嵌套的方式就可以很快得到更深层次的数据统计值。

总结

本文对 Elasticsearch 的聚合功能做了初步介绍，也学习 Bucket 和 Metric 聚合分析，在后续文章会对聚合功能做一个更加深入的讲解。

下面是我总结的 Elasticsearch 聚合分析的思维导图，在公众号【武培轩】回复【es】获取思维导图以及源代码。

参考文献

Elastic Stack从入门到实践

Elasticsearch核心技术与实战

https://www.elastic.co/guide/en/elasticsearch/reference/7.1/search-aggregations.html

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 219,589评论 6赞 508
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,615评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 165,933评论 0赞 356
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,976评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,999评论 6赞 393
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,775评论 1赞 307
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,474评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,359评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,854评论 1赞 317
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,007评论 3赞 338
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,146评论 1赞 351
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,826评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,484评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,029评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,153评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,420评论 3赞 373
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,107评论 2赞 356

Elasticsearch 之聚合分析入门

什么是 Aggregation？

Bucket Aggregation

Metric Aggregation

总结

推荐阅读更多精彩内容