ES基本的聚合查询

ES提供了强大的聚合分析功能,按照操作上细化,可以主要分为四种,如下表所示:

聚合方式 解释
Bucket Aggregation 一些满足特定条件的文档的集合
Metric Aggregation 一些数学计算,可以对文档字段统计分析
Pipeline Aggregation 对其他的聚合结果进行二次聚合
Metrix Aggregation 支持对多个字段的操作并提供一个结果矩阵

     在我个人看来这些只是理论意义上的细化,在实际的应用过程中,我们并没有说针对那种场景使用那种聚合分析。都是为了满足我们的业务,在实现的过程中同时会使用到多种聚合的方式。

一. 四种聚合方式

1.1 Bucket(分桶)

     分桶就是将具有某一类共同特征的数据归为一类,然后求其总数,例如: 男女、公司同一工作岗位的员工、商品高中低档等。在对数据分桶后还可以进一步分桶,例如:0~ 20岁男性、21~50岁男性、50岁以上男性;同一工作岗位男性、女性;高档商品好评、中评、差评的商品。


分桶

1.2 Metric(计算)

     计算具有一类特征的数据的统计值,例如平均值、最大值、最小值等。

1.3 Pipeline(管道)

     pipeline与Linux操作系统中的管道操作(将上一步操作的结果作为下一步操作的数据源)类似。即将上一次聚合操作的结果作为下一次聚合操作的数据源。

1.4 Metrix(矩阵)

     矩阵就是同时可以支持多值的输出,例如对分桶的数据同时求平均、最大、最小值;

二. 具体的案例

     在说具体的案例的时候笔者并不会严格的去按照四种聚合方式去讲解。首先在ES中插入一批的测试数据,在插入测试数据之前先定义mapping.

2.1 mapping的定义

PUT employee
{
  "mappings": {
    "properties": {
      "id": {
        "type": "integer"
      },
      "name": {
        "type": "keyword"
      },
      "job": {
        "type": "keyword"
      },
      "age": {
        "type": "integer"
      },
      "gender": {
        "type": "keyword"
      }
    }
  }
}

2.2 插入数据

PUT employee/_bulk
{"index": {"_id": 1}}
{"id": 1, "name": "Bob", "job": "java", "age": 21, "sal": 8000, "gender": "male"}
{"index": {"_id": 2}}
{"id": 2, "name": "Rod", "job": "html", "age": 31, "sal": 18000, "gender": "female"}
{"index": {"_id": 3}}
{"id": 3, "name": "Gaving", "job": "java", "age": 24, "sal": 12000, "gender": "male"}
{"index": {"_id": 4}}
{"id": 4, "name": "King", "job": "dba", "age": 26, "sal": 15000, "gender": "female"}
{"index": {"_id": 5}}
{"id": 5, "name": "Jonhson", "job": "dba", "age": 29, "sal": 16000, "gender": "male"}
{"index": {"_id": 6}}
{"id": 6, "name": "Douge", "job": "java", "age": 41, "sal": 20000, "gender": "female"}
{"index": {"_id": 7}}
{"id": 7, "name": "cutting", "job": "dba", "age": 27, "sal": 7000, "gender": "male"}
{"index": {"_id": 8}}
{"id": 8, "name": "Bona", "job": "html", "age": 22, "sal": 14000, "gender": "female"}
{"index": {"_id": 9}}
{"id": 9, "name": "Shyon", "job": "dba", "age": 20, "sal": 19000, "gender": "female"}
{"index": {"_id": 10}}
{"id": 10, "name": "James", "job": "html", "age": 18, "sal": 22000, "gender": "male"}
{"index": {"_id": 11}}
{"id": 11, "name": "Golsling", "job": "java", "age": 32, "sal": 23000, "gender": "female"}
{"index": {"_id": 12}}
{"id": 12, "name": "Lily", "job": "java", "age": 24, "sal": 2000, "gender": "male"}
{"index": {"_id": 13}}
{"id": 13, "name": "Jack", "job": "html", "age": 23, "sal": 3000, "gender": "female"}
{"index": {"_id": 14}}
{"id": 14, "name": "Rose", "job": "java", "age": 36, "sal": 6000, "gender": "female"}
{"index": {"_id": 15}}
{"id": 15, "name": "Will", "job": "dba", "age": 38, "sal": 4500, "gender": "male"}
{"index": {"_id": 16}}
{"id": 16, "name": "smith", "job": "java", "age": 32, "sal": 23000, "gender": "male"}

数据说明:插入的数据为员工信息,name是员工的姓名,job是员工的工种,age为员工的年龄,sal为员工的薪水,gender为员工的性别

2.3 聚合查询

查询工种的数量

GET employee/_search
{
  "size": 0, 
  "aggs": {
    "job_category_count": {
      "cardinality": {
        "field": "job"
      }
    }
  }
}
员工的分桶信息

查询每个工种的分桶信息

GET employee/_search
{
  "size": 0,
  "aggs": {
    "job_category_num": {
      "cardinality": {
        "field": "job"
      }
    }
  }
}
查询工种的数量

查询不同工种的员工的数量,并查询每个工种最大年龄的员工信息。

GET employee/_search
{
  "size": 0, 
  "aggs": {
    "job_analysis": {
      "terms": {
        "field": "job"
      },
      "aggs": {
        "age_top_1": {
          "top_hits": {
            "size": 1,
            "sort": [
              {
                "age": {
                  "order": "desc"
                }
              }  
            ]
          }
        }
      }
    }
  }
}
不同工种最大年龄员工信息

查询工资范围在 0~5000, 5001~8000, 8001~12000, 12001~18000, 18001+ 员工的人数

GET employee/_search
{
  "size": 0, 
  "aggs": {
    "sal_range_info": {
      "range": {
        "field": "sal",
        "ranges": [
          {
            "to": 5000
          },
          {
            "from": 5001,
            "to": 8000
          },
          {
            "from": 8001,
            "to": 12000
          },
          {
            "from": 12001,
            "to": 18000
          },
          {
            "from": 18001
          }
        ]
      }
    }
  }
}
查询在指定工资范围内的员工数量

以每5000为一个区间,查询工资在对应范围内的员工的数量

GET employee/_search
{
  "size": 0, 
  "aggs": {
    "sal_histogram": {
      "histogram": {
        "field": "sal",
        "interval": 5000,
        "extended_bounds": {
          "min": 0,
          "max": 25000
        }
      }
    }
  }
}
直方图指定区间查询

查询每个工种的数量,以及不同工种的工资统计信息

GET employee/_search
{
  "size": 0, 
  "aggs": {
    "job_and_salary_info": {
      "terms": {
        "field": "job"
      },
      "aggs": {
        "sal_info": {
          "stats": {
            "field": "sal"
          }
        }
      }
    }
  }
}
多结果的矩阵

不同工种下男女员工的数量,以及男女员工的薪资信息

GET employee/_search
{
  "size": 0, 
  "aggs": {
    "job_gender_sal_info": {
      "terms": {
        "field": "job"
      },
      "aggs": {
        "gender_info": {
          "terms": {
            "field": "gender"
          },
          "aggs": {
            "sal_info": {
              "stats": {
                "field": "sal"
              }
            }
          }
        }
      }
    }
  }
}
聚合嵌套查询

查询平均工资最低的部门的平均工资,以及最低工资。

GET employee/_search
{
  "size": 0, 
  "aggs": {
    "jobs": {
      "terms": {
        "field": "job"
      },
      "aggs": {
        "sal_info": {
          "avg": {
            "field": "sal"
          }
        }
      }
    },
    "min_avg_sal": {
      "max_bucket": {
        "buckets_path": "jobs>sal_info"
      }
    }
  }
}
管道操作(jobs>sal_info中的>不是大于的意思,描述的为路径)

三. ES自带航空数据案例

查询到达各目的地的航班的数量

GET kibana_sample_data_flights/_search
{
  "size": 0, 
  "aggs": {
    "dest_info": {
      "terms": {
        "field": "DestCountry"
      }
    }
  }
}
到各目的地的班次数

查询到达各航班的的数量,以及票价的最大值,平均值。

GET kibana_sample_data_flights/_search
{
  "size": 0, 
  "aggs": {
    "dest_info": {
      "terms": {
        "field": "DestCountry"
      },
      "aggs": {
        "max_ticket_price": {
          "max": {
            "field": "AvgTicketPrice"
          }
        },
        "avg_ticket_price": {
          "avg": {
            "field": "AvgTicketPrice"
          }
        }
      }
    }
  }
}
Metric查询

查询到达各航班的的数量,以及票价的聚合信息以及天气的基本信息。

GET kibana_sample_data_flights/_search
{
  "size": 0, 
  "aggs": {
    "dest_info": {
      "terms": {
        "field": "DestCountry"
      },
      "aggs": {
        "ticket_info": {
          "stats": {
            "field": "AvgTicketPrice"
          }
        },
        "weather_info": {
          "terms": {
            "field": "DestWeather"
          }
        }
      }
    }
  }
}
Metric与Bucket

鸣谢

全文几乎没有自己原创的内容,只是对极客时间中阮一鸣老师的 Elasticsearch核心技术与实战 自己稍稍的做了下总结。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342