官方文档-丰富你的数据-Enrich示例

对应7.16官方文档路径： Ingest pipelines » Enrich your data » Example: Enrich your data xxx
官方地址如下：
https://www.elastic.co/guide/en/elasticsearch/reference/7.16/geo-match-enrich-policy-type.html
在创建 enrich policy 时需要指定enrich policy type，用来明确采用何种方式将 enrich data 匹配到传入的文档中，分为三类：

geo_match：根据 geo_shape 查询匹配
match：根据 term 查询匹配精准值
range：根据 term 查询匹配范围值

示例1：基于地理位置丰富你的数据

geo_match类型的 enrich policy 使用geo_shape查询基于地理位置将 enrich data 匹配到传入的文档中。
以下示例创建了一个geo_match类型的 enrich policy ，该策略基于一组地理坐标向传入的文档中添加邮政编码。然后将geo_match丰富策略添加到 ingest pipeline processor。
创建包含geo_shape类型字段的source index：

PUT /postal_codes
{
  "mappings": {
    "properties": {
      "location": {
        "type": "geo_shape"
      },
      "postal_code": {
        "type": "keyword"
      }
    }
  }
}

向source index中加载数据：地理位置为一个矩形以及其对应的邮编

PUT /postal_codes/_doc/1?refresh=wait_for
{
  "location": {
    "type": "envelope",
    "coordinates": [ [ 13.0, 53.0 ], [ 14.0, 52.0 ] ]
  },
  "postal_code": "96598"
}

创建geo_match类型的 enrich policy，必须具备以下前提：

一个或者多个 source indices
一个match_field，来自 source indices 并用其匹配传入的文档
source indices 中用以加入传入文档的 enrich fields

PUT /_enrich/policy/postal_policy
{
  "geo_match": {
    "indices": "postal_codes",
    "match_field": "location",
    "enrich_fields": [ "location", "postal_code" ]
  }
}

执行该策略创建 enrich index：

POST /_enrich/policy/postal_policy/_execute

创建带有刚配置完的 enrich processor 的 ingest pipeline，其必须包含以下部分：

刚配置的 enrich policy
传入的文档中用来和 enrich index 中 match_field 进行匹配的字段field
用来存储来自 enrich index 的 enrich data 的字段target_field
配置两个字段空间匹配逻辑shape_relation

PUT /_ingest/pipeline/postal_lookup
{
  "processors": [
    {
      "enrich": {
        "description": "Add 'geo_data' based on 'geo_location'",
        "policy_name": "postal_policy",
        "field": "geo_location",
        "target_field": "geo_data",
        "shape_relation": "INTERSECTS"
      }
    }
  ]
}

使用配置好的 pipeline 加载数据，传入的数据必须包含上述设置的field字段：

PUT /users/_doc/0?pipeline=postal_lookup
{
  "first_name": "Mardy",
  "last_name": "Brown",
  "geo_location": "POINT (13.5 52.5)"
}

读取刚写入的文档，发现已被丰富了geo_data字段：

{
  "found": true,
  "_index": "users",
  "_type": "_doc",
  "_id": "0",
  "_version": 1,
  "_seq_no": 55,
  "_primary_term": 1,
  "_source": {
    "geo_data": {
      "location": {
        "type": "envelope",
        "coordinates": [[13.0, 53.0], [14.0, 52.0]]
      },
      "postal_code": "96598"
    },
    "first_name": "Mardy",
    "last_name": "Brown",
    "geo_location": "POINT (13.5 52.5)"
  }
}

示例2：基于精确值丰富你的数据`

match类型的 enrich policy 使用term查询基于类似邮件地址、ID等精确数据将 enrich data 匹配到传入的文档中。
以下示例创建了一个match类型的 enrich policy，该策略基于邮件地址向传入的文档中添加用户姓名和其他用户信息。然后将match丰富策略添加到 ingest pipeline processor。
创建包好用到上述字段的source index并写入数据：

PUT /users/_doc/1?refresh=wait_for
{
  "email": "mardy.brown@asciidocsmith.com",
  "first_name": "Mardy",
  "last_name": "Brown",
  "city": "New Orleans",
  "county": "Orleans",
  "state": "LA",
  "zip": 70116,
  "web": "mardy.asciidocsmith.com"
}

创建match类型的 enrich policy，必须具备一下前提：

一个或者多个 source indices
一个match_field，来自 source indices 并用其匹配传入的文档
source indices 中用以加入传入文档的 enrich fields

PUT /_enrich/policy/users-policy
{
  "match": {
    "indices": "users",
    "match_field": "email",
    "enrich_fields": ["first_name", "last_name", "city", "zip", "state"]
  }
}

执行该策略创建enrich index:

POST /_enrich/policy/users-policy/_execute

创建带有刚配置完的 enrich processor 的 ingest pipeline，其必须包含以下部分：

刚配置的 enrich policy
传入的文档中用来和 enrich index 中 match_field 进行匹配的字段field
用来存储来自 enrich index 的 enrich data 的字段target_field

PUT /_ingest/pipeline/user_lookup
{
  "processors" : [
    {
      "enrich" : {
        "description": "Add 'user' data based on 'email'",
        "policy_name": "users-policy",
        "field" : "email",
        "target_field": "user",
        "max_matches": "1"
      }
    }
  ]
}

使用配置好的 pipeline 加载数据，传入的数据必须包含上述设置的field字段：

PUT /my-index-000001/_doc/my_id?pipeline=user_lookup
{
  "email": "mardy.brown@asciidocsmith.com"
}

读取刚写入的文档，发现已被丰富了user字段：

{
  "found": true,
  "_index": "my-index-000001",
  "_type": "_doc",
  "_id": "my_id",
  "_version": 1,
  "_seq_no": 55,
  "_primary_term": 1,
  "_source": {
    "user": {
      "email": "mardy.brown@asciidocsmith.com",
      "first_name": "Mardy",
      "last_name": "Brown",
      "zip": 70116,
      "city": "New Orleans",
      "state": "LA"
    },
    "email": "mardy.brown@asciidocsmith.com"
  }
}

示例3：基于值的范围丰富你的数据

range类型的 enrich policy 使用term查询匹配传入文档中的数字、日期或者IP类型字段与 enrich index 范围一致的文档，不支持范围-范围形式的匹配。
以下示例创建了一个range类型的 enrich policy，该策略基于 IP 地址将而外信息添加到传入文档中。然后将range丰富策略添加 ingest pipeline processor。
创建source index：

PUT /networks
{
  "mappings": {
    "properties": {
      "range": { "type": "ip_range" },
      "name": { "type": "keyword" },
      "department": { "type": "keyword" }
    }
  }
}

向source index中加载数据：

PUT /networks/_doc/1?refresh=wait_for
{
  "range": "10.100.0.0/16",
  "name": "production",
  "department": "OPS"
}

创建range类型的 enrich policy，必须具备以下前提：

一个或者多个 source indices
一个match_field，来自 source indices 并用其匹配传入的文档
source indices 中用以加入传入文档的 enrich fields
由于我们计划基于 IP 地址来丰富文档，因此策略的 match_field必须是一个ip_range字段:

PUT /_enrich/policy/networks-policy
{
  "range": {
    "indices": "networks",
    "match_field": "range",
    "enrich_fields": ["name", "department"]
  }
}

执行该策略创建 enrich index：

POST /_enrich/policy/networks-policy/_execute

创建带有刚配置完的 enrich processor 的 ingest pipeline，其必须包含以下部分：

刚配置的 enrich policy
传入的文档中用来和 enrich index 中 match_field 进行匹配的字段field
用来存储来自 enrich index 的 enrich data 的字段target_field

PUT /_ingest/pipeline/networks_lookup
{
  "processors" : [
    {
      "enrich" : {
        "description": "Add 'network' data based on 'ip'",
        "policy_name": "networks-policy",
        "field" : "ip",
        "target_field": "network",
        "max_matches": "10"
      }
    }
  ]
}

使用配置好的 pipeline 加载数据，传入的数据必须包含上述设置的field字段：

PUT /my-index-000001/_doc/my_id?pipeline=networks_lookup
{
  "ip": "10.100.34.1"
}

读取刚写入的文档，发现已被丰富了network字段：

{
  "_index" : "my-index-000001",
  "_type" : "_doc",
  "_id" : "my_id",
  "_version" : 1,
  "_seq_no" : 0,
  "_primary_term" : 1,
  "found" : true,
  "_source" : {
    "ip" : "10.100.34.1",
    "network" : [
      {
        "name" : "production",
        "range" : "10.100.0.0/16",
        "department" : "OPS"
      }
    ]
  }
}

总结

经过官方提供的三个示例，我们不难发现，enrich 的使用方式就是将传入的文档与 ES 内已存在的数据进行匹配，如果匹配上了就将匹配到的 ES 内已存在的数据的部分内容补充进传入的文档中，用以丰富数据。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 230,362评论 6赞 544
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 99,577评论 3赞 429
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 178,486评论 0赞 383
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 63,852评论 1赞 317
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 72,600评论 6赞 412
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 55,944评论 1赞 328
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 43,944评论 3赞 447
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 43,108评论 0赞 290
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 49,652评论 1赞 336
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 41,385评论 3赞 358
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 43,616评论 1赞 374
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 39,111评论 5赞 364
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 44,798评论 3赞 350
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 35,205评论 0赞 28
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 36,537评论 1赞 295
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 52,334评论 3赞 400
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 48,570评论 2赞 379

官方文档-丰富你的数据-Enrich示例

示例1：基于地理位置丰富你的数据

示例2：基于精确值丰富你的数据`

示例3：基于值的范围丰富你的数据

总结

推荐阅读更多精彩内容