官方文档-丰富你的数据-Enrich示例

对应7.16官方文档路径: Ingest pipelines » Enrich your data » Example: Enrich your data xxx
官方地址如下:
https://www.elastic.co/guide/en/elasticsearch/reference/7.16/geo-match-enrich-policy-type.html
在创建 enrich policy 时需要指定enrich policy type,用来明确采用何种方式将 enrich data 匹配到传入的文档中,分为三类:

  • geo_match:根据 geo_shape 查询匹配
  • match:根据 term 查询匹配精准值
  • range:根据 term 查询匹配范围值

示例1:基于地理位置丰富你的数据

geo_match类型的 enrich policy 使用geo_shape查询基于地理位置将 enrich data 匹配到传入的文档中。
以下示例创建了一个geo_match类型的 enrich policy ,该策略基于一组地理坐标向传入的文档中添加邮政编码。然后将geo_match丰富策略添加到 ingest pipeline processor。
创建包含geo_shape类型字段的source index

PUT /postal_codes
{
  "mappings": {
    "properties": {
      "location": {
        "type": "geo_shape"
      },
      "postal_code": {
        "type": "keyword"
      }
    }
  }
}

source index中加载数据:地理位置为一个矩形以及其对应的邮编

PUT /postal_codes/_doc/1?refresh=wait_for
{
  "location": {
    "type": "envelope",
    "coordinates": [ [ 13.0, 53.0 ], [ 14.0, 52.0 ] ]
  },
  "postal_code": "96598"
}

创建geo_match类型的 enrich policy,必须具备以下前提:

  • 一个或者多个 source indices
  • 一个match_field,来自 source indices 并用其匹配传入的文档
  • source indices 中用以加入传入文档的 enrich fields
PUT /_enrich/policy/postal_policy
{
  "geo_match": {
    "indices": "postal_codes",
    "match_field": "location",
    "enrich_fields": [ "location", "postal_code" ]
  }
}

执行该策略创建 enrich index

POST /_enrich/policy/postal_policy/_execute

创建带有刚配置完的 enrich processor 的 ingest pipeline,其必须包含以下部分:

  • 刚配置的 enrich policy
  • 传入的文档中用来和 enrich index 中 match_field 进行匹配的字段field
  • 用来存储来自 enrich index 的 enrich data 的字段target_field
  • 配置两个字段空间匹配逻辑shape_relation
PUT /_ingest/pipeline/postal_lookup
{
  "processors": [
    {
      "enrich": {
        "description": "Add 'geo_data' based on 'geo_location'",
        "policy_name": "postal_policy",
        "field": "geo_location",
        "target_field": "geo_data",
        "shape_relation": "INTERSECTS"
      }
    }
  ]
}

使用配置好的 pipeline 加载数据,传入的数据必须包含上述设置的field字段:

PUT /users/_doc/0?pipeline=postal_lookup
{
  "first_name": "Mardy",
  "last_name": "Brown",
  "geo_location": "POINT (13.5 52.5)"
}

读取刚写入的文档,发现已被丰富了geo_data字段:

{
  "found": true,
  "_index": "users",
  "_type": "_doc",
  "_id": "0",
  "_version": 1,
  "_seq_no": 55,
  "_primary_term": 1,
  "_source": {
    "geo_data": {
      "location": {
        "type": "envelope",
        "coordinates": [[13.0, 53.0], [14.0, 52.0]]
      },
      "postal_code": "96598"
    },
    "first_name": "Mardy",
    "last_name": "Brown",
    "geo_location": "POINT (13.5 52.5)"
  }
}

示例2:基于精确值丰富你的数据`

match类型的 enrich policy 使用term查询基于类似邮件地址、ID等精确数据将 enrich data 匹配到传入的文档中。
以下示例创建了一个match类型的 enrich policy,该策略基于邮件地址向传入的文档中添加用户姓名和其他用户信息。然后将match丰富策略添加到 ingest pipeline processor。
创建包好用到上述字段的source index并写入数据:

PUT /users/_doc/1?refresh=wait_for
{
  "email": "mardy.brown@asciidocsmith.com",
  "first_name": "Mardy",
  "last_name": "Brown",
  "city": "New Orleans",
  "county": "Orleans",
  "state": "LA",
  "zip": 70116,
  "web": "mardy.asciidocsmith.com"
}

创建match类型的 enrich policy,必须具备一下前提:

  • 一个或者多个 source indices
  • 一个match_field,来自 source indices 并用其匹配传入的文档
  • source indices 中用以加入传入文档的 enrich fields
PUT /_enrich/policy/users-policy
{
  "match": {
    "indices": "users",
    "match_field": "email",
    "enrich_fields": ["first_name", "last_name", "city", "zip", "state"]
  }
}

执行该策略创建enrich index:

POST /_enrich/policy/users-policy/_execute

创建带有刚配置完的 enrich processor 的 ingest pipeline,其必须包含以下部分:

  • 刚配置的 enrich policy
  • 传入的文档中用来和 enrich index 中 match_field 进行匹配的字段field
  • 用来存储来自 enrich index 的 enrich data 的字段target_field
PUT /_ingest/pipeline/user_lookup
{
  "processors" : [
    {
      "enrich" : {
        "description": "Add 'user' data based on 'email'",
        "policy_name": "users-policy",
        "field" : "email",
        "target_field": "user",
        "max_matches": "1"
      }
    }
  ]
}

使用配置好的 pipeline 加载数据,传入的数据必须包含上述设置的field字段:

PUT /my-index-000001/_doc/my_id?pipeline=user_lookup
{
  "email": "mardy.brown@asciidocsmith.com"
}

读取刚写入的文档,发现已被丰富了user字段:

{
  "found": true,
  "_index": "my-index-000001",
  "_type": "_doc",
  "_id": "my_id",
  "_version": 1,
  "_seq_no": 55,
  "_primary_term": 1,
  "_source": {
    "user": {
      "email": "mardy.brown@asciidocsmith.com",
      "first_name": "Mardy",
      "last_name": "Brown",
      "zip": 70116,
      "city": "New Orleans",
      "state": "LA"
    },
    "email": "mardy.brown@asciidocsmith.com"
  }
}

示例3:基于值的范围丰富你的数据

range类型的 enrich policy 使用term查询匹配传入文档中的数字、日期或者IP类型字段与 enrich index 范围一致的文档,不支持范围-范围形式的匹配。
以下示例创建了一个range类型的 enrich policy,该策略基于 IP 地址将而外信息添加到传入文档中。然后将range丰富策略添加 ingest pipeline processor。
创建source index

PUT /networks
{
  "mappings": {
    "properties": {
      "range": { "type": "ip_range" },
      "name": { "type": "keyword" },
      "department": { "type": "keyword" }
    }
  }
}

source index中加载数据:

PUT /networks/_doc/1?refresh=wait_for
{
  "range": "10.100.0.0/16",
  "name": "production",
  "department": "OPS"
}

创建range类型的 enrich policy,必须具备以下前提:

  • 一个或者多个 source indices
  • 一个match_field,来自 source indices 并用其匹配传入的文档
  • source indices 中用以加入传入文档的 enrich fields
    由于我们计划基于 IP 地址来丰富文档,因此策略的 match_field必须是一个ip_range字段:
PUT /_enrich/policy/networks-policy
{
  "range": {
    "indices": "networks",
    "match_field": "range",
    "enrich_fields": ["name", "department"]
  }
}

执行该策略创建 enrich index:

POST /_enrich/policy/networks-policy/_execute

创建带有刚配置完的 enrich processor 的 ingest pipeline,其必须包含以下部分:

  • 刚配置的 enrich policy
  • 传入的文档中用来和 enrich index 中 match_field 进行匹配的字段field
  • 用来存储来自 enrich index 的 enrich data 的字段target_field
PUT /_ingest/pipeline/networks_lookup
{
  "processors" : [
    {
      "enrich" : {
        "description": "Add 'network' data based on 'ip'",
        "policy_name": "networks-policy",
        "field" : "ip",
        "target_field": "network",
        "max_matches": "10"
      }
    }
  ]
}

使用配置好的 pipeline 加载数据,传入的数据必须包含上述设置的field字段:

PUT /my-index-000001/_doc/my_id?pipeline=networks_lookup
{
  "ip": "10.100.34.1"
}

读取刚写入的文档,发现已被丰富了network字段:

{
  "_index" : "my-index-000001",
  "_type" : "_doc",
  "_id" : "my_id",
  "_version" : 1,
  "_seq_no" : 0,
  "_primary_term" : 1,
  "found" : true,
  "_source" : {
    "ip" : "10.100.34.1",
    "network" : [
      {
        "name" : "production",
        "range" : "10.100.0.0/16",
        "department" : "OPS"
      }
    ]
  }
}

总结

经过官方提供的三个示例,我们不难发现,enrich 的使用方式就是将传入的文档与 ES 内已存在的数据进行匹配,如果匹配上了就将匹配到的 ES 内已存在的数据的部分内容补充进传入的文档中,用以丰富数据。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,826评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,968评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,234评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,562评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,611评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,482评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,271评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,166评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,608评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,814评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,926评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,644评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,249评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,866评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,991评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,063评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,871评论 2 354

推荐阅读更多精彩内容