Painless script在ElasticSearch 中的使用的一些问题

Painless script在ElasticSearch 中的使用的一些问题

最近在准备ElasticSearch认证工程师的考试,其中Script是比较重要,也是比较难的部分。在这里做一下总结的,主要是自己在做真题时不确定的一些东西。

使用场景

Script使用场景比较多,在做真题的过程中,我遇到过下面一些场景:

  • Ingress Pipeline中使用。
  • reindex索引时使用。
  • query时使用。
    • 使用script产生一个新的field,加入到搜索出的文档中。
    • 作为filter的内嵌函数。对结果进行过滤。
    • 在function_score中使用,取代算分。
  • search template中使用。
  • update/update_by_query中使用。(7.x版本似乎这个功能有bug,做父子关联更新时,提示父子文档需要在同一个分片上,但是一共只有一个分片)
  • 排序中使用。产生一个metric作为排序指标。
  • 在filter中使用。

官网上还有一些其他的使用场景,比如在聚合中使用script,似乎一直没有在真题中见过。

Painless脚本语言

本文的主角painless脚本,是Java语言的一个子集,很多地方的用法和Java是类似的,但是也有一些不一样的地方。之前使用的时候,我一直当做Java在写,其实踩了不少坑。painless的主要API其实是在[painless API reference] > [Shard API]里面,官方文档的位置在https://www.elastic.co/guide/en/elasticsearch/painless/7.2/painless-api-reference-shared.html。这个位置我也是写本文的时候才发现的。看了这部分文档,揭开了之前的一些疑惑。

比如说,把一个字符串按照空格分割成一个字符串数组,我之前使用java的split API来进行分解,ES报错找不到相关接口。后来在文档中发现painless的相关API是String[] splitOnToken(String)。当然,正是因为这个,我有机会接触到了ingest pipeline中的grok以及splite processor。

其他比较多的一些用法有:

  • 访问某个field

在painless里面,文档的field数据要么直接存储在ctx中(ingest,reindex),要么存储在ctx的成员ctx._source中,这俩个对象,都是map类型的,在painless中可以有两种方法进行访问。以ctx._source为例,假设有一个field叫做apple,我们可以使用ctx._source['apple']或者ctx._source.apple进行访问。

  • 判断field是否存在

比如说,判断apple字段是否存在,我可以用if (ctx._source.apple == null)进行判断。又因为ctx._source是一个hashmap,我们也可以用map的相关API进行判断:if (ctx._source.containKey('apple'))

  • 设置新field

上文曾经描述,可以使用ctx['key_name']ctx.key_name这种方法来对hashmap的字段进行访问。这种方法统一可以用来设置新的值。

ctx['key_name'] = value;
ctx.key_name = value; 
  • String转换成int

可以使用Integer的函数parseInt来进行转换。比如说:

String num = '123';
int num_int = Integer.parseInt(num);

其实这个用法和Java是一样的,转换成其他数字类型也是一样的。

  • 单值或者数组

这个场景其实我并没有在实际的题目中看到,但是这个场景我觉得是非常可能出现的,因为ES有个特性,当我们为某个字段做映射时,我们可以指定其类型,比如说,指定为text。在实际写入文档时,我们可以写入一个值,或者是多个值组成的数组。那么问题就来了,我怎样在painless脚本里处理这样的情况呢?我并没有机会知道,我获得的一个值是一个String还是一个ArrayList。那这种情况怎么处理呢?查看painless的关键字https://www.elastic.co/guide/en/elasticsearch/painless/7.2/painless-keywords.html,可以发现,和Java一样,painless有关键字instanceof。我们可以使用instanceof来对类型进行判断。

进行一个小实验,假设有一个index,其包含一个字段tags,tags可以是一个,也可以是多个。

PUT test1
{
  "settings": {
    "number_of_shards": 1,
    "number_of_replicas": 0
  },
  "mappings": {
    "properties": {
      "tags": {
        "type": "keyword"
      }
    }
  }
}

POST test1/_bulk
{"index": {"_id": 1}}
{"tags": "cat"}
{"index": {"_id": 2}}
{"tags": ["cat", "dog"]}
{"index": {"_id": 3}}
{"tags": ["cat", "dog", "tiger"]}

我们要将索引test1重新导入到索引test2中,并且增加一个字段将所有的tag拼接起来。tags字段现在可能是String,也可能是一个ArrayList。因此我们再写painless脚本时要注意识别tags的类型。

PUT _ingest/pipeline/join_tags
{
  "description": "join_tags",
  "processors": [
    {
      "script": {
        "lang": "painless",
        "source": """
        ctx.tags_str = "";
        if (ctx.tags instanceof ArrayList)
        {
          for (String tag: ctx.tags)
          {
            if (ctx.tags_str.length() > 0)
            {
              ctx.tags_str += " " + tag;
            }
            else
            {
              ctx.tags_str = tag;
            }
          }
        }
        else
        {
          ctx.tags_str = ctx.tags
        }
        """
      }
    }
  ]
}

好了,现在可以用_reindex来将test1导入到test2中了。

POST _reindex
{
  "source": {
    "index": "test1"
  },
  "dest": {
    "index": "test2",
    "pipeline": "join_tags"
  }
}

顺便提一句,_reindex里面也可以直接写script,但是就像上面提到的,处理父子关系时会出问题。

小结

上面就是我这几天做题遇到的一些场景,当时做的时候,其实还遇到不少其他情况,不过现在记得不是很清楚了。等我后面想起来再做补充吧。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,099评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,828评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,540评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,848评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,971评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,132评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,193评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,934评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,376评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,687评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,846评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,537评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,175评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,887评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,134评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,674评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,741评论 2 351

推荐阅读更多精彩内容