ES插件---payload检索

背景

之前公司有个需求,需要存储多值标签+分值类型的数据,并用来检索,其中标签是有限的,分值最大为1,示例数据如下:

id 字段值
doc1 (标签1,0.95) (标签2,0.8) (标签3,0.6)
doc2 (标签2,0.88) (标签3,0.73) (标签4,0.4)
doc3 (标签1,0.0.96) (标签3,0.85) (标签5,0.77)

标签数值化

针对于这种需求,我们提供了第一版的解决方案,将数据的标签和分值进行整合,将标签数值化,那么整体数据变换为多值数值

标签 对应数值标签
标签1 01
标签2 02
标签3 03
标签4 04
标签5 05

在实际使用过程中,为了方便,我们将小数的分值也*100,变换为了一个整数类型,那么最终的数据就类似于如下:

id 字段值
doc1 1095,2080,3060
doc2 2088,3073,4040
doc3 1096,3085,5077

这样我们就能方便的使用范围查询来召回我们需要的标签及分值的数据。比如,查询标签1,分值在0.8-1范围内的数据,查询条件写成[1080 TO 1100]即可,但是存在一个缺陷,无法按照分值进行排序。

Payload改造

偶然的机会,在社区看到一位朋友的回复,可以通过lucene的payload机制来进行查询及排序,刚好适应这种场景。那位朋友介绍可以通过自定义一个新的query plugin,我这边考虑采用script score的形式去实现,实现了一个script plugin,最终的结果还是比较满意的,能近乎完美的满足我们的需求。

1. 思路

es的底层已经对lucene的score方法进行了完善的封装,适应绝大多数用途,这里使用的script plugin的核心是ScoreScript,只需要在ScoreScript中添加对docpayload获取及分值计算就可以了。

2. 实现效果展示

2.1 定义索引
PUT payload_tags
{
  "mappings": {
    "properties": {
      "tags": {
        "type": "text",
        "term_vector": "with_positions_payloads",
        "analyzer": "payload_delimiter"
      }
    }
  },
  "settings": {
    "analysis": {
      "analyzer": {
        "payload_delimiter": {
          "tokenizer": "whitespace",
          "filter": [ "delimited_payload" ]
        }
      }
    }
  }
}
2.2 样例数据
POST /payload_tags/_doc/1
{
  "tags": "标签1|0.95 标签2|0.8 标签3|0.6",
  "text": "北京"
}

POST /payload_tags/_doc/2
{
  "tags": "标签2|0.88 标签3|0.73 标签4|0.4",
  "text": "北京北京"
}

POST /payload_tags/_doc/3
{
  "tags": "标签1|0.96 标签3|0.85 标签5|0.77",
  "text": "北京北京北京"
}
2.3 基本用法
查询 标签1的数据,按照分值排序
GET payload_tags/_search
{
  "query": {
    "script_score": {
      "query": {
        "match": {
          "tags": "标签1"
        }
      },
      "script": {
        "source": "payload_rank",
        "lang": "payload",
        "params": {
          "field": "tags",
          "term": "标签1"
        }
      }
    }
  }
}

示例结果:
{
  "took" : 2,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 2,
      "relation" : "eq"
    },
    "max_score" : 0.96,
    "hits" : [
      {
        "_index" : "payload_tags",
        "_type" : "_doc",
        "_id" : "3",
        "_score" : 0.96,
        "_source" : {
          "tags" : "标签1|0.96 标签3|0.85 标签5|0.77",
          "text" : "北京北京北京"
        }
      },
      {
        "_index" : "payload_tags",
        "_type" : "_doc",
        "_id" : "1",
        "_score" : 0.95,
        "_source" : {
          "tags" : "标签1|0.95 标签2|0.8 标签3|0.6",
          "text" : "北京"
        }
      }
    ]
  }
}

2.4 function score 实现其他关键词的_score与payload分值的联合计算
GET payload_tags/_search
{
  "query": {
    "function_score": {
      "query": {
        "match": {
          "text": "北京"
        }
      },
      "functions": [
        {
          "script_score": {
            "script": {
              "source": "payload_rank",
              "lang": "payload",
              "params": {
                "field": "tags",
                "term": "标签1"
              }
            }
          }
        }
      ]
    }
  }
}

示例结果:
{
  "took" : 1,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 3,
      "relation" : "eq"
    },
    "max_score" : 0.36389458,
    "hits" : [
      {
        "_index" : "payload_tags",
        "_type" : "_doc",
        "_id" : "3",
        "_score" : 0.36389458,
        "_source" : {
          "tags" : "标签1|0.96 标签3|0.85 标签5|0.77",
          "text" : "北京北京北京"
        }
      },
      {
        "_index" : "payload_tags",
        "_type" : "_doc",
        "_id" : "1",
        "_score" : 0.31894928,
        "_source" : {
          "tags" : "标签1|0.95 标签2|0.8 标签3|0.6",
          "text" : "北京"
        }
      },
      {
        "_index" : "payload_tags",
        "_type" : "_doc",
        "_id" : "2",
        "_score" : 0.0,
        "_source" : {
          "tags" : "标签2|0.88 标签3|0.73 标签4|0.4",
          "text" : "北京北京"
        }
      }
    ]
  }
}

2.5 script_score 实现仅payload分值排序
GET payload_tags/_search
{
  "query": {
    "script_score": {
      "query": {
        "match": {
          "text": "北京"
        }
      },
      "script": {
        "source": "payload_rank",
        "lang": "payload",
        "params": {
          "field": "tags",
          "term": "标签1"
        }
      }
    }
  }
}

示例结果:
{
  "took" : 2,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 3,
      "relation" : "eq"
    },
    "max_score" : 0.96,
    "hits" : [
      {
        "_index" : "payload_tags",
        "_type" : "_doc",
        "_id" : "3",
        "_score" : 0.96,
        "_source" : {
          "tags" : "标签1|0.96 标签3|0.85 标签5|0.77",
          "text" : "北京北京北京"
        }
      },
      {
        "_index" : "payload_tags",
        "_type" : "_doc",
        "_id" : "1",
        "_score" : 0.95,
        "_source" : {
          "tags" : "标签1|0.95 标签2|0.8 标签3|0.6",
          "text" : "北京"
        }
      },
      {
        "_index" : "payload_tags",
        "_type" : "_doc",
        "_id" : "2",
        "_score" : 0.0,
        "_source" : {
          "tags" : "标签2|0.88 标签3|0.73 标签4|0.4",
          "text" : "北京北京"
        }
      }
    ]
  }
}

2.6 min_score 实现对分值的过滤
下面这个请求,查询包含 标签2 的数据, 使用 标签1 的分值进行排序,同时过滤分值0.2以下的数据
GET payload_tags/_search
{
  "query": {
    "script_score": {
      "query": {
        "match": {
          "tags": "标签2"
        }
      },
      "script": {
        "source": "payload_rank",
        "lang": "payload",
        "params": {
          "field": "tags",
          "term": "标签1"
        }
      },
      "min_score":0.2
    }
  }
}

{
  "took" : 1,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 1,
      "relation" : "eq"
    },
    "max_score" : 0.95,
    "hits" : [
      {
        "_index" : "payload_tags",
        "_type" : "_doc",
        "_id" : "1",
        "_score" : 0.95,
        "_source" : {
          "tags" : "标签1|0.95 标签2|0.8 标签3|0.6",
          "text" : "北京"
        }
      }
    ]
  }
}

3. 实现过程

  1. 定义一个Plugin类,继承Plugin父类,这是es所有自定义插件的入口,以便在es启动时加载到guice中。同时实现ScriptPlugin接口,这个是Script插件的入口,使组件正确的加载到Script模块中。如下,只需要重写一个方法。
    private final SetOnce<PayloadScriptEngine> payloadsScriptEngine = new SetOnce<>();

    @Override
    public ScriptEngine getScriptEngine(Settings settings, Collection<ScriptContext<?>> contexts) {
        payloadsScriptEngine.set(new PayloadScriptEngine());
        return payloadsScriptEngine.get();
    }
  1. 定义一个PayloadScriptEngine类,需要实现ScriptEngine接口,将脚本引擎正确的载入到es的模块中。 介绍一下ScriptEngine接口,内容很少,只有如下内容,都已经加上注释了,应该很好理解。
    /**
     * Script名称
     */
    String getType();

    /**
     * 编译脚本,核心内容在这里,
     * @param name Script查询中的name
     * @param source Script查询中的source
     * @param context scipt的作用域 有很多,比如score filter field等,这里我们只用到score
     * @param params 编译时的参数,这里我们不会用到
     * @return  返回一个ScriptFactory,这个是我们实现的Script的工厂类
     */
    <FactoryType> FactoryType compile(
        String name,
        String code,
        ScriptContext<FactoryType> context,
        Map<String, String> params
    );


    /**
     * 需要使用后停用的资源应该在这里关闭
     */
    @Override
    default void close() throws IOException {}

    /**
     * 这里配置script支持的作用域,这里我们只需要支持ScoreScript.CONTEXT就可以了
     */
    Set<ScriptContext<?>> getSupportedContexts();
  1. compile()方法中,需要返回一个ScriptFactory,需要做的是实现ScoreScript.Factory
    ScriptFactory
    private static class PayloadFactory implements ScoreScript.Factory,
            ScriptFactory {
        
        @Override
        public boolean isResultDeterministic() {
            return true;
        }

        /**
        * ScoreScript 实例的工厂类
        */
        @Override
        public ScoreScript.LeafFactory newFactory(
                Map<String, Object> params,
                SearchLookup lookup
        ) {
            // 请注意这里,我们需要将params传进去,因为需要使用params中的两个值 field 和 term,以确定我们获取什么字段的哪个term的payload信息。
            return new PayloadLeafFactory(params, lookup);
        }
    }
  1. PayloadLeafFactory 是自定义的一个工厂类,实现ScoreScript.LeafFactory接口,用来生成ScroreScript实例,核心方法为newInstance(LeafReaderContext context),接口详解如下:
 
    /**
    * Return {@code true} if the script needs {@code _score} calculated, or {@code false} otherwise.
    */
    boolean needs_score();
    // 生成ScoreScript实例 ScoreScript是对
    ScoreScript newInstance(LeafReaderContext ctx) throws IOException;
   
  1. 最后的,也是本插件最核心的ScoreScript,这个类会遍历每个doc,然后我们可以在其中获取每个doc的payload值,然后依据payload返回相关的分数。
new ScoreScript(params, lookup, context) {
    // payload值,放到成员变量,方便计算完成后返回相关值
    BytesRef payload = null;

    /*
    * 每次一个docid,在这里会遍历符合条件的所有id
    */
    @Override
    public void setDocument(int docid) {
        try {
            // 根据docid和field获取terms的信息,这里会取到多个term
            Terms terms = context.reader().getTermVector(docid, field);
            if (terms != null) {
                TermsEnum termsEnum = terms.iterator();
                if (termsEnum.seekExact(new BytesRef(term.getBytes()))) {     // 获取我们需要关注的term
                    PostingsEnum postings = termsEnum.postings(null, PostingsEnum.ALL);
                    postings.nextDoc();
                    postings.nextPosition();
                    // 这里获取payload
                    payload = postings.getPayload();
                    // 查到之后就跳出方法
                    return;
                }
            }
        } catch (IOException e) {
            logger.debug("docid:{},field:{},term:{},get payload error!,stack:{}", docid, field, term, e.getStackTrace());
        }
        // 没有查到的情况下,将payload置为null
        payload = null;
    }

    /**
     * 这里会生成对应id的分值
    */
    @Override
    public double execute(ExplanationHolder explanation) {
        // payload 为null,可能是没有这个term,或者其他情况,分值置为0
        if (payload == null) {
            return 0.0d;
        }
        // 否则置为payload存储的数值
        return PayloadHelper.decodeFloat(payload.bytes, payload.offset);
    }
};
  1. 综上,整体的插件的实现已基本完成。
补充优化

该文章的插件后续有过一些优化,在此贴出相关代码,主要是调整term对应payload的获取方式,修改5对应的内容

   public ScoreScript newInstance(LeafReaderContext context) throws IOException {
            final PostingsEnum postings = context.reader().postings(new Term(field, term), PostingsEnum.PAYLOADS);
            if (postings == null) {
                return new ScoreScript(params, lookup, context) {
                    @Override
                    public double execute(ExplanationHolder explanation) {
                        return 0;
                    }
                };
            }
            return new ScoreScript(params, lookup, context) {
                int currentDocId = -1;

                /*
                 * 每次一个docid,在这里会遍历符合条件的所有id
                 */
                @Override
                public void setDocument(int docid) {
                    if (postings.docID() < docid) {
                        try {
                            postings.advance(docid);
                        } catch (IOException e) {
                            throw new UncheckedIOException(e);
                        }
                    }
                    currentDocId = docid;
                }

                /**
                 * 这里会生成对应id的分值
                 */
                @Override
                public double execute(ExplanationHolder explanation) {
                    double score = 0;
                    try {
                        if (postings.docID() == currentDocId) {
                            postings.nextPosition();
                            // 这里获取payload,如果同一个term出现多次,也仅取了第一个的数值.可以取多次,根据场景需要再调整
                            BytesRef payload = postings.getPayload();

                            score = PayloadHelper.decodeFloat(payload.bytes, payload.offset);
                        }
                    } catch (IOException e) {
                        throw new UncheckedIOException(e);
                    }
                    return score;
                }
            };

        }

使用方式

  1. 将插件编译完成,放置于plugins目录下
  2. 启动es集群
  3. 接下来就可以按照示例,愉悦的使用payload进行检索和排序了

结语

小小插件虽然简单,也颇费心思,感谢阅读!各位朋友如有其它见解和想法也请留言讨论,谢谢~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,542评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,596评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,021评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,682评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,792评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,985评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,107评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,845评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,299评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,612评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,747评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,441评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,072评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,828评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,069评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,545评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,658评论 2 350

推荐阅读更多精彩内容