Elasticsearch8.1 -- 23. 文本分析-分析器analyzer

Elasticsearch 分析器由3部分组成：character filters 字符过滤器、 tokenizers 分词器 和 token filters 标记过滤器。
Elasticsearch 内置了一些的分析器供我们使用，同时也允许我们自定义组合创建分析器。

character filters 字符过滤器
接收处理原始文本，通过添加、删除或更改字符来转换流。例如，字符过滤器可用于将印度数字 (٠١٢٣٤٥٦٧٨٩) 转换为阿拉伯-拉丁数字 (0123456789)，或从流中去除 HTML 元素<b>。
分析器可能有 零个或多个 字符过滤器，它们按顺序应用。

tokenizers 分词器
接收一个字符流，将其分解为单个 token（通常是单个单词），并输出一个token流。例如，whitespace 分词器 在看到任何空格时将文本分解为 token。它会将文本 "Quick brown fox!" 转换为术语[Quick, brown, fox!] 。

分词器还负责记录每个词条的顺序或位置以及该词条所代表的原始词的开始和结束字符偏移量。

分析器必须只有 一个 分词器。

token filters 标记过滤器
接收令牌流并可以添加、删除或更改令牌。例如， lowercase 过滤器 将所有标记转换为小写，stop 过滤器从标记流中删除某些词，synonym 过滤器 将同义词引入标记流。

令牌过滤器不允许更改每个令牌的位置或字符偏移量。

分析器可能有 零个或多个 令牌过滤器，它们按顺序应用。

自定义分析器

当内置分析器不能满足您的需求时，您可以使用适当组合创建一个自定义的分析器：

参数
type	分析仪类型。接受内置分析器类型。对于自定义分析器，使用custom或省略此参数
tokenizer	内置或定制的分词器。（必需的）
char_filter	可选的内置或自定义字符过滤器数组。
filter	可选的内置或自定义令牌过滤器数组。
position_increment_gap	当索引一个文本值数组时，Elasticsearch 在一个值的最后一个词和下一个值的第一个词之间插入一个假的“间隙”，以确保一个短语查询不匹配来自不同数组元素的两个词。默认为`100`. 查看`position_increment_gap`更多。

PUT my-index-000001
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_custom_analyzer": {
          "type": "custom", 
          "tokenizer": "standard",
          "char_filter": [
            "html_strip"
          ],
          "filter": [
            "lowercase",
            "asciifolding"
          ]
        }
      }
    }
  }
}

POST my-index-000001/_analyze
{
  "analyzer": "my_custom_analyzer",
  "text": "Is this <b>déjà vu</b>?"
}

内置分析器

标准分析器 Standard Analyzer
分析器是默认的standard分析器，如果没有指定则使用。它提供基于语法的标记化（基于 Unicode 文本分段算法）并且适用于大多数语言。
```
POST _analyze
{
  "analyzer": "standard",
  "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
}

[ the, 2, quick, brown, foxes, jumped, over, the, lazy, dog's, bone ]
```

简单分析器 Simple Analyzer
simple每当遇到不是字母的字符时，分析器就会将文本分成术语。它小写所有术语。

  POST _analyze
  {
    "analyzer": "simple",
    "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
  }

  [ the, quick, brown, foxes, jumped, over, the, lazy, dog, s, bone ]

空白分析器 Whitespace Analyzer
whitespace每当遇到任何空白字符时，分析器都会将文本划分为术语。它不会小写术语。

  POST _analyze
  {
    "analyzer": "whitespace",
    "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
  }

  [ The, 2, QUICK, Brown-Foxes, jumped, over, the, lazy, dog's, bone. ]

停止分析器 Stop Analyzer
stop分析器类似于simple分析器，但支持去除停用词。

  PUT my-index-000001
  {
    "settings": {
      "analysis": {
        "analyzer": {
          "my_stop_analyzer": {
            "type": "stop",
            "stopwords": ["the", "over"]
          }
        }
      }
    }
  }

  POST my-index-000001/_analyze
  {
    "analyzer": "my_stop_analyzer",
    "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
  }

 [ quick, brown, foxes, jumped, lazy, dog, s, bone ]

关键词分析器 Keyword Analyzer
把输入当做一个关键词，所见即所得。

  POST _analyze
  {
    "analyzer": "keyword",
    "text": "The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."
  }

  [ The 2 QUICK Brown-Foxes jumped over the lazy dog's bone. ]

模式分析器 Pattern Analyzer
分析器使用正则表达式将pattern文本拆分为术语。正则表达式默认为 \W+。

  PUT my-index-000001
  {
    "settings": {
      "analysis": {
        "analyzer": {
          "my_email_analyzer": {
            "type":      "pattern",
            "pattern":   "\\W|_", 
            "lowercase": true
          }
        }
      }
    }
  }

  POST my-index-000001/_analyze
  {
    "analyzer": "my_email_analyzer",
    "text": "John_Smith@foo-bar.com"
  }

  [ john, smith, foo, bar, com ]

语言分析器 Language Analyzers
Elasticsearch 提供了许多特定于语言的分析器，例如english或 french。
指纹分析器 Fingerprint Analyzer
分析fingerprint仪是一种专业分析仪，可创建可用于重复检测的指纹。

最后编辑于：2022.04.19 15:18:06

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 214,588评论 6赞 496
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 91,456评论 3赞 389
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 160,146评论 0赞 350
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,387评论 1赞 288
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,481评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,510评论 1赞 293
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,522评论 3赞 414
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,296评论 0赞 270
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,745评论 1赞 307
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,039评论 2赞 330
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,202评论 1赞 343
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,901评论 5赞 338
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,538评论 3赞 322
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,165评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,415评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,081评论 2赞 365
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,085评论 2赞 352

Elasticsearch8.1 -- 23. 文本分析-分析器analyzer

自定义分析器

内置分析器

推荐阅读更多精彩内容