ElasticSearch分词器

[TOC]

1 内置分词器

es中有很多内置分词器,如果不特殊指定分词器,默认分词器为standard。对英文单词可以正常分词,对中文分词不友好,会将中文分词为一个个单个字符

1.1 默认分词器

es默认分词器standard,中英分分词结果如下

1.1.1对英文分词
POST _analyze
{
  "analyzer": "standard",
  "text":"hello world"
}

分词结果如下:

{
  "tokens": [
    {
      "token": "hello",
      "start_offset": 0,
      "end_offset": 5,
      "type": "<ALPHANUM>",
      "position": 0
    },
    {
      "token": "world",
      "start_offset": 6,
      "end_offset": 11,
      "type": "<ALPHANUM>",
      "position": 1
    }
  ]
}

可见hello world被分词为helloworld,是期望的分词结果。

1.1.2 对中文分词
POST _analyze
{
  "analyzer": "standard",
  "text": "少年包青天"
}

分词结果如下:

{
  "tokens": [
    {
      "token": "少",
      "start_offset": 0,
      "end_offset": 1,
      "type": "<IDEOGRAPHIC>",
      "position": 0
    },
    {
      "token": "年",
      "start_offset": 1,
      "end_offset": 2,
      "type": "<IDEOGRAPHIC>",
      "position": 1
    },
    {
      "token": "包",
      "start_offset": 2,
      "end_offset": 3,
      "type": "<IDEOGRAPHIC>",
      "position": 2
    },
    {
      "token": "青",
      "start_offset": 3,
      "end_offset": 4,
      "type": "<IDEOGRAPHIC>",
      "position": 3
    },
    {
      "token": "天",
      "start_offset": 4,
      "end_offset": 5,
      "type": "<IDEOGRAPHIC>",
      "position": 4
    }
  ]
}

可见es内置的分词器,将少年包青天分词为单个字符,并非我们期望的分词结果(分词为少年包青天)。

1.2 其他内置分词器

待完善

2 中文分词器

中文分词器使用较广的为IK分词器,需要进行安装。

2.1 安装

IK分词器的版本,需和ES版本一致。官网地址: https://github.com/medcl/elasticsearch-analysis-ik

2.1.1 在线安装

(1)安装

/opt/elasticsearch-6.8.0/bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.8.0/elasticsearch-analysis-ik-6.8.0.zip

(2)重启es

2.1.4 本地安装

(1)下载文件

cd /opt
wget https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.8.0/elasticsearch-analysis-ik-6.8.0.zip
#下载后文件目录为/opt/elasticsearch-analysis-ik-6.8.0.zip

(2)es插件目录下创建文件夹ik

mkdir /opt/elasticsearch-6.8.0/plugins/ik

(3)解压文件到ik文件夹

unzip /opt/elasticsearch-analysis-ik-6.8.0.zip -d /opt/elasticsearch-6.8.0/plugins/ik

(4)重启es

2.2 IK分词

IK有两种分词规则ik_smartik_max_word

ik_smart采用最粗粒度的分词,ik_max_word最细粒度的分词。

一般都采用ik_smart进行分词。

2.2.1 对英文分词
POST _analyze
{
  "analyzer": "ik_smart",
  "text": "Hello world"
}

分词结果如下:

{
  "tokens": [
    {
      "token": "hello",
      "start_offset": 0,
      "end_offset": 5,
      "type": "ENGLISH",
      "position": 0
    },
    {
      "token": "world",
      "start_offset": 6,
      "end_offset": 11,
      "type": "ENGLISH",
      "position": 1
    }
  ]
}

可见hello world同样被分词为helloworld,对英文分词同样是期望的分词结果。

2.2.2 粗粒度中文分词
POST _analyze
{
  "analyzer": "ik_smart",
  "text": "少年包青天"
}

分词结果如下:

{
  "tokens": [
    {
      "token": "少年",
      "start_offset": 0,
      "end_offset": 2,
      "type": "CN_WORD",
      "position": 0
    },
    {
      "token": "包青天",
      "start_offset": 2,
      "end_offset": 5,
      "type": "CN_WORD",
      "position": 1
    }
  ]
}

当前分词结果,我们期望的分词结果(分词为少年包青天)。

2.2.3 细粒度中文分词
POST _analyze
{
  "analyzer": "ik_max_word",
  "text": "少年包青天"
}

分词结果如下:

{
  "tokens": [
    {
      "token": "少年",
      "start_offset": 0,
      "end_offset": 2,
      "type": "CN_WORD",
      "position": 0
    },
    {
      "token": "包青天",
      "start_offset": 2,
      "end_offset": 5,
      "type": "CN_WORD",
      "position": 1
    },
    {
      "token": "青天",
      "start_offset": 3,
      "end_offset": 5,
      "type": "CN_WORD",
      "position": 2
    }
  ]
}

细粒度分词器ik_max_word,尽可能地第分词结果分更多的结果。

2.3 查看数据的分词结果

如es中已存储如下数据,数据类型为text,未指定分词器。

{
  "_index": "test_index",
  "_type": "main",
  "_id": "999",
  "_version": 2,
  "found": true,
  "_source": {
    "remark": "少年包青天"
  }
}

可通过如下命令,查看es对当前数据的分词结果

GET /test_index/main/999/_termvectors
{
  "fields": ["remark"]
}

因为未置顶分词器,采用了默认的standard分词器。分词结果如下:

{
  "_index": "test_index",
  "_type": "main",
  "_id": "999",
  "_version": 2,
  "found": true,
  "took": 40,
  "term_vectors": {
    "remark": {
      "field_statistics": {
        "sum_doc_freq": 47,
        "doc_count": 7,
        "sum_ttf": 47
      },
      "terms": {
        "包": {
          "term_freq": 1,
          "tokens": [
            {
              "position": 2,
              "start_offset": 2,
              "end_offset": 3
            }
          ]
        },
        "天": {
          "term_freq": 1,
          "tokens": [
            {
              "position": 4,
              "start_offset": 4,
              "end_offset": 5
            }
          ]
        },
        "少": {
          "term_freq": 1,
          "tokens": [
            {
              "position": 0,
              "start_offset": 0,
              "end_offset": 1
            }
          ]
        },
        "年": {
          "term_freq": 1,
          "tokens": [
            {
              "position": 1,
              "start_offset": 1,
              "end_offset": 2
            }
          ]
        },
        "青": {
          "term_freq": 1,
          "tokens": [
            {
              "position": 3,
              "start_offset": 3,
              "end_offset": 4
            }
          ]
        }
      }
    }
  }
}

2.4 设置索引默认分词器

索引默认分词器为standard。创建索引时,可更改索引的分词器,索引中映射如不指定分词器,均会采用更改后的分词器。

PUT /test_ik
{
  "settings": {
    "index.analysis.analyzer.default.type": "ik_smart"
  }
}

2.5 设置映射分词器

索引手动创建映射时,可指定此属性对应的分词器。指定的分词器优先级高于索引的分词器

PUT /test_ik/main/_mapping
{
  "properties": {
    "name":{
      "type": "text",
      "analyzer": "ik_smart"
    }
  }
}

3 自定义分词规则

3.1 配置文件

IK分词器,配置文件路径为:

/opt/elasticsearch-6.8.0/plugins/ik/config/IKAnalyzer.cfg.xml

此文件内容如下:

<properties>
        <comment>IK Analyzer 扩展配置</comment>
        <!--用户可以在这里配置自己的扩展字典 -->
        <entry key="ext_dict"></entry>
         <!--用户可以在这里配置自己的扩展停止词字典-->
        <entry key="ext_stopwords"></entry>
        <!--用户可以在这里配置远程扩展字典 -->
        <!-- <entry key="remote_ext_dict">words_location</entry> -->
        <!--用户可以在这里配置远程扩展停止词字典-->
        <!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>

扩展字典指的是自定义的分词内容,在其中定制自己的词语。如设定“少年包青天”为一个词。

扩展停止词字典指的排除的不定义为词语的无效字符,如原有的分词器中的“的”,“是”等词语就不会生成分词结果。

参数配置中的路径,可以为绝对路径,也可以为相对路径多个文件用英文;分开。

3.2 扩展字典

  • 创建文件
#创建目录
mkdir /opt/elasticsearch-6.8.0/plugins/ik/config/myconf
#创建文件
vim ext_dict1.dic

文件内容如下:

少年包

  • 更改配置文件IKAnalyzer.cfg.xml
<entry key="ext_dict">myconf/ext_dict1.dic</entry>
  • 重启es

    注意,更新完毕后,重启es才会生效

  • 测试分词

    (1)测试1 [ik_smart]

    POST _analyze
    {
      "analyzer": "ik_smart",
      "text": "少年包青天"
    }
    

    结果如下:

    {
      "tokens": [
        {
          "token": "少年",
          "start_offset": 0,
          "end_offset": 2,
          "type": "CN_WORD",
          "position": 0
        },
        {
          "token": "包青天",
          "start_offset": 2,
          "end_offset": 5,
          "type": "CN_WORD",
          "position": 1
        }
      ]
    }
    

    (2)测试2 [ik_smart]

    POST _analyze
    {
      "analyzer": "ik_smart",
      "text": "少年包测试"
    }
    

    结果如下:

    {
      "tokens": [
        {
          "token": "少年包",
          "start_offset": 0,
          "end_offset": 3,
          "type": "CN_WORD",
          "position": 0
        },
        {
          "token": "测试",
          "start_offset": 3,
          "end_offset": 5,
          "type": "CN_WORD",
          "position": 1
        }
      ]
    }
    

    (3)测试3 [ik_max_word]

    POST _analyze
    {
      "analyzer": "ik_max_word",
      "text": "少年包青天"
    }
    

    结果如下:

    {
      "tokens": [
        {
          "token": "少年包",
          "start_offset": 0,
          "end_offset": 3,
          "type": "CN_WORD",
          "position": 0
        },
        {
          "token": "少年",
          "start_offset": 0,
          "end_offset": 2,
          "type": "CN_WORD",
          "position": 1
        },
        {
          "token": "包青天",
          "start_offset": 2,
          "end_offset": 5,
          "type": "CN_WORD",
          "position": 2
        },
        {
          "token": "青天",
          "start_offset": 3,
          "end_offset": 5,
          "type": "CN_WORD",
          "position": 3
        }
      ]
    }
    

    结论:

    1. 根据(1)(2)结果,粗粒度分词器ik_smart中,优先IK自带的分词器自带的分词器无法分词后,再使用自定义的分词器

    2. 根据(3)结果,细粒度分词器ik_max_word,IK自带的分词和自定义的分词器,一同起作用

3.3 热更新 IK分词

热更新IK分词,需要远程应用支持不需要重启ES

通过更改配置文件IKAnalyzer.cfg.xml的以下属性,来实现热更新IK分词。

<!--用户可以在这里配置远程扩展字典 -->
<entry key="remote_ext_dict">words_location</entry>
<!--用户可以在这里配置远程扩展停止词字典-->
<entry key="remote_ext_stopwords">words_location</entry>

以下部分来自官网

其中 location 是指一个 url,比如 http://yoursite.com/getCustomDict,该请求只需满足以下两点即可完成分词热更新。

  1. 该 http 请求需要返回两个头部(header),一个是 Last-Modified,一个是 ETag,这两者都是字符串类型,只要有一个发生变化,该插件就会去抓取新的分词进而更新词库。
  2. 该 http 请求返回的内容格式是一行一个分词,换行符用 \n 即可。

满足上面两点要求就可以实现热更新分词了,不需要重启 ES 实例。

可以将需自动更新的热词放在一个 UTF-8 编码的 .txt 文件里,放在 nginx 或其他简易 http server 下,当 .txt 文件修改时,http server 会在客户端请求该文件时自动返回相应的 Last-Modified 和 ETag。可以另外做一个工具来从业务系统提取相关词汇,并更新这个 .txt 文件。

4 更改映射分词器

4.1 查看索引的分词器

GET /test_index/_mapping

结果如下:

{
  "test_index": {
    "mappings": {
      "main": {
          "remark": {
            "type": "text"
          }
      }
    }
  }
}

默认情况下,设置mapping时,如果字段类型为text,不指定分词器,则为默认的standard分词器,中文分词会有问题

此时索引已经开始使用,需要更改索引映射的分词器为ik_smart

4.2 更改步骤

使用ES时,最容易出现的情况,就是mapping的分词器创建错误,需要更改索引的mapping

ES中,索引的mapping只能新增字段,不可更改或删除字段。如想对索引mapping进行变更,只能重新创建新的索引,再将原来索引中的数据reIndex拷贝到新索引中,再删除原有的索引
其中面临的问题主要是索引名字发生了变更,如在生产中,需要更改代码里索引的名字为新名字,需要停掉服务。ES中的alias可以解决此问题,在ES中为每个索引都创建别名,当索引发生变更时,reIndex数据到新索引后,更改别名指向新的索引,即可实现不停机更改ES的mapping

4.2.1 变更要求

如原索引映射创建脚本为:

#创建索引
PUT /test_re
#创建索引映射
PUT /test_re/_mapping/myType
{
  "properties": {
    "name":{
      "type": "text"
    }
  }
}

查看索引映射信息如下:

{
  "test_re": {
    "mappings": {
      "myType": {
        "properties": {
          "name": {
            "type": "text"
          }
        }
      }
    }
  }
}

可以看出当前映射中的字段name的类型为text,默认的分词器为standard,此时需要将分词器更改为ik_smart

4.2.2 为索引创建别名

需要在上线前就为索引创建别名,用于以后的索引热更新使用。

以下为索引test_re创建别名test_re_alias:

POST /_aliases
{
  "actions": [
    {
      "add": {
        "index": "test_re",
        "alias": "test_re_alias"
      }
    }
  ]
}

查看新创建的索引信息:

GET /test_re_alias

结果如下,可以看到别名test_re_alias已和真正的索引test_re建立关联关系:

{
  "test_re": {
    "aliases": {
      "test_re_alias": {}
    },
    "mappings": {
      "myType": {
        "properties": {
          "name": {
            "type": "text"
          }
        }
      }
    },
    "settings": {
      "index": {
        "creation_date": "1586697159399",
        "number_of_shards": "5",
        "number_of_replicas": "1",
        "uuid": "juxDk8TmQt-6gdu6iviVGg",
        "version": {
          "created": "6040099"
        },
        "provided_name": "test_re"
      }
    }
  }
}
4.2.3 创建新索引
#创建索引
PUT /test_re1
#创建索引映射
PUT /test_re1/_mapping/myType
{
  "properties": {
    "name":{
      "type": "text",
      "analyzer": "ik_max_word"
    }
  }
}

新创建的索引结构如下:

{
  "test_re1": {
    "aliases": {},
    "mappings": {
      "myType": {
        "properties": {
          "name": {
            "type": "text",
            "analyzer": "ik_max_word"
          }
        }
      }
    },
    "settings": {
      "index": {
        "creation_date": "1586697347875",
        "number_of_shards": "5",
        "number_of_replicas": "1",
        "uuid": "h2Hk4mkRTyyaHuK0PKecUQ",
        "version": {
          "created": "6040099"
        },
        "provided_name": "test_re1"
      }
    }
  }
}
4.2.4 重建索引

重建索引,即同步数据,将原有索引中的内容,写入到新的索引中,

POST /_reindex
{
  "source": {
    "index": "test_re"
  },
  "dest": {
    "index": "test_re1"
  }
}

执行结果如下:

{
  "took": 182,
  "timed_out": false,
  "total": 4,
  "updated": 0,
  "created": 4,
  "deleted": 0,
  "batches": 1,
  "version_conflicts": 0,
  "noops": 0,
  "retries": {
    "bulk": 0,
    "search": 0
  },
  "throttled_millis": 0,
  "requests_per_second": -1,
  "throttled_until_millis": 0,
  "failures": []
}
4.2.5 别名指向新索引

创建新索引,必须删除原有别名指向,否则,用别名查询,会查询出两个索引的所有内容。

  • 删除原有别名指向
POST /_aliases
{
  "actions": [
    {
      "remove": {
        "index": "test_re",
        "alias": "test_re_alias"
      }
    }
  ]
}
  • 创建新的别名
POST /_aliases
{
  "actions": [
    {
      "add": {
        "index": "test_re1",
        "alias": "test_re_alias"
      }
    }
  ]
}

查看别名信息:

GET /test_re_alias

结果如下,可见别名已指向了新的索引,并且对应了新的分词器ik_max_word:

{
  "test_re1": {
    "aliases": {
      "test_re_alias": {}
    },
    "mappings": {
      "myType": {
        "properties": {
          "name": {
            "type": "text",
            "analyzer": "ik_max_word"
          }
        }
      }
    },
    "settings": {
      "index": {
        "creation_date": "1586697347875",
        "number_of_shards": "5",
        "number_of_replicas": "1",
        "uuid": "h2Hk4mkRTyyaHuK0PKecUQ",
        "version": {
          "created": "6040099"
        },
        "provided_name": "test_re1"
      }
    }
  }
}
4.2.6 删除原有索引
DEL /test_re

4.3 问题

4.3.1 重建索引过程中的数据一致性

重建索引过程和别名指向新索引的操作过程中,如果ES中有新的数据更改。如何保证此部分数据在新索引中的数据一致性?

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,504评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,434评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,089评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,378评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,472评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,506评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,519评论 3 413
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,292评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,738评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,022评论 2 329
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,194评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,873评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,536评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,162评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,413评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,075评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,080评论 2 352