一、简介
一个tokenizer分词器接收一个字符流,将之分割为独立的tokens(词元,通常是独立的单词),然后输出tokens流。
该分词器还负责记录各个term(词条)的顺序或position位置(用于phrase短语和word proximity词近邻查询),以及term词条所代表的原始word(单词)的start起始和end结束的character offsets字符偏移量(用于高亮显示搜索的内容)。
ElasticSearch提供了很多内置的分词器,可以用来构建custom analyzers(自定义分词器)。
使用
POST /_analyze
{
"analyzer": "standard",
"text": "hello world"
}
注意
由于官网提供的分词器都是针对英文,中文分词都是逐字区分。所以需要按照ik分词器,用于解决中文分词。
二、安装ik分词器
准备zip
github外网访问慢,可以从码云下载。
https://gitee.com/mirrors/elasticsearch-analysis-ik/releases
解压
unzip 压缩包
上传
上传到虚拟机挂载目录下即可/mydata/elasticsearch/plugins
确认
elasticsearch-plugin list 列出系统的分词器