ElasticSearch分词

一、简介

一个tokenizer分词器接收一个字符流,将之分割为独立的tokens(词元,通常是独立的单词),然后输出tokens流。
该分词器还负责记录各个term(词条)的顺序或position位置(用于phrase短语和word proximity词近邻查询),以及term词条所代表的原始word(单词)的start起始和end结束的character offsets字符偏移量(用于高亮显示搜索的内容)。
ElasticSearch提供了很多内置的分词器,可以用来构建custom analyzers(自定义分词器)。

使用
POST /_analyze
{
  "analyzer": "standard",
  "text": "hello world"
}
注意

由于官网提供的分词器都是针对英文,中文分词都是逐字区分。所以需要按照ik分词器,用于解决中文分词。

二、安装ik分词器

准备zip

github外网访问慢,可以从码云下载。
https://gitee.com/mirrors/elasticsearch-analysis-ik/releases

解压

unzip 压缩包

上传

上传到虚拟机挂载目录下即可/mydata/elasticsearch/plugins

确认

elasticsearch-plugin list 列出系统的分词器

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容