1.什么是分词器
分词器(analyzer)主要包含两个功能: 切分词语,normalization(时态的转换,单复数的转换,同义词的转换,大小写的转换等等)
分词器主要包含2个部分:
- tokenizer(分解器)
-
token filter(词元过滤器)
tokenizer:
分解器在处理之前会经过预处理,比如去除html标记等,这些预处理的算法叫做字符过滤器(character filter)
一个分解器会有一个或多个character filter。分解器可以把一个字符串分解成一系列的词元(就是单个的词条).
token filter
token filter会将tokenizer处理完的一系列token进一步处理,比如转换大小写,同义词处理,停止词去掉等。
分词器流程
2.分词器种类
此处仅列出一部分。
es内置分词器:
standard analyzer,whitespace analyzer,language analyzer...