分词器
切分词语,normalization(提升recall召回率-增加搜索可返回的搜索数),把句子拆分成一个个单词,并同时对每个单词进行normaliztion(时态转换,单复数转换)
分词器的构成
- character filter:在一段文本进行分词时,进行预处理,比如最常见的,过滤html标签<div>you</div> --> you, i&you -- > i and you
- tokenizer: 分词
- token filter : 大小写,同义词,a/the/an -->干掉,mother -- > mom,small - little
内置分词器
Set the shape to semi-transparent by calling set_trans (5)
- standard analyzer(默认分词器):
set,the,shape,to,semi,transparent,by,calling,set_trans,5 - simple analyzer://数字符号全部干掉
set,the,shape,to,semi,transparent,by,calling,set,trans
whitespace analyzer: //空格切分
Set,the,shape,to,semi-transparent,by,calling,set_trans(5)
language analyzer(特定语言分词器): // 语义切分
set,shape,semi,transper,call,set_tran,5