ES - 分词器的内部组成及内置分词器

分词器
切分词语,normalization(提升recall召回率-增加搜索可返回的搜索数),把句子拆分成一个个单词,并同时对每个单词进行normaliztion(时态转换,单复数转换)

分词器的构成

  • character filter:在一段文本进行分词时,进行预处理,比如最常见的,过滤html标签<div>you</div> --> you, i&you -- > i and you
  • tokenizer: 分词
  • token filter : 大小写,同义词,a/the/an -->干掉,mother -- > mom,small - little

内置分词器
Set the shape to semi-transparent by calling set_trans (5)

  • standard analyzer(默认分词器):
    set,the,shape,to,semi,transparent,by,calling,set_trans,5
  • simple analyzer://数字符号全部干掉
    set,the,shape,to,semi,transparent,by,calling,set,trans
    whitespace analyzer: //空格切分
    Set,the,shape,to,semi-transparent,by,calling,set_trans(5)
    language analyzer(特定语言分词器): // 语义切分
    set,shape,semi,transper,call,set_tran,5
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容