ElasticSearch中分词器(基于英文的分词器)

第一种使用standard,也是默认的分词器

使用_analyze分词器,可以在JSON字符串里面添加filed属性来搜索对应的具体字段,ES会自动把对应的数值里面的大写转换成小写,比如字符串里面的China到了分词器以后就是china。


第二种使用simple

其实这也是ES的简单用法,大家可以发现使用simple分词器,可以轻松的过滤非字母的字段,所以文中的1已经被过滤了,而don和t也会按照符号被区分出来


第三种使用whitespace

从字面意思就可以了解到是按照空格来区分的。文中的Parck,I之间并没有空格,所以不会被按照空格所切分。而且使用这种分词方式,并不会把字符串中的大写字母转换为小写字母,而是会保持原样。


第四种是使用stop分词器

这种分词器会将字符串中的无意义的单词自动去除,可以看到下图中的My name is Peter中的is已经被忽略。


第五种是使用keyword分词器

使用这种分词器,ES将不会对字符串进行任何操作,会保留原文字,当做关键字来查询。可以见下图,并不会拆分文字。


©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 官方文档:https://www.elastic.co/guide/en/elasticsearch/refere...
    DimonHo阅读 1,049评论 0 0
  • 官网 中文版本 好的网站 Content-type: text/htmlBASH Section: User ...
    不排版阅读 4,745评论 0 5
  • 倒排索引 正排索引:文档id到单词的关联关系 倒排索引:单词到文档id的关联关系 示例:对以下三个文档去除停用词后...
    小旋锋的简书阅读 4,762评论 1 11
  • 寒风凄切 又几番 离合 如烟往昔 红尘客 虚妄 深深浅浅 浅浅深深 云水调 已成空 天水谣 亦成灰 风烟津渡 流水...
    往昔岁月阅读 289评论 0 0
  • (所有)文件操作流程: 打开文件 -> 操作文件(读/写) -> 关闭文件 1.打开文件: open(文件路径,打...
    随雪而世阅读 305评论 0 3

友情链接更多精彩内容