三十一、Elasticsearch的IK分词器配置文件以及自定义词库

1、IK配置文件

ik配置文件地址：
es/plugins/ik/config目录下

IKAnalyzer.cfg.xml：用来配置自定义词库
main.dic：ik原生内置的中文词库，总共有27万多条，只要是这些单词，都会被分在一起
quantifier.dic：放了一些单位相关的词
suffix.dic：放了一些后缀
surname.dic：中国的姓氏
stopword.dic：英文停用词

2、ik原生最重要的两个配置文件

main.dic：包含了原生的中文词语，会按照这个里面的词语去分词
stopword.dic：包含了英文的停用词

一般像停用词，会在分词的时候，直接被干掉，不会建立在倒排索引中

3、自定义词库

（1）自己建立词库：每年都会涌现一些特殊的流行词，网红，蓝瘦香菇，喊麦，鬼畜，一般不会在ik的原生词典里，需要自己补充自己的最新的词语，到ik的词库里面去。

IKAnalyzer.cfg.xml配置内容如下：

<properties>
    <comment>IK Analyzer 扩展配置</comment>
    <!--用户可以在这里配置自己的扩展字典 -->
    <entry key="ext_dict">custom/mydict.dic;custom/single_word_low_freq.dic</entry>
     <!--用户可以在这里配置自己的扩展停止词字典-->
    <entry key="ext_stopwords">custom/ext_stopword.dic</entry>
    <!--用户可以在这里配置远程扩展字典 -->
    <!-- <entry key="remote_ext_dict">words_location</entry> -->
    <!--用户可以在这里配置远程扩展停止词字典-->
    <!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>

可知，我们只需要补充我们的新词语到custom/mydict.dic或custom/single_word_low_freq.dic这两个字典文件其中之一即可。
一般都指定到custom/mydict.dic这里。

将停用词（如：了，的，呢等，但是这些基本的IK已经给我们都写了，如有补充，写到这里即可）指定到custom/ext_stopword.dic里

补充完后，重启ES服务，然后进行如下测试

GET _analyze
{
  "text": "蓝瘦香菇",
  "analyzer": "ik_max_word"
}

若有兴趣，欢迎来加入群，【Java初学者学习交流群】：458430385，此群有Java开发人员、UI设计人员和前端工程师。有问必答，共同探讨学习，一起进步！
欢迎关注我的微信公众号【Java码农社区】，会定时推送各种干货：

qrcode_for_gh_577b64e73701_258.jpg

最后编辑于：2017.12.09 00:47:55

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

三十一、Elasticsearch的IK分词器配置文件以及自定义词库

三十一、Elasticsearch的IK分词器配置文件以及自定义词库

相关阅读更多精彩内容

友情链接更多精彩内容