Solr中文分词

  1. 导入相应的jar包。添加到WEB-INF/lib下
  2. 在需要使用中文分词的core下的managed-schema文件定义一个关于分词的字段类型<fieldType>
  3. 把需要使用的字段的type属性替换成自定义的字段类型的name

例如:使用solr自带的中文分词

  1. 导入jar包
    将D:\solr-6.6.1\contrib\analysis-extras\lucene-libs\lucene-analyzers-smartcn-6.6.1.jar添加到WEB-INF/lib下
  2. 在managed-schema文件中定义
<fieldType>
    <fieldType name="text_smartcn" class="solr.TextField" positionIncrementGap="0">
      <analyzer type="index">
        <tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory"/>
      </analyzer>
      <analyzer type="query">
        <tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory"/>
      </analyzer>
    </fieldType>
  1. 在需要的字段中使用
    <field name="content" type="text_smartcn" indexed="true" stored="true"/>
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容