基于 Docker 安装 Solr

学习完整课程请移步 互联网 Java 全栈工程师

本节视频

基本部署

docker-compose.yml

version: '3.1'
services:
  solr:
    image: solr
    restart: always
    container_name: solr
    ports:
      - 8983:8983

部署成功效果图

访问地址:http://192.168.10.131:8983/

什么是分词技术?

分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术。

中文分词算法分类

  • 基于字符串匹配

基于字符串匹配,即扫描字符串,如果发现字符串的子串和词相同,就算匹配,这类分词通常会加入一些启发式规则,比如“正向/反向最大匹配”,“长词优先”等策略,这类算法优点是速度块,都是O(n)时间复杂度,实现简单,效果尚可。缺点,就是对歧义和未登录词处理不好

歧义的列子:歧义的例子很简单"长春市/长春/药店" "长春/市长/春药/店" 未登录:即词典中没有出现的词,当然也就处理不好

ikanalyzer, paoding 等就是基于字符串匹配的分词

  • 基于统计以及机器学习的分词方式

这类分词基于人工标注的词性和统计特征,对中文进行建模,即根据观测到的数据(标注好的语料)对模型参数进行估计,即训练。在分词阶段再通过模型计算各种分词出现的概率,将概率最大的分词结果作为最终结果。常见的序列标注模型有 HMM 和 CRF。

这类分词算法能很好处理歧义和未登录词问题,效果比前一类效果好,但是需要大量的人工标注数据,以及较慢的分词速度。

什么是 IKAnalyzer

IKAnalyzer 是一个开源的,基于 Java 语言开发的轻量级的中文分词工具包,基于文本匹配,不需要投入大量人力进行训练和标注可以自定词典,方便加入特定领域的词语,能分出多粒度的结果

部署 Solr 并安装 IKAnalyzer

创建一个名为 /usr/local/docker/solr/ikanalyzer 目录

  • /usr/local/docker/solr:用于存放 docker-compose.yml 配置文件
  • /usr/local/docker/solr/ikanalyzer:用于存放 Dockerfile 镜像配置文件

docker-compose.yml

version: '3.1'
services:
  solr:
    build: ikanalyzer
    restart: always
    container_name: solr
    ports:
      - 8983:8983
    volumes:
      - ./solrdata:/opt/solrdata

Dockerfile

FROM solr
MAINTAINER Lusifer <topsale@vip.qq.com>

# 创建 Core
WORKDIR /opt/solr/server/solr
RUN mkdir ik_core
WORKDIR /opt/solr/server/solr/ik_core
RUN echo 'name=ik_core' > core.properties
RUN mkdir data
RUN cp -r ../configsets/sample_techproducts_configs/conf/ .

# 安装中文分词
WORKDIR /opt/solr/server/solr-webapp/webapp/WEB-INF/lib
ADD ik-analyzer-solr5-5.x.jar .
ADD solr-analyzer-ik-5.1.0.jar .
WORKDIR /opt/solr/server/solr-webapp/webapp/WEB-INF
ADD ext.dic .
ADD stopword.dic .
ADD IKAnalyzer.cfg.xml .

# 增加分词配置
COPY managed-schema /opt/solr/server/solr/ik_core/conf

WORKDIR /opt/solr

部署成功效果图

访问地址:http://192.168.10.131:8983/

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 常用概念: 自然语言处理(NLP) 数据挖掘 推荐算法 用户画像 知识图谱 信息检索 文本分类 常用技术: 词级别...
    御风之星阅读 9,341评论 1 25
  • 一.简介 Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。用户可以通...
    泰安青年阅读 3,726评论 0 37
  • 转自 进击的Coder 公众号 原理 中文分词,即 Chinese Word Segmentation,即将一个汉...
    Epiphron阅读 11,659评论 2 56
  • 1. 什么是solr    Solr 是Apache下的一个顶级开源项目,采用Java开发,它是基于Lucene的...
    东方舵手阅读 972评论 1 5
  • 转载请注明:终小南 » 中文分词算法总结 什么是中文分词众所周知,英文是以 词为单位的,词和词之间是靠空格隔开,而...
    kirai阅读 9,945评论 3 24