1 准备工作及相关介绍
solr和lucene的版本是同步更新的,最新版本是6.5.0。本案例使用4.10.3
java运行环境 jdk1.7以上
mysql 5.x
tomcat7
sor归档文件地址: http://archive.apache.org/dist/lucene/solr/ 选择你需要的版本和操作系统对应的文件。windows下载*.zip的文件。以solr-4.10.3.zip为例,解压后获得以下目录结构:
solr的安装需要涉及到solrhome与solrcore等基本概念。安装配置solr其实与我们安装sql数据库类似,solrhome相当于是一个home目录,它下面包含了多个数据集合solrcore。在mysql中,我们使用工具navicat时,需要建立连接,然后再这个连接里建立数据库,在对应的数据库里建立数据表。solrhome在这里就可以理解为“数据库”,solrcore理解为“数据表”。
安装
tomcat及java运行环境这里不做介绍。我们需要将solr的war包复制到tomcat下,并添加相关依赖包,相关的配置。
这里约定我的目录结构,solr的资源包解压的目录为d:\solr-4.10.3 以下简称solr_4.10.3
tomcat的目录为d:\dev\tomcat\tomcat7-solr 以下简称catalina_home
自定义的solrhome目录为D:\develop\12-solr\solrhome 以下简称solr_home
1 (目的:将官方资源包下的solr.war拷贝到本地tomcat下使用)拷贝solr.war
从solr下载的目录solr_4.10.3\example\webapps 下solr.war到catalina_home\webapps目录。在tomcat目录下catalina_home\bin下点击startup.bat 启动容器。此时solr.war会被解压出来,将webapps下的solr.war删除,保留解压后的solr文件夹。
2 添加扩展服务包,将solr_4.10.3\example\lib\ext 下的所有jar包(依赖日志包)拷贝到tomcat catalina_home\webapps\solr\WEB-INF\lib 下
3 配置文件添加修改
复制solr_4.10.3\example\resources 下log4j.properites 到catalina_home\webapps\solr\WEB-INF\classes 并修改catalina_home\webapps\solr\web.xml 指定solr/home的配置(将注释取消并修改)如下
找到env-entry-name为solr/home,配置env-entry-value为D:\develop\12-solr\solrhome (solr-home的目录按你的指定)。
3 solrhome和solrcore的安装
solrhome是solr服务运行的主目录,一个solrhome包含多个 solrcore,一个solrcore目录里有一个solr实例运行和配置的文件和数据,每个solrcore都可以独立对外提供搜索和索引服务。多个solrcore是相互独立的。在下载的资源文件中solr_4.10.3\example\solr(就是solrhome)下包含一个文件夹collection1(就是solrcore),solrcore下包含conf,core.properties,README.txt,data(默认的solr数据目录,包含索引文件和tlog日志信息)。所谓solrcore和solrhome的安装就是以上文件的拷贝和配置。
由于tomcat下的solr服务中的web.xml指定了solrhome目录(D:\develop\12-solr\solrhome)将solr_4.10.3\example\solr下的所有文件拷贝到D:\develop\12-solr\solrhome (solrhome,solrcore基本安装完成,还差配置)。
solrcore配置,solrcore/conf目录下有个solrconfig.xml的配置文件。在该文件里主要配置lib,datadir,requestHandler(如果不配置,使用的是默认的配置)
到此,基本的安装就结束了,重启tomcat服务器,访问本地服务器/solr就可以进入solr的dashboard。
solrconfig.xml
solrcore下config里有一个文件solrconfig.xml用来配置solrcore的运行信息。核心包含lib,datadir,requestHandler
lib标签
solrcore需要添加扩展依赖包,通过lib就可以指定依赖包的地址
例如其中的一个配置(这是solr_4.10.3\example\solr\collectioin1\conf\solrconfig.xml下的配置文件)
<lib dir="${solr.install.dir:../../..}/contrib/extraction/lib" regex=".*\.jar" />
<lib dir="${solr.install.dir:../../..}/dist/" regex="solr-cell-\d.*\.jar" />
这里lib的元素dir,regex表示要指定lib的目录和匹配的表达式。solr.install.dir表示solrcore的安装目录。../代表跳转文件上一级。${solr.install.dir:../../..}其实就到了solr_4.10.3目录,这个目录里有contrib,bin,dist,docs,example。很明显,我们需要拷贝contrib和dist目录到我们制定的目录(不然依赖包找不到)。之前指定了solr_home为D:\develop\12-solr\solrhome,我们将contrib和dist复制到D:\develop\12-solr\下,修改D:\develop\12-solr\solrhome\collection1\conf\solrconfig.xml
此时我们lib的dir需要修改前缀为${solr.install.dir:../..}
datadir标签
<dataDir>${solr.data.dir:}</dataDir> 是默认的配置,solr.data.dir:表示solrcore下。这里指定的是solrcore/data目录,如果需要配置就指定目录则在:后填写路径,一般我们不修改。
requestHandler标签
requestHandler请求处理器,定义了索引和搜索的访问方式,例如name="/update" class="solr.UpdateRequestHandler" 其实与servlet在web.xml中定义handlerMapping一样的。
多solrcore配置
配置多solrcore的好处。在进行集群时,必须配置多sorscore,每个sorscore之间是独立的,都可以单独的对外提供服务,不同的业务模块可以使用不同的sorscore来提供搜索和索引服务。
多solrcore就是将solrcore复制到solrhome下,并修改core.properties设置唯一的name。
Schema.xml
在solrcore下的conf目录有schema.xml文件,主要配置了solrcore的一些数据信息,包括Field和FieldType的定义等信息。在solr中,Field和FieldType都需要先定义后使用。
Field
Field在solr中代表的意义就像是数据表里的字段。
<Field name="??" type="?" indexed="??" stored="??" required="??" multiValued="??" />
name:指定域名称
Type:指定域的类型(type需要定义,使用fieldType声明)
Indexed: 是否索引
Stored:是否存储
Required:是否必须
multiValued:是否多值(例如商品中的图片列表)
dynamicField 动态域
<dynamicField name="" type="" indexed="" stored="" />
name:指定动态域的命名规则,一般情况下name是匹配的例如:*_random,将匹配后缀为_random的field。
uniqueKey 指定唯一键
<uniqueKey>id</uniqueKey>
其中Field的name为id的域,必须设置required=true,在一个schema.xml文件中有且仅有一个唯一键。
copyField 复制域
就像管道一样,从source复制到dest里
<copyField source="" dest="" />
source: 要复制的源域的域名
dest:目标域的域名
dest所指定的目标域,必须设置multiValued="true"
FieldType 定义域类型
其中包含name,class,analyzer(分析器),tokenizer(分词器),Filter(指定过滤器)
由于lucene支持英文和德语,对于中文的拆分,我们需要使用第三方的jar包,ikanalyzer就是一个常用的中文分词器。可以对一段中文进行文字划分。(ikanalyzer后续介绍)
中文分词器ikanalyer配置
ref: https://github.com/wks/ik-analyzer
IKAnalyzer是一个开源的,基于Java卡发的轻量级中文分词工具包,从06年12月推出1.0版本开始,推出了3个大版本,最初它以Lucene为主体,集合词典分词和文法分析算法的中文分词组件。新版本IKAnalyzer3.0则采用了特有的"正向迭代最细粒度切分算法",具有83万字/秒的高速处理。
针对Lucene全文搜索优化的查询分析器IKqueryParser 是值得推荐的,它引入了简单搜索表达式,采用歧义分析算法优化查询关键字的搜索排列组合,能极大提高Lucene检索的命中率。
IKAnalyzer作者林良益(linliangyi2007@gmail.com) 项目网站为http://code.google.com/p/ik-analyzer
maven工程的坐标为
groupId:org.wltea.ik-analyzer
artifactId:ik-analyzer
version:3.2.8
下载ikanalyer 个人选择的IK Analyzer 2012FF_hf1.zip解压后复制IkAanlyzer.cfg.xml,stopword.dic 到catalina_home/webapps\solr\WEB-INF\classes下。
复制IKAnalyzer2012FF_u1.jar到catalina_home\webapps\solr\WEB-INF\lib
配置FieldType ,修改对应的solrcore\conf 下的schema.xml
添加<fieldType name="text_ik" class="solr.TextField">
<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"></analyzer>
</fieldType>
在定义Field的时候就可以使用type="text_ik" 进行中文分词(假如定义了一个type="text_ik"的field名称为content_ik)。重启tomcat在solr的dashboard中,选择solrcore,展开Analysis ,选择Fieldname/FieldType 例如content_ik是type为text_ik的field。在Fileld Value(Index)里输入中文文字,然后再右侧点击Analyse Values就会返回输入的中文的分词结果。
DataImport 插件
在了解了solr相关的操作后,就开始应用了,这里还存在一个问题,数据库中的数据如何映射到solr中,solr提供了dataimport插件。在我们下载的资源包路径solr_4.10.3\dist下,拷贝solr-dataimporthandler-4.10.3.jar 到D:\develop\12-solr\contrib\dataimporthandler\lib 下(想想solrconfig.xml中的lib配置的路径),contrib没有dataimport需要我们手动建立。然后拷贝数据库(本地使用的mysql)的连接驱动包mysql-connector-java-5.*.jar 到contrib\db\lib下(没有文件夹就建立)。添加jar包后,需要让solrcore引用jar包,进入相关solrcore的conf目录,修改solrconfig.xml 添加<lib dir="??" regex=".*\.jar" />(这里不做说明,可参考其它的配置)
配置requestHandler
solrconfig.xml中,添加一个name="/dataimport"的requestHandler,可参考其它requestHandler
例如<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataimportHandler" >
<lst name="defaults"><str name="config">data-config.xml</str></lst>
</requestHandler>
上面的配置指定了dataimport的配置文件data-config.xml,位于solrconfig.xml同级目录下。
<?xml version="1.0" encoding="UTF-8" ?>
<dataConfig>
<dataSource type="JdbcDataSource"
driver="com.mysql.jdbc.Driver"
url="jdbc:mysql://localhost:3306/solr"
user="root"
password="root"/>
<document>
<entity name="product" query="SELECT pid,name,catalog,catalog_name,price,description,picture FROM products">
<field column="pid" name="id"/>
<field column="name" name="product_name"/>
<field column="catalog" name="product_catalog"/>
</entity>
</document>
</dataConfig>
重启tomcat访问solr的dashboard在相关的solrcore中点击Dataimport就可以查看到界面,
执行execute就可以将数据库的数据按照data-config.xml的配置导入到solr中。