Solr 环境搭建(windows)

1 准备工作及相关介绍

solr和lucene的版本是同步更新的,最新版本是6.5.0。本案例使用4.10.3

java运行环境 jdk1.7以上

mysql 5.x

tomcat7

sor归档文件地址: http://archive.apache.org/dist/lucene/solr/  选择你需要的版本和操作系统对应的文件。windows下载*.zip的文件。以solr-4.10.3.zip为例,解压后获得以下目录结构:




solr的安装需要涉及到solrhome与solrcore等基本概念。安装配置solr其实与我们安装sql数据库类似,solrhome相当于是一个home目录,它下面包含了多个数据集合solrcore。在mysql中,我们使用工具navicat时,需要建立连接,然后再这个连接里建立数据库,在对应的数据库里建立数据表。solrhome在这里就可以理解为“数据库”,solrcore理解为“数据表”。

安装

tomcat及java运行环境这里不做介绍。我们需要将solr的war包复制到tomcat下,并添加相关依赖包,相关的配置。

这里约定我的目录结构,solr的资源包解压的目录为d:\solr-4.10.3 以下简称solr_4.10.3

tomcat的目录为d:\dev\tomcat\tomcat7-solr  以下简称catalina_home

自定义的solrhome目录为D:\develop\12-solr\solrhome 以下简称solr_home

1 (目的:将官方资源包下的solr.war拷贝到本地tomcat下使用)拷贝solr.war

  从solr下载的目录solr_4.10.3\example\webapps 下solr.war到catalina_home\webapps目录。在tomcat目录下catalina_home\bin下点击startup.bat 启动容器。此时solr.war会被解压出来,将webapps下的solr.war删除,保留解压后的solr文件夹。

2 添加扩展服务包,将solr_4.10.3\example\lib\ext 下的所有jar包(依赖日志包)拷贝到tomcat catalina_home\webapps\solr\WEB-INF\lib 下

3 配置文件添加修改

复制solr_4.10.3\example\resources 下log4j.properites 到catalina_home\webapps\solr\WEB-INF\classes 并修改catalina_home\webapps\solr\web.xml 指定solr/home的配置(将注释取消并修改)如下

找到env-entry-name为solr/home,配置env-entry-value为D:\develop\12-solr\solrhome  (solr-home的目录按你的指定)。

3 solrhome和solrcore的安装

solrhome是solr服务运行的主目录,一个solrhome包含多个 solrcore,一个solrcore目录里有一个solr实例运行和配置的文件和数据,每个solrcore都可以独立对外提供搜索和索引服务。多个solrcore是相互独立的。在下载的资源文件中solr_4.10.3\example\solr(就是solrhome)下包含一个文件夹collection1(就是solrcore),solrcore下包含conf,core.properties,README.txt,data(默认的solr数据目录,包含索引文件和tlog日志信息)。所谓solrcore和solrhome的安装就是以上文件的拷贝和配置。

由于tomcat下的solr服务中的web.xml指定了solrhome目录(D:\develop\12-solr\solrhome)将solr_4.10.3\example\solr下的所有文件拷贝到D:\develop\12-solr\solrhome (solrhome,solrcore基本安装完成,还差配置)。

solrcore配置,solrcore/conf目录下有个solrconfig.xml的配置文件。在该文件里主要配置lib,datadir,requestHandler(如果不配置,使用的是默认的配置)

到此,基本的安装就结束了,重启tomcat服务器,访问本地服务器/solr就可以进入solr的dashboard。

solrconfig.xml

solrcore下config里有一个文件solrconfig.xml用来配置solrcore的运行信息。核心包含lib,datadir,requestHandler

lib标签

solrcore需要添加扩展依赖包,通过lib就可以指定依赖包的地址

例如其中的一个配置(这是solr_4.10.3\example\solr\collectioin1\conf\solrconfig.xml下的配置文件)

<lib dir="${solr.install.dir:../../..}/contrib/extraction/lib" regex=".*\.jar" />

<lib dir="${solr.install.dir:../../..}/dist/" regex="solr-cell-\d.*\.jar" />

这里lib的元素dir,regex表示要指定lib的目录和匹配的表达式。solr.install.dir表示solrcore的安装目录。../代表跳转文件上一级。${solr.install.dir:../../..}其实就到了solr_4.10.3目录,这个目录里有contrib,bin,dist,docs,example。很明显,我们需要拷贝contrib和dist目录到我们制定的目录(不然依赖包找不到)。之前指定了solr_home为D:\develop\12-solr\solrhome,我们将contrib和dist复制到D:\develop\12-solr\下,修改D:\develop\12-solr\solrhome\collection1\conf\solrconfig.xml

此时我们lib的dir需要修改前缀为${solr.install.dir:../..}

datadir标签

<dataDir>${solr.data.dir:}</dataDir> 是默认的配置,solr.data.dir:表示solrcore下。这里指定的是solrcore/data目录,如果需要配置就指定目录则在:后填写路径,一般我们不修改。

requestHandler标签

requestHandler请求处理器,定义了索引和搜索的访问方式,例如name="/update" class="solr.UpdateRequestHandler" 其实与servlet在web.xml中定义handlerMapping一样的。

多solrcore配置

配置多solrcore的好处。在进行集群时,必须配置多sorscore,每个sorscore之间是独立的,都可以单独的对外提供服务,不同的业务模块可以使用不同的sorscore来提供搜索和索引服务。

多solrcore就是将solrcore复制到solrhome下,并修改core.properties设置唯一的name。

Schema.xml

在solrcore下的conf目录有schema.xml文件,主要配置了solrcore的一些数据信息,包括Field和FieldType的定义等信息。在solr中,Field和FieldType都需要先定义后使用。

Field

Field在solr中代表的意义就像是数据表里的字段。

<Field name="??" type="?" indexed="??"  stored="??" required="??" multiValued="??" />

name:指定域名称

Type:指定域的类型(type需要定义,使用fieldType声明)

Indexed: 是否索引

Stored:是否存储

Required:是否必须

multiValued:是否多值(例如商品中的图片列表)

dynamicField 动态域

<dynamicField name="" type="" indexed="" stored="" />

name:指定动态域的命名规则,一般情况下name是匹配的例如:*_random,将匹配后缀为_random的field。

uniqueKey  指定唯一键

<uniqueKey>id</uniqueKey>

其中Field的name为id的域,必须设置required=true,在一个schema.xml文件中有且仅有一个唯一键。

copyField 复制域

就像管道一样,从source复制到dest里

<copyField source="" dest="" />

source: 要复制的源域的域名

dest:目标域的域名

dest所指定的目标域,必须设置multiValued="true"

FieldType  定义域类型

其中包含name,class,analyzer(分析器),tokenizer(分词器),Filter(指定过滤器)

由于lucene支持英文和德语,对于中文的拆分,我们需要使用第三方的jar包,ikanalyzer就是一个常用的中文分词器。可以对一段中文进行文字划分。(ikanalyzer后续介绍)

中文分词器ikanalyer配置

ref: https://github.com/wks/ik-analyzer

IKAnalyzer是一个开源的,基于Java卡发的轻量级中文分词工具包,从06年12月推出1.0版本开始,推出了3个大版本,最初它以Lucene为主体,集合词典分词和文法分析算法的中文分词组件。新版本IKAnalyzer3.0则采用了特有的"正向迭代最细粒度切分算法",具有83万字/秒的高速处理。

针对Lucene全文搜索优化的查询分析器IKqueryParser 是值得推荐的,它引入了简单搜索表达式,采用歧义分析算法优化查询关键字的搜索排列组合,能极大提高Lucene检索的命中率。

IKAnalyzer作者林良益(linliangyi2007@gmail.com) 项目网站为http://code.google.com/p/ik-analyzer

maven工程的坐标为

groupId:org.wltea.ik-analyzer

artifactId:ik-analyzer

version:3.2.8

下载ikanalyer  个人选择的IK Analyzer 2012FF_hf1.zip解压后复制IkAanlyzer.cfg.xml,stopword.dic 到catalina_home/webapps\solr\WEB-INF\classes下。

复制IKAnalyzer2012FF_u1.jar到catalina_home\webapps\solr\WEB-INF\lib

配置FieldType ,修改对应的solrcore\conf 下的schema.xml

添加<fieldType name="text_ik" class="solr.TextField">

<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"></analyzer>

</fieldType>

在定义Field的时候就可以使用type="text_ik" 进行中文分词(假如定义了一个type="text_ik"的field名称为content_ik)。重启tomcat在solr的dashboard中,选择solrcore,展开Analysis ,选择Fieldname/FieldType 例如content_ik是type为text_ik的field。在Fileld Value(Index)里输入中文文字,然后再右侧点击Analyse Values就会返回输入的中文的分词结果。

DataImport 插件

在了解了solr相关的操作后,就开始应用了,这里还存在一个问题,数据库中的数据如何映射到solr中,solr提供了dataimport插件。在我们下载的资源包路径solr_4.10.3\dist下,拷贝solr-dataimporthandler-4.10.3.jar 到D:\develop\12-solr\contrib\dataimporthandler\lib 下(想想solrconfig.xml中的lib配置的路径),contrib没有dataimport需要我们手动建立。然后拷贝数据库(本地使用的mysql)的连接驱动包mysql-connector-java-5.*.jar 到contrib\db\lib下(没有文件夹就建立)。添加jar包后,需要让solrcore引用jar包,进入相关solrcore的conf目录,修改solrconfig.xml 添加<lib dir="??" regex=".*\.jar" />(这里不做说明,可参考其它的配置)

配置requestHandler

solrconfig.xml中,添加一个name="/dataimport"的requestHandler,可参考其它requestHandler

例如<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataimportHandler" >

<lst name="defaults"><str name="config">data-config.xml</str></lst>

</requestHandler>

上面的配置指定了dataimport的配置文件data-config.xml,位于solrconfig.xml同级目录下。

<?xml version="1.0" encoding="UTF-8" ?>

<dataConfig>

<dataSource type="JdbcDataSource"

driver="com.mysql.jdbc.Driver"

url="jdbc:mysql://localhost:3306/solr"

user="root"

password="root"/>

<document>

<entity name="product" query="SELECT pid,name,catalog,catalog_name,price,description,picture FROM products">

<field column="pid" name="id"/>

<field column="name" name="product_name"/>

<field column="catalog" name="product_catalog"/>

</entity>

</document>

</dataConfig>

重启tomcat访问solr的dashboard在相关的solrcore中点击Dataimport就可以查看到界面,

执行execute就可以将数据库的数据按照data-config.xml的配置导入到solr中。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,444评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,421评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,363评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,460评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,502评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,511评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,280评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,736评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,014评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,190评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,848评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,531评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,159评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,411评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,067评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,078评论 2 352

推荐阅读更多精彩内容