开源搜索引擎solr介绍

1 什么是solr?

“内事不决问百度,外事不决问谷歌”,相信大家对百度、谷歌等搜索引擎都很熟悉了。网上信息浩瀚万千,而且毫无秩序,所以搜索引擎对用户的作用就体现出来了。

不过,因为商业原因,百度、谷歌等搜索引擎都不是开源的。但是,大家不用担心,有闭源的,当然也有开源的搜索引擎。优秀的开源搜索引擎有Apache Solr、Elastic Search、Index Tank等等,今天我们主要介绍Apache Solr。

Apache Solr是一个高性能,基于Lucene的全文搜索服务器。做为一款搜索引擎,solr不具备爬虫一样采集信息的能力,而是专注于信息的存储和检索。许多朋友误认为solr是数据库,从广义上讲也可认为是数据库,但是它和传统意义上的数据库还是有些区别的。

相信使用过关系型数据库的朋友们一定都做过搜索的功能,比如:有100条记录,我想搜索记录中含有“云计算”字段的记录,可以使用关系型数据库提供的“模糊搜索”的功能。“模糊搜索”能不能满足你的要求呢?如果记录数小,100条、1000条记录当然没问题。但是,如果有100万条、1000万条甚至上亿,那么“模糊搜索”的效果就会大大折扣。而这时,我们就需要用到solr等搜索引擎了。

Solr是基于lucene的倒排索引技术(也叫全文索引,mysql等关系型数据库也有这个概念,但是“术业有专攻”,solr实现的更好),什么是倒排索引,下面我会做具体介绍。

1.1倒排索引

传统意义的数据库,做索引时,都是一个文档id对应一个或者多个内容字段。而倒排索引则是一个内容字段对应多个文档id。什么意思呢?举个例子,假设分别把下面三句话存储到mysql和solr中:

I like sports

I like reading

I like reading books

在mysql中,一个文档id对应一条记录,一条记录中就会有一个或多个内容字段。比如:文档id为1,对应“I like sports”;文档id为2,对应“I like reading”。而在搜索时,就会一条记录一条记录的去检索,比如:我想搜索“books”字段,就会先从文档1找起,文档1没有,文档2也没有,文档3找到了,好,返回数据。相对来说,这样效率有点低。

而在solr中,倒排索引就相反了。它会这样做索引,“I”内容字段,对应文档id为1和2;“like”内容字段,对应文档id为1和2;“sports”内容字段,对应文档id为1;“reading”内容字段,对应文档id为2和3;“books”内容字段,对应文档id为3,等等。这样做的好处在哪呢?

比如:我想搜索“like reading books”这句话,我会把这句话分成三个单词“like”、“reading”、“books”(这在solr中叫分词,后面会详细讲),这时我开始通过内容字段查找文档id。比如我找“like”,文档id为1、2、3,那么这三个文档都可以取出来。然后,我接着找“reading”,这时,文档id为1的没有,只剩下2和3了。最后,我找“books”,只剩下文档id为3的存在了。根据一定的算法,这次搜索结果,会给三个文档打分,从高到低:文档3、文档2、文档1。返还给用户优先级,也是3、2、1。

这样做的好处是:不用按照文档id,一个一个的遍历内容字段了,而是根据多个内容字段,去找交叉最多的文档id(当然了,匹配文档id不止内容字段交叉,还有时间、权重等因素,方便理解,省略了),这样做的话,搜索速度立马上升。

1.2基本操作

Solr是基于Java语言开发的开源搜索引擎,内部嵌入了jetty,提供了web界面,用户可以很方便的在web上操作。当然,考虑到稳定性,我没有使用solr自带的jetty,而是选择了tomcat。

1.2.1 下载solr和tomcat

从Apache官网上下载solr和tomcat并解压到你希望保存的文件夹(我是都保存在“/usr”中的)。然后把“/usr/solr/server/solr-webapp/”下的“webapp”目录,复制到“/usr/tomcat/server/webapps/”中并改名为“solr”。

在“/usr/tomcat/server/webapps/solr/WEB-INF/”中创建“classes”目录,并复制“/usr/solr/server/resources/”下的“log4j.properties”文件到“classes”文件夹中;把“/usr/solr/server/lib/ext/”下的所有jar包复制一份到“/usr/tomcat/server/webapps/lib/”目录中。

1.2.2 配置tomcat的web.xml

该配置文件指定了solr的具体位置,好为tomcat控制solr做准备。文件在“/usr/tomcat/server/webapps/solr/WEB-INF”目录下:

1.2.3 配置tomcat的log4j.properties

该配置文件在“/usr/tomcat/server/webapps/solr/WEB-INF/classes”目录下,指定了solr的日志保存地址:

1.2.4 启动tomcat

因为我是用tomcat做solr的web容器,所以启动tomcat,自然也就会把solr也启动了。启动tomcat的命令,在tomcat的二进制命令目录中。进入“/usr/tomcat/server/bin”,执行“./startup.sh”。Tomcat启动后,在浏览器输入“http://solr服务器ip:8080/solr/index.html#/”后,就会显示下图所示的画面,表示solr启动成功。

1.3中文分词

Solr与mysql一样,查询数据之前,需要先插入数据做成索引。做成索引的方式之前已经有过介绍,下面我开始着重讲述solr的分词部分。

Solr提供了许多的方式用来充当索引的数据源,比如传递xml数据、json数据给solr,mysql等关系型数据库,甚至solr还提供了许多编程语言的扩展给用户,用户可以直接使用php、python等语言的solr扩展给solr服务器传递数据。这部分solr官网比较详细,不再细述。

分词是solr在做索引和查询的时候,非常重要的一个步骤。比如说,“I like reading books”,这句英文,我们就可以分成四个单词(内容字段),“I”、“like”、“reading”、“books”,这很容易,根据空格就能分词了。我们搜索“books”单词,可以把solr中的这句话搜索出来。

但是,solr对于中文分词就不友好了。再举个例子:“我喜欢读书”,这句话怎么分词,我们人类可以很容易区分,把它分成“我”、“喜欢”、“读书”或者“我”、“喜欢读书”;但是,电脑怎么做,它可不懂怎么区分中文。上面这句话,它极有可能分成“我喜”、“欢读”、“书”,或者更离谱的分词都有可能,但是这样做就没意义了。

下面我们就需要引入一款优秀的关于solr的中文分词器了:IKAnalyzer。它也是java开发的,大致原理:导入一定数量的中文词语,然后通过词库的词语分词。比如:我们从一开始,就把“我”、“喜欢”、“读书”这样的中文词语导入到IKAnalyzer中,然后分词的时候,按照一定的逻辑,遇到“喜欢”就分一个词,遇到“读书”就再分一个词等等。每次产生新的词语,就重新导入词库一次。这样,中文分词的问题就大致解决了。

下面简单说下IKAnalyzer的使用:

在“/usr/tomcat/server/webapps/solr/WEB-INF/classes”下创建“IKAnalyzer.cfg.xml”配置文件:

在同目录下创建“dict.txt”和“stopword.dic”文件,“dict.txt”是扩展词库,“stopword.dic”是停用词词库。

从IKAnalyzer网站下载“ik-analyzer-solr-6.3.0.jar”,并把它放到tomcat的“/usr/tomcat/server/webapps/solr/WEB-INF/lib”,重新启动tomcat,就可以使用它了。

2 Solrcloud?

Solrcloud是solr的分布式版本,如果要求不高,我们可以只使用solr就足够了。但是,如果访问量或者信息量比较大的话,可能就需要升级成solrcloud了。

不过,如果solr想做成分布式的solrcloud,需要有一组件来对不同的solr节点进行控制和保证配置文件一致性。在原有的基础上,我们需要借助zookeeper。

Zookeeper是一个开源的分布式协调服务,提供配置维护、域名服务、分布式同步、组服务等功能,非常强大和方便。在solrcloud中通常充当配置维护和分布式同步的功能。整体架构如下图所示:

2.1 zookeeper配置

 在zookeeper的配置文件目录中,zoo.cfg为其主要配置文件。里面主要配置了zookeeper的数据文件夹、日志文件夹以及全部节点的ip和通信端口。另外需要注意的是:如果你修改好zoo.cfg文件,重启zookeeper之后,zoo.cfg文件会被初始化,之前的zoo.cfg会备份成zoo.cfg.bak。所以,在你关闭zookeeper之后,想要重启zookeeper之前,你需要删除zoo.cfg,并且把zoo.cfg.bak改名为zoo.cfg。

修改好zookeeper的配置文件后,去到zookeeper下的bin目录,启动zookeeper:“./zkServer.sh start”。

2.2 tomcat引入zookeeper相关信息

进入tomcat的bin目录,修改“catalina.sh”文件。在“cygwin=false”前面加上以下代码,这是指定zookeeper的ip和端口号,tomcat开启前,需要知道zookeeper节点的信息,为solrcloud做准备。再次启动成功tomcat,整个solrcloud就算启动成功了。

3总结

由于篇幅有限,对于solr的介绍还只是冰山一角。主要是希望能够起到抛砖引玉的作用,solr的功能点比如:权重设置、分面查询、结果高亮、数据导入、各种编程语言的solr扩展等都没有介绍,以后有机会的话,再与大家一一探讨。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,132评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,802评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,566评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,858评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,867评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,695评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,064评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,705评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,915评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,677评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,796评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,432评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,041评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,992评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,223评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,185评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,535评论 2 343

推荐阅读更多精彩内容

  • 只是个人记录,一般人也不大会碰到我这样的问题。 异常描述:页面A,B,C,从A页面点击按钮push到B页面,再从B...
    棒闹水帘洞阅读 212评论 0 0
  • 我想你了,但是我永远不会让你知道。 夹在在谎言中,夹在在玩笑里,我的喜欢才能表达的自然。 除此之外,我还能怎么表达...
    谢丹儒阅读 1,208评论 3 7
  • 俺娘说,打雷是很可怕的。后来因为俺,俺娘不怕打雷了…… 俺初恋说,打雷是很可怕的。后来俺整天盼着打雷…… 俺想说,...
    淋着雨的狗阅读 267评论 1 2
  • 刷完了陈道明老剧《康熙王朝》,经典好剧,演员演技基本都在线,化妆也很好,因为时间跨度长,剧中人物都画出了年代感,很...
    日本饼饼君阅读 323评论 0 0