Solr搜索

Java

参见上文solr概述 - 简书

搜索

Solr搜索参数介绍

搜索参数

如图,solr基本的查询参数如上。

q搜索关键词
q的值就是用户提交到solr查询的关键词。 类似于在google想搜索solr,那么你在google的输入框中填写的solr一样。q参数只有一个作用,高树solr在计算返回结果时需要考虑那些关键词。

fq过滤参数
fq全程是filter query。这里的过滤是基于字段进行过滤的;利用fq参数,可以限定solr返回的结果里面,某些字段的值必须是什么,且fq可以设置多个值。比如你在淘宝里搜索男装,那么淘宝是不会返回女装数据给你的。这里显然就是淘宝对商品的某些字段进行了限制,使用fq你也可以实现这样的效果。

说明:关于这两个参数的设置问题,Solr使用者倾向于将用户输入的关键词放入q参数中,将机器生成的过滤参器放入fq参数中[Solr In Action,Trey Grainger]。如果同时设置了fq和q,那么solr会先查询fq,再匹配q。

sort排序参数
这个很好理解了吧!solr可以对搜索结果根据某个字段进行排序。支持升序和降序两个操作,用的时候设置字段名 排序方式就可以了。如::price asc::(价格升序) 或::price desc::(价格降序)。

start,rows分页查询参数
返回结果范围:[start+rows]。

fl返回字段限制
提交该参数后,solr返回的结果只包含fl限制的字段。

df默认搜索字段
df全称default field,solr在进行匹配结果时,q参数的值默认和哪一个字段进行匹配。
好了,来一个实例看一下效果:

搜索参数使用

到这里相信你对solr搜索有了一个基本的了解了。
但是由于我们在对solr进行数据索引时,使用的是solr默认的分词器,这个分词器对拉丁语系的支持比较好。像中文这种方块字,solr就比较无力了。但是solr7以后的版本,都增加了对中文分词的支持,况且还有第三方的解决方案。接下来我们就来了解一下如何配置中文分词器,以提升对中文的搜索效果。

中文分词

分词是什么意思?为什么要进行分词呢?

对于solr这种全文本搜索类型的引擎来说,解决的就是对文档内容进行搜索和匹配。怎么个匹配法?相信对于搜索引擎有所了解的同学都知道词元分析和词元匹配的说法,不过不了解也没关系,因为我也不懂。

由于搜索引擎的原理太过于复杂,这里只能举个例子简单的说明一下。

一个文档数据库里某一个文档的内容如下:
巴菲特说:金钱只是一堆数字。

对于这句话,solr需要把这句话拆分成不同的单词组成的词元流。比如大概和下面差不多的效果:
巴菲特 金钱 数字 说 一堆

使用solr默认的分词器肯定不能实现这样的效果,因为拉丁语系和汉字的构词方式全然不同,因此我们需要为solr配置一个支持中文分词的分词器,来完成上面的工作。

使用内置中文分词器

solr-7.4.0/contrib/analysis-extras/lucene-libs/目录下有一个lucene-analyzers-smartcn-7.4.0.jar的文件,将这个文件以你最优雅的方式拷贝到solr-7.4.0/server/solr-webapp/WEB-INF/lib目录下,然后重启使用./solr retart -force重启solr。

重启完成后打开solr-7.4.0/server/solr/<your-core-name>/conf/managed-schema文件,并在文件的fieleType区域添加如下内容:

<fieldType name="text_smartcn" class="solr.TextField" positionIncrementGap="100">
        <analyzer type="index">
            <tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory"/>
        </analyzer>
        <analyzer type="query">
            <tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory"/>
        </analyzer>
 </fieldType>

添加之后在solr管理页面下的 core admin面板中重新加载核心。

我们来验证一下我们添加的中文分词器效果如何,打开核心的管理面板:


核心管理面板

然后我们可以使用solr提供的分析功能,来帮助我们检验自己定义的分词器的使用效果。


分析器的使用

如图,我们预期的结果是:
巴菲特 金钱 数字 说 一堆

Solr自带的分词器得到的结果是:
巴 菲 特 说 , 金钱 只是 一 堆 数字 ,

效果很不错了,有木有~~~

使用第三方分词器

第三方的中文分词器大部分都是用IKAnalyzer实现的,据说效果比solr自带的分词器好。

  1. 下载IKAnalyzer所需的依赖包
    ik-analyzer-7.4.jar
  2. 将ik-analyzer-7.4.0.jar文件复制到solr-7.4.0/server/solr-webapp/WEB-INF/lib目录下
  3. 打开solr-7.4.0/server/solr/<your-core-name>/conf/managed-schema文件,并在文件的fieleType区域添加如下内容:
<fieldType name="text_ik" class="solr.TextField">
      <analyzer type="index">
          <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="false" conf="ik.conf"/>
          <filter class="solr.LowerCaseFilterFactory"/>
      </analyzer>
      <analyzer type="query">
          <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true" conf="ik.conf"/>
          <filter class="solr.LowerCaseFilterFactory"/>
      </analyzer>
</fieldType>
  1. 重启solr后reload核心即可

对比一下分词结果:
巴菲特 菲特 说 金钱 一堆 堆 数字

对比solr自带分词器的结果,可以看出ik分词器能够更准确的识别中文词语;再看一个例子:


ik分词器效果

默认搜索字段配置

在solrconfig文件中,支持对搜索中df值的配置。具体配置如下:


默认搜索字段配置

在solrconfig.xml文件中的requestHandler节点中,可以看到默认的搜索处理器/select配置,如果有需要更改df和wt默认值的需求,开启配置中注释的部分进行配置即可。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,588评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,456评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,146评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,387评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,481评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,510评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,522评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,296评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,745评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,039评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,202评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,901评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,538评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,165评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,415评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,081评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,085评论 2 352

推荐阅读更多精彩内容