Solr 8.11入门教程(3)数据库导入数据

新建core

添加core

命令添加

使用命令比较简单

~$ bin/solr create -c mytest[core名称]

这样就添加完了。Core Admin就可以看到了。

手动添加

手动添加相对复杂一些,需要提前创建目录,然后通过可视化界面添加

1、到server\solr(相对于solr根目录的路径,下同)目录下,先把要创建的core目录提前创建,复制configsets_default下的conf到core目录。

~$ cd solr-8.11.2
~$ mkdir server/solr/mytest
~$ cp -r server/solr/configsets/_default/conf  server/solr/mytest/

2、点击core的部分,因为限制没有core(核)会出现添加页面。按照图示添加 [图片上传失败...(image-1a0020-1667202723227)]

添加完成,点击“Core Admin”可以看到添加的核 [图片上传失败...(image-ff02ef-1667202723227)]

配置solr字段

添加字段有2种方法,可以通过web页面添加,也可以直接修改schema文件添加。

可视化界面增加

通过浏览器的Schema菜单添加 [图片上传失败...(image-cd5140-1667202723227)]

添加字段名称,选中字段类型,添加添加字段即可。https://solr.apache.org/guide/8_11/field-type-definitions-and-properties.html#field-default-properties

属性 说明 取值 默认值
stored 是否存储,一个字段是否被存储,取决于你是否想在solr的查询结果中得到它,也就是说你是否想在查询结果中看到它,它将会消耗cpu和io和磁盘空间等资源。 true/false true
indexed 字段是否创建索引,索引的字段是在搜索的时候可以用它来查询或排序,在lucene中,被索引的字段将会建立倒排表。 true/false true
uninvertible 如果为 true,则表示一个 indexed=“true” docValues="false" 字段在查询时可以用“un-inverted”构建大内存数据结构以代替 DocValues。 出于历史原因,默认为 true,但强烈建议用户将其设置 false 以保持稳定性,并据需要使用 docValues="true"。 true/false true
docValues 字段的值是否放在面向列的 DocValues 结构中 true/false false
multiValued 设置为true表示此字段可以存储多个值,意思是这个字段在一个文档中可以存储多个值的内容。 true/false false
required 是否必须。如果为 true,则 Solr 拒绝任何添加没有此字段的文档。 true/false false
default 字段的默认值,经常用在字段是必须的,但是有时候又无法提供的情况,solr就会用默认值替代。如: <field name="recordTime" type="date" indexed="true" stored="true" required="true" default="NOW+8HOUR"/> 标示recordTime如果没有提供,用当前的时间+8个小时作为recordTime的时间,加8小时是因为solr默认时区是0时区,按照中国北京时间(东8区)算,需要加上8个小时。

类型高级属性

1.docValue

在solr的schema定义中,基本的long、int、double、float类型设置docValue,如下:

<fieldType name="long" class="solr.TrieLongField" docValues="true" precisionStep="0" positionIncrementGap="0"/>`
当然也可以在字段里面直接定义:
<field name="_root_" type="string" indexed="true" stored="false" docValues="false" />

solr说明: 如果此字段应包含doc值,则为true。 Doc值为用于分面(faceting),分组,排序和函数查询。 虽然不是required,doc值会使索引加载更快,更多 NRT友好和更高内存利用率。 但他们有一些 限制:它们目前只受StrField,UUIDField支持 和所有Trie *字段,并且根据字段类型,它们可能要求字段为单值,是必需的或具有默认值 。 docValue值存在正排索引中,只所以在排序的时候效果更好,是因为docValue是按照列存储的,又存在正排索引中,所以可以通过文档ID快速找到它。

说明下: lucene的倒排索引是:Term(词)-> 文档ID 这样根据类似Hash算法,通过词可以迅速找到文档ID,然后把相关字段取处理。但是也有不利的方面就是如果要进行分组或排序的时候,会遍历取出所有文档的字段,然后在内存中根据排序字段进行排序,非常耗时和占用内存。

设置docValue就构建了正排索引,即文档ID->docValue字段,而且docValue字段又是排好序的,按照列存储的。只是简单说明。 设置docValue在lucene其实是增加一个字段,所以占存储,影响建索引效率。

useDocValuesAsStored:如果这一项设置为true则标示所有docValue为true的字段将被存储,即使它的stored=false。

2.omitNorms

solr对这个属性解释的有点拗口,自己理解下,就是如果这个为true,则在索引中不存在这个字段的长度属性。这在给文档打分的时候用的到。

举个例子,一个词语,在两篇文章中,一般认为段的文章比长的文章是不是要更加符合查询的需要(因为这个词在两篇文章中权重不一样,比如在100个词的文章中,这个词权重为0.01; 在100个词的文章中,这个词权重为0.001),如果是,则需要用长度来加强文档打分的策略,这就是这个属性的作用。Norm 在Lucene中是按照浮点数的形式,只占用一个字节的方式存储的。

忽略情况: 1、如果你的doc的字段的内容长度大小比较一致,则可以忽略。 2、如果在查询结果中,字段内容的长度对你的结果匹配无影响忽略。 3、需要节省空间,提高建索引和查询的性能。

使用情况: 1、字段内容长度影响了文档的打分,则需要使用。

在solr中,默认的时间、string或数字类型,这个属性为true。

3.termVectors

在solr中,我们通过查询的内容的词向量和文档中的此向量之间的夹角来求相关性,给文档相关性打分(词向量比较复杂,回头单独写一篇文章来阐述)。 solr中有个MoreLikeThis 的功能,现在很多电商的查询里面的找类似就是这个功能,solr利用term Vectors来计算相关度,通常是是利用存储在索引中查询信息计算的,设置termVectors为true,则可以在建索引的时候计算term Vector信息,且保存在索引中。

这对大数据量的索引来说,影响很大。如果你重度使用MoreLikeThis 的功能,可以开启这个属性。

4.termPositions和termOffset、termPayLoads

这三项和前面的termVectors关系很大,是在前面一项为true的情况下,这三项才有效果。分别是指词在文档中所处位置、词的偏移量、词在词向量中比重信息(词在文章中重要性?不确定此处)。 可以加速高亮功能和其他辅助功能,当然如果设置为true也会增加索引的大小和降低建索引的速度。

omitTermFreqAndPositions: 如果设置为true,则忽略词出现的频次、位置和在文章中这个字段的比重信息。在不需要这些信息时候可以改进索引性能。减少索引的大小。依赖这个词的位置的查询将默默地显示找不到信息,除了textField字段类型,其他字段类型默认设置为true。

omitPositions : 和omitTermFreqAndPositions 类似仅仅忽略位置。

5.precisionStep 和positionIncrementGap

precisionStep 这可能是这几个属性里面最难理解的属性了,不过这个属性用在数字或时间字段的范围查询或者排序的时候。通过字面理解就是精度步长,简单来说就是通过保存数据的多个精度来加快数据的范围定位。

举个例子,比如你在电商网站查询价格范围在1000 到10000之间的所有手机,这里面就用到了范围搜索。如果价格值的范围很小,用precisionStep 没多大意义,只有大量数据的时候使用它才可能起到加快搜索的作用。 假设手机价格如下定义: <field name="phone_price" type="tint" indexed="true" stored="true" /<fieldType name="tint" class="solr.TrieIntField"precisionStep="8"positionIncrementGap="0"/> 首先说明在solr中(在lucene中),一个数字类型(Date类型实际是按照Long来存储的)最高精度是其本身,这也称为基数据。 solr对于一个具有precisionStep非0的值保存了多个不同精度的term。 按照Solr In Action举例如图:

[图片上传失败...(image-437e32-1667202723227)]

xoIk5T.md.jpg

图来自Solr In Action

tint四个字节,按照precisionStep=8 ,则说明精度按照8位切分,4个字节一共32位,刚好保存四个值。

[图片上传失败...(image-4b927-1667202723227)]

img

图来自Solr In Action

通过这两个图的对比,更小的步长,则同一个值需要保存更多的term, 当然范围搜索也更加精确,查找速度更快,但是也同样会增大索引的大小。

[图片上传失败...(image-898441-1667202723227)]

img

图来自Solr In Action

同样是50000个价格随机数,在不同的precisionStep下的索引大小和范围查询速度的快慢。 positionIncrementGap 它是和multiValued一起使用的,标示多值之间虚拟空白的数量。 举个网上的例子:

title1: ab cd title2: xy zz 如果positionIncrementGap=0,那么这四个term的位置为0,1,2,3。如果检索"cd xy"那么能够找到,如果你不想让它找到,那么就需要调整positionIncrementGap值。如100,那么这是位置为0,1,100,101。这样就不能匹配了。

6.sortMissingFirst 和sortMissingLast

这两个比较好理解,是文档在排序的时候,如果排序字段的值缺失,那么是排在前面还是排在后面。

修改managed-schema

也可以直接修改managed-schema文件,在core的conf下的managed-schema文件中增加字段配置

<!-- 自定义的字段,id已经存在不需要设置 -->
<field name="dd" type="string" indexed="true" stored="true"/>    
<field name="age" type="pint" indexed="true" stored="true" />
<field name="description" type="text_ik" indexed="true" stored="true"  />
<field name="createTime" type="pdate" indexed="true" stored="true"  />
<field name="updateTime" type="pdate" indexed="true" stored="true"  />

添加后到“Core Admin”中刷新一下核即可 [图片上传失败...(image-b1c800-1667202723227)] 就添加上了。

添加数据

现在core已经建好了,但是里面还没有数据,这里我们使用json添加以便快速演示(支持 JSON,、CSV、XML等格式),一般生产环境下都是从数据库访问。

准备json数据:

{"id": "11","age": 40,"name": "李白","description": "创造了古代浪漫主义文学高峰、歌行体和七绝达到后人难及的高度"},
{"id": "12","age": 31,"name": "杜甫","description": "唐代伟大的现实主义文学作家,唐诗思想艺术的集大成者"}

找到该core的Documents菜单,选择文档类型未JSON,把刚才准备的数据粘贴进来,确认无误提交。 [图片上传失败...(image-ccbb71-1667202723227)]

查询

刚才已经添加了数据,我们现在验证一下查询一下

[图片上传失败...(image-9a35eb-1667202723227)]

xVNcwt.md.png

点击Query菜单,然后直接点击Execute Query按钮查询可以看到刚才添加的2条数据已经能查询到了。

参考文档

  1. 官方文档
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,928评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,192评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,468评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,186评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,295评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,374评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,403评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,186评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,610评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,906评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,075评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,755评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,393评论 3 320
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,079评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,313评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,934评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,963评论 2 351

推荐阅读更多精彩内容