Solr-Powered文件搜索
本文将指导您为自己的文件集创建一个solr驱动的搜索引擎,包括Word文档,PDF,HTML和其他许多支持的类型。
有关进一步说明,请参阅指南末尾的常见问题解答。
开始吧
要启动Solr,请输入以下命令(确保您已进入Solr的安装目录):
bin/solr start
如果您已正确启动,您应该看到以下输出
Waiting to see Solr listening on port 8983
Started Solr server on port 8983 (pid=<your pid>). Happy searching!
创建Core/Collection
在你能索引你的文件前,您需要创建一个Core/Collection。通过输入以下内容来执行此操作:
bin/solr create -c files -d example/files/conf
现在,您已使用默认配置文件创建了一个名为"files"的Core
你应该看到以下响应信息:
Creating new core 'files' using command:http://localhost:8983/solr/admin/cores?action=CREATE&name=files&instanceDir=files
{
"responseHeader":{
"status":0,
"QTime":239},
"core":"files"}
开始索引文件
回到命令行,输入以下命令,将需要索引的文件发布到Core:
bin/post -c files ~/Documents
这里需要花费一些时间,速度取决于文件的多少.接下来就是见证奇迹的时刻.当所有文件都被编入索引后,你会看到类似下面的东西:
<some number> files indexed.
COMMITting Solr index changes to http://localhost:8983/solr/files/update...
Time spent: <some amount of time>
要查看已接受的文件类型列表,请执行以下操作:
bin/post -h
浏览文档
您的文档信息可以以多种格式查看:XML,JSON,CSV,当然还有漂亮的HTML界面。
要查看HTML界面查看文档信息,在地址栏中输入网址:
http://localhost:8983/solr/files/browse
要以XML或其他格式查看文档,请将&wt添加到该URL的末尾。如:
http://localhost:8983/solr/files/browse?&wt=xml
ADMIN UI
验证Core是否已创建的另一种方法是在管理员界面中查看。
- Admin_UI是索引和查询Solr索引的可视化工具。
要访问管理界面,请在浏览器中访问:
- 只有在Solr运行时才能访问Admin UI
点击页面左侧的"Core Selector"。你能在列表中看到上面创建的files Core,点击可以进行操作。如果列表中没有files,那么你的Core可能没有被创建,你需要重新输入创建命令。
另外,你可以直接访问:http://localhost:8983/solr/#/files进入Core操作页面。
现在您已经打开了Core操作页面了。这里有很多不同的工具供你用来分析\查询你的Core;你可以在完成文档索引后使用这些功能。
记下核心统计信息中的"Num Docs"字段。如果在完成文档索引后,它显示Num Docs为0,则表示索引有问题。
QUERYING INDEX
在管理界面中,在查询框中输入一个单词,以查看哪些文档包含该单词。
您可以通过选择不同的内容类型的选项卡来筛选结果。将鼠标悬停在页面的右上角的地球图标上可以查看该接口的国际版。
注意右侧的标签,他们是程序在索引过程中通过分词提取出来的词语。
单击词语可以查看包含它们的文档。
*查询索引的另一种方法是在浏览器地址栏中的通过URL查询。如: http://localhost:8983/solr/files/browse?q=Lucene
常见问题
为什么在创建Core时要使用-d
-d 用来指定配置文件路径,不加则使用默认配置文件;在示例中使用了配置索引和查询富文本文件的配置。
如何删除Core?
要删除核心(该文件),可以在命令shell中输入以下内容:
bin/solr delete -c files
你应该看到如下信息:
Deleting core 'files' using command:
http://localhost:8983/solr/admin/cores?action=UNLOAD&core=files&deleteIndex=true&deleteDataDir=true&deleteInstanceDir=true
{"responseHeader":{
"status":0,
"QTime":19}}
调用Solr Core管理程序“UNLOAD”参数“deleteDataDir”和“deleteInstanceDir”,以确保同时删除与Core关联的所有数据.
如何更改/浏览用户界面?
主要模板位于example/files/conf/velocity下。为了编辑这些文件(无需使用更新的配置重新创建或修补Core/Collection,Solr可以使用特殊配置启动
设置conf/velocity目录的absolute路径,如下所示:
bin/solr start -Dvelocity.template.base.dir=</full/path/to>/example/files/conf/velocity/
如果要调整现有集合的浏览模板,请编辑核心配置
在 server/solr/files/conf/velocity
下.