使用indri建立index
如果你已经编译过indri的源代码,你应该可以在buildindex
目录下找到IndriBuildIndex
这个文件。这个文件大约17MB,就是我们用来建立索引的可执行文件。这个文件你可以把它拷到任何地方。为了方便,我把它拷到了一个新文件夹bin
。
首先,在建索引之前,我们要告诉程序我们要为哪些文件建立索引。对你来说,就是为了database中所有题目建立索引。所以,首先你要新建一个文件夹,文件夹中为每一个题目建立一个txt文件。
下图中,我在docs文件夹中建立了6个txt文件。每个文件中有一段话。
接下来,我们要写建立索引所需要的参数。
首先我们要新建一个文件,里面的内容为
<parameters>
<memory>200m</memory>
<index>/mnt/i/databackup/testdocs/</index>
<corpus>
<path>/mnt/i/databackup/docs/</path>
<class>text</class>
</corpus>
</parameters>
注意,因为我使用win10的bash on ubuntu,所以他的路径地址是/mnt/i/databackup/docs/
。另外,注意最后有个斜杠,表示这是一个文件夹,此文件夹下的所有文件都要建立索引。
接下来我们到bin路径下(我们刚才把IndriBuidIndex拷到了此目录下)
执行命令./IndriBuildIndex parameter_file.txt
可以看到索引已经建好了。然后去看一下刚才我设定的index的位置
这样,index就已经建立了。