[Whoosh 搜索引擎之 一 ] 快速开始

快速开始

Whoosh 是一个用于索引文本然后搜索索引的一组类和函数。它允许您为您的内容开发自定义搜索引擎。 例如,如果您正在创建博客软件,您可以使用 Whoosh 添加搜索功能以允许用户搜索博客条目。

快速介绍

>>> from whoosh.index import create_in
>>> from whoosh.fields import *
>>> schema = Schema(title=TEXT(stored=True), path=ID(stored=True), content=TEXT)
>>> ix = create_in("indexdir", schema)
>>> writer = ix.writer()
>>> writer.add_document(title=u"First document", path=u"/a",
...                     content=u"This is the first document we've added!")
>>> writer.add_document(title=u"Second document", path=u"/b",
...                     content=u"The second one is even more interesting!")
>>> writer.commit()
>>> from whoosh.qparser import QueryParser
>>> with ix.searcher() as searcher:
...     query = QueryParser("content", ix.schema).parse("first")
...     results = searcher.search(query)
...     results[0]
...
{"title": u"First document", "path": u"/a"}

IndexSchema 对象

要开始使用 Whoosh,您需要一个索引 (Index) 对象。 第一次创建索引时,必须定义索引的模式 (Schema)。 该模式列出了索引中的字段。 字段 (Field) 是索引中每个文档的一条信息,例如它的标题或文本内容。 一个字段可以被索引(意味着它可以被搜索)和/或存储(意味着被索引的值与结果一起返回;这对于标题等字段很有用)。

该模式有两个字段,titlecontent

from whoosh.fields import Schema, TEXT
schema = Schema(title=TEXT, content=TEXT)

创建索引 (Index) 时,您只需要创建一次模式 (Schema)。 模式被 pickled 并与索引一起存储。

创建 Schema 对象时,您使用关键字参数将字段名称映射到字段类型。 字段列表及其类型定义了您要索引的内容和可搜索的内容。 Whoosh 带有一些非常有用的预定义字段类型,您可以轻松创建自己的字段类型。

whoosh.fields.ID
这种类型只是将字段的整个值作为一个单元进行索引(并可选地存储)(也就是说,它不会将其分解为单个单词)。 这对于文件路径、URL、日期、类别等字段很有用。

whoosh.fields.STORED
该字段与文档一起存储,但未编入索引。 此字段类型未编入索引且不可搜索。 这对于要在搜索结果中向用户显示的文档信息很有用。

whoosh.fields.KEYWORD
此类型专为以空格或逗号分隔的关键字而设计。 这种类型是索引和可搜索的(并且可以选择存储)。 为了节省空间,它不支持短语搜索。

whoosh.fields.TEXT
这种类型用于正文。 它索引(并可选地存储)文本并存储术语位置以允许短语搜索。

whoosh.fields.NUMERIC
这种类型用于数字。 您可以存储整数或浮点数。

whoosh.fields.BOOLEAN
此类型用于布尔 (true/false) 值。

whoosh.fields.DATETIME
此类型用于日期时间对象。 有关详细信息,请参阅索引和解析日期/时间。

whoosh.fields.NGRAMwhoosh.fields.NGRAMWORDS
这些类型将字段文本或单个术语分解为 N-gram。 有关详细信息,请参阅 索引和搜索 N-gram
(作为一种快捷方式,如果您不需要向字段类型传递任何参数,您可以只提供类名,Whoosh 将为您实例化该对象。)

import os.path
from whoosh.index import create_in

if not os.path.exists("index"):
    os.mkdir("index")
ix = create_in("index", schema)

(在低级别,这会创建一个存储对象来包含索引。Storage 存储对象表示将存储索引的介质。通常这将是 FileStorage,它将索引存储为目录中的一组文件。)

创建索引后,可以使用 open_dir 便捷函数打开它:

from whoosh.index import open_dir

ix = open_dir("index")

IndexWriter 对象

好的,我们已经有了一个 Index 对象,现在我们可以开始添加文档了。 Index 对象的 writer() 方法返回一个 IndexWriter 对象,它允许您将文档添加到索引。 IndexWriteradd_document(**kwargs) 方法接受关键字参数,其中字段名称映射到一个值:

writer = ix.writer()
writer.add_document(title=u"My document", content=u"This is my document!",
                    path=u"/a", tags=u"first short", icon=u"/icons/star.png")
writer.add_document(title=u"Second try", content=u"This is the second example.",
                    path=u"/b", tags=u"second short", icon=u"/icons/sheep.png")
writer.add_document(title=u"Third time's the charm", content=u"Examples are many.",
                    path=u"/c", tags=u"short", icon=u"/icons/book.png")
writer.commit()

两个重要说明:

  • 您不必为每个字段都填写一个值。 Whoosh 不关心您是否遗漏了文档中的某个字段。
    索引文本字段必须传递一个 unicode 值。 存储但未索引的字段(STORED 字段类型)可以传递给任何 pickle-able 对象
  • 如果你有一个既被索引又被存储的文本字段,你可以索引一个 unicode 值,但在必要时存储一个不同的对象(通常不是,但有时这真的很有用)使用这个技巧:
writer.add_document(title=u"Title to be indexed", _stored_title=u"Stored title")

IndexWriter 上调用 commit() 将添加的文档保存到索引中:

writer.commit()

有关详细信息,请参阅 如何索引文档

一旦您的文档提交到索引,您就可以搜索它们。

Searcher对象

要开始搜索索引,我们需要一个 Searcher 对象:

searcher = ix.searcher()

您通常希望使用 with 语句打开搜索器 (Searcher),以便在您完成搜索后自动关闭搜索器(搜索器对象代表许多打开的文件,因此如果您没有明确关闭它们并且系统也没有快速回收,你可能耗尽文件句柄):

with ix.searcher() as searcher:
    ...

这当然等同于:

try:
    searcher = ix.searcher()
    ...
finally:
    searcher.close()

Searchersearch() 方法接受一个 Query 对象。 您可以直接构造查询对象或使用查询解析器来解析查询字符串。

例如,此查询将匹配在 “content” 字段中同时包含 “apple” 和 “bear” 的文档:

# 直接构造查询对象

from whoosh.query import *
myquery = And([Term("content", u"apple"), Term("content", "bear")])

要解析查询字符串,您可以使用 qparser 模块中的默认查询解析器。 QueryParser 构造函数的第一个参数是要搜索的默认字段。 这通常是 “正文” 字段。 第二个可选参数是用于理解如何解析字段的模式:

# 解析查询字符串

from whoosh.qparser import QueryParser
parser = QueryParser("content", ix.schema)
myquery = parser.parse(querystring)

一旦有了 Searcher 和查询对象,就可以使用 Searchersearch() 方法来运行查询并获取 Results 对象:

>>> results = searcher.search(myquery)
>>> print(len(results))
1
>>> print(results[0])
{"title": "Second try", "path": "/b", "icon": "/icons/sheep.png"}

默认的 QueryParser 实现了一种与 Lucene 非常相似的查询语言。 它允许您使用 ANDOR 连接术语,使用 NOT 删除术语,将术语组合成带括号的子句,执行范围、前缀和通配符查询,并指定要搜索的不同字段。 默认情况下,它将子句与 AND 连接在一起(因此默认情况下,您指定的所有术语必须在文档中才能匹配):

>>> print(parser.parse(u"render shade animate"))
And([Term("content", "render"), Term("content", "shade"), Term("content", "animate")])

>>> print(parser.parse(u"render OR (title:shade keyword:animate)"))
Or([Term("content", "render"), And([Term("title", "shade"), Term("keyword", "animate")])])

>>> print(parser.parse(u"rend*"))
Prefix("content", "rend")

Whoosh 包含用于处理搜索结果的额外功能,例如

  • 按索引字段的值而不是相关性对结果进行排序。
  • 在原始文档的摘录中突出显示搜索词。
  • 根据找到的前几个文档扩展查询词。
  • 对结果进行分页(例如“显示结果 1-20,第 1 页,共 4 页”)。

请参阅 如何搜索 以获取更多信息。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,137评论 6 511
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,824评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,465评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,131评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,140评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,895评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,535评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,435评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,952评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,081评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,210评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,896评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,552评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,089评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,198评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,531评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,209评论 2 357

推荐阅读更多精彩内容