Whoosh 简介
关于 Whoosh
Whoosh 由 Matt Chaput 创建。 它最初是一个快速而杂乱 (dirty) 的搜索服务器,用于搜索 Houdini 3D 动画软件包的在线文档。 Side Effects Software 慷慨地允许 Matt 开源代码,以防它可能对需要非常灵活或纯 Python 搜索引擎(或两者!)的任何其他人有用。
- Whoosh 速度很快,但只使用纯 Python,因此它可以在任何 Python 运行的地方运行,而不需要编译器。
- 默认情况下,Whoosh 使用 Okapi BM25F 排名功能,但与大多数东西一样,排名功能可以轻松定制。
- 与许多其他搜索库相比,Whoosh 创建的索引相当小。
- Whoosh 中的所有索引文本都必须是 unicode。
- Whoosh 允许您存储带有索引文档的任意 Python 对象。
Whoosh 是什么?
Whoosh 是一个快速、纯 Python 的搜索引擎库。
Whoosh 的主要设计动力是它是纯 Python。 您应该能够在任何可以使用 Python 的地方使用 Whoosh,不需要编译器或 Java。
与其祖先之一 Lucene 一样,Whoosh 并不是一个真正的搜索引擎,它是一个用于创建搜索引擎的程序员库 [1]。
实际上,Whoosh 的任何重要行为都不是硬编码的。 文本索引、每个字段中每个术语存储的信息级别、搜索查询的解析、允许的查询类型、评分算法等都是可定制的、可替换的和可扩展的。
[1] 当然可以在 Whoosh 之上构建交钥匙搜索引擎,就像 Nutch 和 Solr 使用 Lucene 一样。
Whoosh 能为您做什么?
Whoosh 让您可以索引自由格式或结构化文本,然后根据简单或复杂的搜索条件快速找到匹配的文档。
获得有关 Whoosh 的帮助
您可以在 Whoosh Bitbucket 页面上查看未解决的问题,并在 Whoosh 邮件列表上获得帮助。