Bleve目录结构

bleve是一个全文搜索引擎,golang里对标java的lucene,但是在结果封装等方面又借鉴了Elasticsearch很多设计,不得不说,不背负历史包袱更方便拨丝抽茧。

本章开始我们尝试分析bleve的源码,个人是不喜欢读他人源码的,1.思想受限。2.破坏自己的风格。当然最主要的是读代码比写代码难 -_-! . 如果你能很好很快的hold住一份复杂代码,你的功底至少比作者高出1个level才实际。不过这不影响咱们读代码。懂不懂不重要,重要的是读没读是吧哈哈。

废话不多说了,直接上一个图,然后嫖一下官网文档,本章交差

image

上图是bleve的目录结构。golang有着丧心病狂的包引用洁癖,所以go语言的程序分层相当讲究自上而下,这样也很方便阅读。

bleve

是top-level 的package,他的存在是更好的调用,包装下层package。

Analysis

分析器的包,将文本打成term,这个我比较熟,这个包一般不会调用其他包里面的内容,比较独立.

Analyzers

analyzers 就是一个完整的分词器,顺路插一句,bleve的分词器插件比起lucene相对简单不少,一个analyzers里面一般有一个Tokenizer,用于词语片段化,多个TokenFilter。用于过滤转换。

ByteArrayConverters

故名思议,byte数组转换,好吧我实话实说,写这个文章的此时此刻,我还没看过代码这么细的地方。so我感觉不到这个玩意的存在。

DateTime Parsers

时间日期的解析

Language

这个包实现了多种语言的分析器,but没有中文的,lucene里面包了一个smartcn的分词器,话说中文分词器依赖词典模型,反而还是以插件的形式比较稳妥。对于我来说一个standard一个keywords分词器就可以随便浪了,不在乎。

Token Filters

词干抽取的过滤器,停用词呀啥的。

CharFilters

字符过滤,没什么好说的,写转换,全半角转换,啥的。

Token Maps

不知何物,貌似从一个文件读取一个词或短语,还吃了bool表达式。

Tokenizers

分词器,你如果自己写分词器主要是写这里

Document

文档包包含与bleve文档和字段相关的代码。一个文档包含多个字段,一个字段包含多个term。这是bleve中的索引单元。

Index

index包是将索引数据写入到磁盘的功能。方便search。

Store

存储包,是一个文档持久化的工具包,实现了kv接口,可以挂载多个kv数据库。如leveldb rockdb啥的。

upside_down

upside_down包是倒排索引实现。它可以使用任何存储实现。它包含关于如何编码单个行的所有细节。

HTTP

一个简易的api服务,作者的意思是是可用可不用。json协议。

Registry

通过名称提供一些注册服务,类似cache。比如分词器等,应该算是一种设计模式吧。这还有助于序列化索引映射并将它们与索引一起持久化。

Search

搜索包的代码主要是实现搜索方法,这个包依赖index包的接口,然后就不依赖其他了。

Collectors

收集器包负责从所有结果中收集所需的结果并打分。用堆排序,选取topN,

Facets

负责从结果集中收集数据,然后构建

Highlight

高亮包,负责在返回结果中命中高亮文本。没什么好说的

Scorers

Scorers 负责堆搜索结果打分,这个打分可能是中间结果,Collectors来调用,

Searchers

这个包里面包含了实际的搜索实现。后面争取我们可以细致分析

Utils

这个包包含了所有的命令行实现,在新版本里面是cmd包。

实际上你能发现,目前包结构和当前这份文档对不上了。打开时光机回到项目初生的时候看看

image

果然这老头已变初心

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,222评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,455评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,720评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,568评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,696评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,879评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,028评论 3 409
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,773评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,220评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,550评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,697评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,360评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,002评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,782评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,010评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,433评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,587评论 2 350

推荐阅读更多精彩内容

  • 1.Lucene简介 Lucene是apache下的一个开源的全文检索引擎工具包。 1.1.全文检索(Full-t...
    唯死撑尔阅读 528评论 0 0
  • 常用概念: 自然语言处理(NLP) 数据挖掘 推荐算法 用户画像 知识图谱 信息检索 文本分类 常用技术: 词级别...
    御风之星阅读 9,167评论 1 25
  • 一、什么是Lucene Lucene是apache下的一个开源的全文检索引擎工具包。它为软件开发人员提供一个简单易...
    我可能是个假开发阅读 10,147评论 2 15
  • 原文链接:http://www.chedong.com/tech/lucene.htmlLucene是一个基于Ja...
    流河阅读 653评论 0 3
  • 目录结构:1.全文检索 2.Lucene入门3.Lucene进阶 全文检索 一, 生活中的搜索:1.Win...
    CoderZS阅读 1,663评论 0 12