Lucene fdt 文件格式详解

本文及后面关于Lucene的文章所采用的lucene 版本为8.1.0.

1. 什么是fdt文件

fdt文件主要作用是保存field信息元始信息, 在lucene中,诸如StringField/TextField(原始text,而不是分词后的term), ByteField等都会将原始field 内容保存在该文件中。 Lucene在通过索引拿到docId时,对于非point类型来说,接着就是从fdt文件中加载docId处的内容以获取doc值。


2. fdt文件格式

fdt文件格式

3. 测试代码及结果

代码请参考Lucene tim文件格式详解的第三部分


4. 范例fdt文件内容

fdt文件.png

5. fdt文件内容分析

5.1 文件头

文件头部分主要内容为标识此文件类型为Lucene50StoredFieldsFast, 源码部分在CompressingStoredFieldsWriter的120行,主要内容如下

  1. 3fd7 6c17 固定头MAGIC
  2. 1cLucene50StoredFieldsFastData长度28, 其中Lucene50StoredFieldsFast中的Fast代表data区采用Fast压缩方式, Data这个代表是data文件,与index文件相对应
  3. 28个字节Lucene50StoredFieldsFastData
  4. 00 0000 01 4个字节的CompressingStoredFieldsWriter.VERSION_CURRENT
  5. 16个字节的segmentId, 这个是随机生成的
  6. 00 segment suffix 长度 0

5.2 fdt data 部分

5.2.1 file meta信息
  • 8080 01 chunk byte size 最小值 2^14, lucene 会将doc的field value值拆分成若干chunk存储,合理的设置该值能使压缩比与性能达到平衡
  • 02 即2, 指的是PackedInts.VERSION_CURRENT

下面开始写field的具体值

5.2.2 Data 数据区

data数据区以chunk为单位组织起来,主要有chunk header和数据两个部分

1. Chunk header
Chunk header主要记录一个chunk的元数据,主要有:

  • 00, 即0. docId base, 一般指的是该chunk中第一个doc Id值, 后面在此chunk中存储的docId均以此为base采用delta编码
  • 04doc 数量及是否分片, 计算逻辑为 docNum << 1 + slice, docNum = 2, slice = 0, 代表不分片,分片逻辑取决于总的docId 所占空间是否大于等于2个chunk size, 具体逻辑请参考 CompressingStoredFieldsWriter#flush() 方法
  • 00 01其中00代表所有的doc的field数量相同, 01代表每个doc的field数量为1, 具体逻辑在以下代码
 //CompressingStoredFieldsWriter
 private static void saveInts(int[] values, int length, DataOutput out) throws IOException {
    assert length > 0;
    //doc 数量为1
    if (length == 1) {
      out.writeVInt(values[0]);
    } else {
      boolean allEqual = true;
      for (int i = 1; i < length; ++i) {
        if (values[i] != values[0]) {
          allEqual = false;
          break;
        }
      }
      //所有的doc的filed num相同,先写一个0, 再写共同的field num
      if (allEqual) {
        out.writeVInt(0);
        out.writeVInt(values[0]);
      } else {
        long max = 0;
        for (int i = 0; i < length; ++i) {
          max |= values[i];
        }
       /*
       采用bit编码, 首先记录需要几个bit表示,然后写每个数值
       假设doc0, doc1, doc2, doc4 的field num 分别为1,2,1,3,则需要2个bit表示,则最终的结果为
       bit size : `0x02`
       bit content: 01, 10, 01, 11 即 `0x67`
       思想如上,更详细内容请参考下面代码
       */
        final int bitsRequired = PackedInts.bitsRequired(max);
        out.writeVInt(bitsRequired);
        final PackedInts.Writer w = PackedInts.getWriterNoHeader(out, PackedInts.Format.PACKED, length, bitsRequired, 1);
        for (int i = 0; i < length; ++i) {
          w.add(values[i]);
        }
        w.finish();
      }
    }
  }
  • 0694 b0f2 10 每一个doc中field中值的length, 在样例中,length 分别为了37、11, 需要6个bit表示即06, 后面4个byte为对应的编码,采用Pack编码,有兴趣的同学可以去了解一下

为什么length 是37, 11呢?'lucene test, hello word, nice, nice'长度是35, 'nice haha'长度是9, 加上对应的长度值也应该是36和10,怎么会是37、11呢? 原因: 这个值是meta + data length + data value,meta占一个字节, 详细请参考下一部分

2. data body
body 依次写入每一个doc的每一个field字段内容, 格式请参考fdt格式图

  • 00, 即 0 << 1 + 0, 0 << 1 0 代表field numer 为0, 后面的0 代表field的数据类型CompressingStoredFieldsWriter.STRING,详细内容可以参考CompressingStoredFieldsWriter#writeField方法
  • 23即35代表第一个doc的第一个field值长度,即'lucene test, hello word, nice, nice'
  • 35个字节内容,text/String 类型是直接写,其它类型有不同格式,请参考源码CompressingStoredFieldsWriter#writeField; 上一节提到的length是37指的是35 + 2(00 23)
  • 01 chunk 总个数1
  • 01 不完整chunk个数1

不完整chunk 指的chunk 中doc个数小于128, 一般在手动触发flush、合并的时候会生成不完整的chunk

5.3 footer区

footer区主要有以下内容

  • c0 2893 e8 MAGIC值,为header值的反码
  • 00 0000 00 固定4个字节int 值为0
  • 0000 0000 ec0a abc0 8个字节的CRC码

觉得本文有帮助的话,请关注我的简书,一同进步!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,718评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,683评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,207评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,755评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,862评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,050评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,136评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,882评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,330评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,651评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,789评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,477评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,135评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,864评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,099评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,598评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,697评论 2 351

推荐阅读更多精彩内容

  • 本文及后面关于Lucene的文章所采用的lucene 版本为8.1.0. 1. 什么是tim文件 tim文件主要作...
    ni_d58f阅读 2,681评论 1 2
  • 内存管理与数据存储 索引(index):Lucene的索引由许多个文件组成,这些文件放在同一个目录下 段(se...
    大林_3a76阅读 3,377评论 0 3
  • 本文及后面关于Lucene的文章所采用的lucene 版本为8.1.0. 1. 什么是doc文件 doc文件主要用...
    ni_d58f阅读 1,599评论 0 0
  • 前言 Lucene 是一种高性能、可伸缩的信息搜索(IR)库,在 2000 年开源,最初由鼎鼎大名的 Doug C...
    叫我不矜持阅读 2,073评论 0 6
  • 胸中有书气自华,一直是我比较欣赏的一句诗,而我更相信,气,才是韵动一切的源泉。 倘若心如止水,没有执念,是否能更接...
    诚燃阅读 524评论 0 0