【elasticsearch】6、倒排索引

正排和倒排索引

  • 目录 - 正排


    目录
  • 快速查找“benchmarking”所在的页面(倒排)


    benchmarking

倒排索引的核心组成

  • 倒排索引包含两个部分
    • 单次词典(term dictionary),记录所有文档的单词,记录单词到倒排列表的关联关系
      • 单词词典比较大,可以通过b+树或者哈希拉链法实现,以满足高性能的插入与查询
  • 倒排列表(posting list) - 记录了单词对应的文档结合,由倒排索引项组成
    • 倒排索引项(posting)
      • 文档id
      • 词频tf - 该单词在文档中出现的次数,用户相关性评分
      • 位置(postion) - 单词在文档中分词的位置。用户语句的搜索(phrase query)
      • 偏移(offset) - 记录单词的开始结束的位置,实现高亮显示

elasticsearch 的倒排索引

elasticsearch
  • elasticsearch的json文档中的每个字段,都有自己的倒排索引
  • 可以指定对某些字段不做索引
    • 优点:节省存储空间
    • 缺点:字段无法搜索
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容