倒排索引Inverted Index

倒排索引

一种数据结构,它适用于快速的全文搜索。它的核心原理是把文档中出现过的单词(字)做成索引,比如我们有两段文字:

1.the quick brown fox jumped over the lazy dog .

2.quick brown foxes leap over lazy dogs in summer

在倒排索引中存储格式如下:

单词     包含单子的文档ID和其在文档中的位置

The       1: [0,6]

quick      1:[1],2:[0]

brown    1:[2],2[1]

...            ...

scala实现简单demo

https://github.com/itonc/dataSience/tree/master/address


©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容