字典树Tries, since 2020.02.21

Trie (pronounced 'try')是一种树形数据结构,存储字符串用于字符结构匹配。Trie结构的主要应用是信息检索(information retrieval).字典树的名字也来自于单词retrieval.应用字段树的操作主要是结构匹配(pattern matching)和前缀匹配(prefix matching).

标准字典树(standard tries):

定义S是字母表西格玛中的s个字符的集合,S中没有任何字符是其他字符的前缀。满足下列条件的S的有序树T称为一个标准字典树:

1 除根节点外,其他结点用西格玛中的字符做标记(labeled with a character of sigma);

2 内部节点的子节点的各不相同(the children of an internal node have distinct labels);

3 该树的s个子叶分别对应了S中的字符,从根节点到任一子叶v,将路径上的标签(label)拼接,形成S中与子叶v对应的字符。

一个重要假设: S中没有任何字符串是其他字符串的前缀prefix. 这保证了S中字符串与T中的子叶一一对应.

命题/性质:

1 字典树T的高度与S中最长的字符串长度相同;

2 每个内部节点最多有|sigma|个子节点 (|sigma|是sigma字符集中字符串的个数);

3 字典树T有s个叶节点(s是S中字符串的个数);

4 字典树T的结点数不超过n+1 (n是S中所有字符串的总长度).

字典树T结点数的最坏情况发生在没有任何两个字符串有相同的非空前缀,也就是,除了根节点,所有内部节点都只有一个子结点。

应用:

可用于生成以S中字符串为key的字典,从根节点到叶节点拼接路径中结点的标签生成一个key,如果正在检索的key没有终止于叶节点,或T中不含有能拼接成该key的路径,则这个key在S中不存在。

检索一个长度为m的字符的复杂度是O(m*|sigma|),最坏情况是检索T中的所有路径,也就是遍历S中的所有字符串,并且每个字符串都在最后一位得到检索结果。

Pattern matching的算法: word matching

生成字典树的算法: incremental algorithm

2020.02.23

一个假设:S中没有任何一个字符串是另一个字符串的前缀。在一个trie中插入一个新的长度为m的字符串X,跟踪路径并插入新的节点,复杂度是O(m*|sigma|)。而建立整个trie的复杂度是O(n),其中n是S中所有字符串的总长度。

压缩字典树Compressed trie

针对standard trie中很多结点只有单一子结点的情况压缩字典树被提出。

描述性定义: 类似于标准字典树,但其每个内部节点有至少两个子结点。

定义结点为冗余(redundant),如果结点含有一个子结点并且该结点不是根节点。

对于一个内部节点都是冗余的path,变成压缩字典树的算法如下,

从任意节点到最后一个冗余结点的每个hop,用tuple表示成(v0, v1), (v1, v2)...(vi-1, vi),中v0和vi不是

冗余,其余冗余,则该path可表示成(v0, vi).

压缩字典树中的结点用字符串做标记(对比标准字典树中是字母)。

定理

一个压缩字典树T来自字符串集合S共s个字符串,其字母来自有d个元素的字母集,有如下性质

1 T中的每个内部结点有最少两个子节点,最多d个子节点;

2 T有s个叶节点;

3 T的结点个数是O(s).

压缩字典树的表达方式: 用字符串s的index表示。(有个图)

注意,检索压缩字典树并不一定比标准字典树更快,因为在traversing path的过程中仍然需要比较目标string和树中结点。

suffix trie后缀字典树: 不知道在说什么,略。

search engine indexing搜索引擎原理:

搜索引擎的核心是称为inverted index/file的字典,key-value pair是(w, L),其中w是一个词,L是包含w的页面的collection。w称为index terms,是个尽可能大的词汇表。该字典中的元素称为occurrence lists并尽可能包含多的页面。搜索引擎用两类数据结构,

1 一个array用来保存不同index的occurrence lists,

2 一个压缩字典树保存index terms,每个叶结点保存该term对应的occurrence list在array中的index.

occurrence lists与字典树分离是为了保证树结构足够小以适应internal memory(放在内存里)。而occurrence lists的尺寸使得它们只能放在disk上。

用搜索引擎对关键字的检索如同用字典树做匹配检索。找到keyword,返回对应的occurrence lists。

使用多个keywords检索时,返回包含kw的所有页面,对不同kw的ol做交集(intersection). ol需要用根据地址排序的序列或map形式实现。

此外,每个ks的ol还要根据revelance对页面做ranking,ranking算法是搜索引擎的主要挑战。


reference:

1 M. Goodrich and etc, Data Structures and Algorithms in Python.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,686评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,668评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,160评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,736评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,847评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,043评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,129评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,872评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,318评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,645评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,777评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,861评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,589评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,687评论 2 351

推荐阅读更多精彩内容