字典树Trie及其应用

字典树Trie

字典树也叫前缀树,是一种在字符串查找,前缀匹配等问题广泛应用的算法,为什么使用字典树呢?我们都知道如果对于一个存储有n个条目的数据集做查询,线性结构的时间复杂度是O(n),这是相当恐怖的,改进的基于红黑树的查询时间复杂度是O(logn),虽然已经好很多,但是当n非常大时,这个时间复杂度还是不能接受的。而字典树能做到查询的时间复杂度和数据集存储的数目n无关,而仅和被查询的字符串长度有关,所以它在查找时只有O(1)的时间复杂度。这是怎么做到的呢,其实很简单,下图是某存储英文的字典树的结构:

Trie

该树中存储了英语单词bed,beat,win,wind,yes,如果要查询某个单词,比如wind,只需要先找到w,再找到i、n、d即可。可见对每个单词的查找只需要查找单词长度次,而且每次查找只需查找26次之内(即便算上大写也在52次之内)。
Trie数据结构设计要点:

  • 添加操作:从根开始向下,如果某个节点没有则拓展一个新节点,添加完毕后在最后一个节点处将标志置true;
  • 查询操作:基本过程与插入相同,向下查找,如果中间遇到一次节点不存在,直接返回false,一直向下查找,最终返回标志位;
  • 每遍历到一个叶子节点,就查到一个单词(条目);
  • 可能某个单词是其它单词的前缀,如果没到叶子节点就存储了一个单词,则将此处标志置true。

字典树的实现
首先考虑节点结构,并假设这里的节点仅存储小写英文单词,故每个节点下应该有26个分支(实际如何存储根据具体情境):

class Node{
    char c;
    Node next[26];//指向下一个节点
}

不过由于在寻找下一个节点时,我们实际上已经知道了要找哪个,故可以将当前节点和和其指向的节点存储为一个整体(相当于存储是在边上),故节点设计为:

class Node{
    boolean isWord;
    Map<char,Node> next;
}

其中isWord用于标识单词结尾,从而Trie类:

import java.util.TreeMap;
public class Trie {//不需要泛型,这里仅解决字符串类问题
    private class Node{//Trie的节点类
        public boolean isWord;
        public TreeMap<Character,Node> next;

        public Node(boolean isWord){
            this.isWord = isWord;
            next = new TreeMap<>();
        }
        public Node(){
            this(false);//表示使用上面的构造函数
        }
    }

    private Node root;
    private int size;

    public Trie(){
        root = new Node();
        size = 0;
    }

    //获取Trie中的单词数量
    public int getSize(){
        return size;
    }
    //向Trie中添加新单词(字符串)
    public void add(String word) {
        Node cur = root;
        for (int i = 0; i < word.length(); i++) {
            char c = word.charAt(i);
            if (cur.next.get(c) == null)//如果映射中没有包含到c的映射
                cur.next.put(c, new Node());
            cur = cur.next.get(c);
        }
        if (!cur.isWord) {//首先检查该单词是否已经存在
            cur.isWord = true;
            //此时来到了当前添加单词的最后节点,但不一定是叶子节点,因为可能是别的单词前缀
            size++;
        }
    }//作业:使用递归写法完成添加操作

    public boolean contains(String word){
        //查询单词word是否在Trie中
        Node cur = root;
        for(int i=0;i<word.length();i++){
            char c = word.charAt(i);
            if(cur.next.get(c) == null)
                return false;
            cur = cur.next.get(c);
        }
        return cur.isWord;
    }//作业,递归写法

    //其实Trie也是一个集合
    public boolean isPrefix(String prefix){
        //查询Trie中是否有单词以prefix为前缀(一个单词也是本身的前缀)
        Node cur = root;
        for(int i=0;i<prefix.length();i++){
            char c = prefix.charAt(i);
            if(cur.next.get(c) == null)
                return false;
            cur = cur.next.get(c);
        }
        return true;//和查询单词操作类似,不过无需检查是否包含单词
        //作业:BSTSet中查询前缀
    }
}

可以看到,Trie类的实现我们借助了TreeMap等底层数据结构,这正是数据结构的魅力,就像乐高积木一样,由一些基础的木块一步步搭建出美丽的艺术品。

Trie的应用——LeetCode207、211

LeetCode207不再介绍,就是设计一个字典树类,支持添加和查找操作,上面实现的类修改下类名即可。
LeetCode211

LeetCode211

这个题目其实和Trie类要完成的工作类似,不过加入了一些更灵活的条件(简易正则表达式),只需对我们的Trie类做小部分修改即可:

import java.util.TreeMap;
class WordDictionary {
    private class Node{//Trie的节点类
        public boolean isWord;
        public TreeMap<Character,Node> next;

        public Node(boolean isWord){
            this.isWord = isWord;
            next = new TreeMap<>();
        }
        public Node(){
            this(false);//表示使用上面的构造函数
        }
    }
    private Node root;
    /** Initialize your data structure here. */
    public WordDictionary() {
        root = new Node();
    }
    public void addWord(String word) {
        Node cur = root;
        for (int i = 0; i < word.length(); i++) {
            char c = word.charAt(i);
            if (cur.next.get(c) == null)//如果映射中没有包含到c的映射
                cur.next.put(c, new Node());
            cur = cur.next.get(c);
        }
        if (!cur.isWord) //首先检查该单词是否已经存在
            cur.isWord = true;
    }
    public boolean search(String word) {
        return match(root, word,0);
    }
    private boolean match(Node node, String word, int index) {
        //从index处开始匹配
        if (index == word.length())
            return node.isWord;//递归终止条件,word匹配完毕,若为true则返回匹配成功,false匹配失败
        char c = word.charAt(index);
        if (c == '.') {
            for (char nextChar : node.next.keySet()) {//是.则遍历所有字母
                if (match(node.next.get(nextChar), word, index + 1))
                    return true;
            }
            return false;
        } else {
            if (node.next.get(c) == null)
                return false;
            return match(node.next.get(c), word, index + 1);//继续匹配后面的部分
        }
    }
}

可以发现,我们只对查询函数做了改动,而查询主要是基于递归实现的。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 221,198评论 6 514
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,334评论 3 398
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 167,643评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,495评论 1 296
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,502评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,156评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,743评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,659评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,200评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,282评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,424评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,107评论 5 349
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,789评论 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,264评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,390评论 1 271
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,798评论 3 376
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,435评论 2 359

推荐阅读更多精彩内容

  • 1. 什么是trie树 1.Trie树 (特例结构树)Trie树,又称单词查找树、字典树,是一种树形结构,是一种哈...
    铁肩侠阅读 1,088评论 1 0
  • 声明:摘自github:https://github.com/ZtesoftCS/go-ethereum-code...
    蓝Renly阅读 777评论 0 0
  • 引言 go-etherum的包trie实现了Merkle Patricia Tries,这里用简称MPT来称呼这种...
    泡泡龙吐泡泡阅读 3,292评论 0 1
  • 《希望》 我希望每一次我伸手你都提前知道我想要的 《没心没肺》 不要说我没心没肺因为有人曾经嫌我狼心狗肺 《收束》...
    何鲸洛阅读 317评论 0 1
  • 没有纠结,执着就显得没有意义,倘若这两者都不存在,生活便只是一场单纯的狩猎。 我去楼下买了一块雪糕,在这个夏天里显...
    玩笑的熊阅读 670评论 26 18