String.indexOf()源码分析

这两天在leetcode写题的时候看到了一题自己实现strStr(),就是类似于String.indexOf()方法的功能。具体一点就是

给定一个 haystack 字符串和一个 needle 字符串,在 haystack 字符串中找出 needle 字符串出现的第一个位置 (从0开始)。如果不存在,则返回 -1。

我们平时遇到这种的时候都是一般都是直接调用indexOf(),但是人家要求自己实现。实现嘛也不难,很快就实现了,但是发现自己写的代码又臭又长,于是就想看看人家是怎么写的。废话不多说,正文开始。

源码分析

使用idea工具的可以ctrl+左键进入方法源码

第一层

首先我们来看点进去的源码

/**
     * Returns the index within this string of the first occurrence of the
     * specified substring.
     *
     * <p>The returned index is the smallest value <i>k</i> for which:
     * <blockquote><pre>
     * this.startsWith(str, <i>k</i>)
     * </pre></blockquote>
     * If no such value of <i>k</i> exists, then {@code -1} is returned.
     *
     * @param   str   the substring to search for.
     * @return  the index of the first occurrence of the specified substring,
     *          or {@code -1} if there is no such occurrence.
     */
    public int indexOf(String str) {
        return indexOf(str, 0);
    }

首先光标在这一层的indexOf()方法上面,里面有一个参数str,上面有解释the substring to search for。意思说这就是我们indexOf()传进来的字符串,然后方法体内又调用了indexOf(),学过java都知道这是一个方法重载。由于里面没什么东西了,我们点进去这个重载的indexOf()看看。

第二层
/**
     * Returns the index within this string of the first occurrence of the
     * specified substring, starting at the specified index.
     *
     * <p>The returned index is the smallest value <i>k</i> for which:
     * <blockquote><pre>
     * <i>k</i> &gt;= fromIndex {@code &&} this.startsWith(str, <i>k</i>)
     * </pre></blockquote>
     * If no such value of <i>k</i> exists, then {@code -1} is returned.
     *
     * @param   str         the substring to search for.
     * @param   fromIndex   the index from which to start the search.
     * @return  the index of the first occurrence of the specified substring,
     *          starting at the specified index,
     *          or {@code -1} if there is no such occurrence.
     */
    public int indexOf(String str, int fromIndex) {
        return indexOf(value, 0, value.length,
                str.value, 0, str.value.length, fromIndex);
    }

点进来一看,这个indexOf(String str, int fromIndex),有两个参数。看上面注释是说什么
@param str the substring to search for.
str是我们上面传进来的字符串
@param fromIndex the index from which to start the search.
这个fromIndex说的是从哪个下标开始进行搜索,我们回到上面那个indexOf(),参数是0,也就是我们默认就是从0开始查找这个字符串,合乎情理。但是如果我们想从另一个下标开始查找的话,可以自己传入一个fromIndex,那么它就会自己调用第二层的indexOf()。

然后我们看看里面这个方法重载,这个indexOf()多了很多的参数。我们先来简单分析一下再进入下一层。
首先是这个value,方法直接就调用了。说明这是String自带的参数。点进去看一下声明

/** The value is used for character storage. */
    private final char value[];

可以发现这是一个字符串数组,这里我们可以大胆的猜测一下,我们new一个String对象的时候的那个字符串,变成了这个对象里面的字符数组参数,这样的话那么就一定有具体赋值的操作。我们在源码里面查找了一下,果然

/**
     * Allocates a new {@code String} so that it represents the sequence of
     * characters currently contained in the character array argument. The
     * contents of the character array are copied; subsequent modification of
     * the character array does not affect the newly created string.
     *
     * @param  value
     *         The initial value of the string
     */
    public String(char value[]) {
        this.value = Arrays.copyOf(value, value.length);
    }

String的有参构造方法将这个字符串,或者说字符数组,赋值给了String的value字符数组。这也是为了String其他的操作方便。

既然知道了value的来历,那么其他参数就可以很好的理解了。
value.length就是这个字符数组的长度,str.value就是str的这个字符串的字符数组,str.value.length该字符数组的长度。fromIndex参数解释过了,至于两个0,我们进下一层看看具体的介绍。

第三层
/**
     * Code shared by String and StringBuffer to do searches. The
     * source is the character array being searched, and the target
     * is the string being searched for.
     *
     * @param   source       the characters being searched.
     * @param   sourceOffset offset of the source string.
     * @param   sourceCount  count of the source string.
     * @param   target       the characters being searched for.
     * @param   targetOffset offset of the target string.
     * @param   targetCount  count of the target string.
     * @param   fromIndex    the index to begin searching from.
     */
    static int indexOf(char[] source, int sourceOffset, int sourceCount,
            char[] target, int targetOffset, int targetCount,
            int fromIndex) {
        if (fromIndex >= sourceCount) {
            return (targetCount == 0 ? sourceCount : -1);
        }
        if (fromIndex < 0) {
            fromIndex = 0;
        }
        if (targetCount == 0) {
            return fromIndex;
        }

        char first = target[targetOffset];
        int max = sourceOffset + (sourceCount - targetCount);

        for (int i = sourceOffset + fromIndex; i <= max; i++) {
            /* Look for first character. */
            if (source[i] != first) {
                while (++i <= max && source[i] != first);
            }

            /* Found first character, now look at the rest of v2 */
            if (i <= max) {
                int j = i + 1;
                int end = j + targetCount - 1;
                for (int k = targetOffset + 1; j < end && source[j]
                        == target[k]; j++, k++);

                if (j == end) {
                    /* Found whole string. */
                    return i - sourceOffset;
                }
            }
        }
        return -1;
    }

这一层代码量明显多了起来,而且里面也没有方法重载,应该就是最后一层了。首先我们来看看它的参数代表着一些什么。

  • source
@param   source       the characters being searched.

翻译过来呢是正在被搜索的字符,我们在上一层传进来的参数,是要被搜索的字符串的字符数组,所以也就是这个意思。

  • sourceOffset
@param   sourceOffset offset of the source string.

offset我们可以理解为开端,翻译过来就是源字符串的开端。根据上面传过来的0,我们可以很容易的知道,这应该指的是源字符串最开始的下标。

  • sourceCount
@param   sourceCount  count of the source string.

这里我们上面传过来的是字符数组的长度,所以这指的就是字符串的长度。

  • target
@param   target       the characters being searched for.

target目标,也就是我们要搜索的字符串。

  • targetOffset
@param   targetOffset offset of the target string.

目标字符串的最开始的下标。

  • targetCount
@param   targetCount  count of the target string.

目标字符串的长度。

  • fromIndex

最开始的参数,在上面都有介绍。

知道了这些具体的参数,下面的实现代码我们就可以比较容易的阅读了。
首先呢是三个if判断

        if (fromIndex >= sourceCount) {
            return (targetCount == 0 ? sourceCount : -1);
        }
        if (fromIndex < 0) {
            fromIndex = 0;
        }
        if (targetCount == 0) {
            return fromIndex;
        }

第一个if语句指的是如果我们的要搜索的的字符串的开始下标大于等于源字符串的长度的话,进入判定,下面是一个三目运算,如果目标字符串的长度等于0的话,返回的是源字符串的长度,否则返回-1。这样解释可能有点绕,我们举个例子就比较清楚了。

如果我们的最开始调用方法的时候是"hello".indexOf("he",5);,意思是从hello下标5开始查找he,如果有的话返回查找到的第一个字符下标。而最后一个o字符的下标是4,很明显是查不到的,所以我们需要返回什么呢?5大于等于hello的字符长度5,进入判定,he的长度不等于0,返回-1。但是我们如果查找的是空字符串的话那么返回的就是hello的长度5了。

第二个if语句指的是如果我们要查找的字符串的下标从小于0开始的话,将下标赋值为0。这个很好理解,我们数组下标是从0开始的,就算你再小于0,我们也只能从0开始。

第三个if语句,如果你的目标长度为0的话,也就是空字符串,返回的是你要开始查找的下标。这个也很好理解,代入第一个if语句的例子就可以明白。

接着看代码,下面定义了两个变量

 char first = target[targetOffset];
 int max = sourceOffset + (sourceCount - targetCount);

first是目标字符串的第一个字符
max是源字符串开始下标+(源字符串长度-目标字符串长度),具体干什么用我们结合下面来分析。

下面是一个for语句

for (int i = sourceOffset + fromIndex; i <= max; i++) {
            /* Look for first character. */
            if (source[i] != first) {
                while (++i <= max && source[i] != first);
            }

            /* Found first character, now look at the rest of v2 */
            if (i <= max) {
                int j = i + 1;
                int end = j + targetCount - 1;
                for (int k = targetOffset + 1; j < end && source[j]
                        == target[k]; j++, k++);

                if (j == end) {
                    /* Found whole string. */
                    return i - sourceOffset;
                }
            }
        }

循环是从要开始查找的下标开始,到max结束。这里我们举一个例子就能明白为什么要这么做

还是"hello".indexOf("he",0);,不过这次我们从0开始。先计算可以得到max=3,也就是我们遍历的到第二个l就结束了。这下一下子就明白了,遍历到这后面就剩一个l了,明显小于我们要的目标字符串长度。所以就可以停止了,而不是要遍历到我们源字符串长度的尽头。这在两个字符串长度都比较大的时候,复杂度就会得到优化。

继续看下面

if (source[i] != first) {
    while (++i <= max && source[i] != first);
}

这个if语句就是一直在源字符串查找与我们目标字符串第一个字符相同的字符,如果找到,就停止。因为i会一直自增,如果没找到的话,就会到for的边界跳出for,最后返回-1。如果找到的话我们进入下面的代码

            if (i <= max) {
                int j = i + 1;
                int end = j + targetCount - 1;
                for (int k = targetOffset + 1; j < end && source[j]
                        == target[k]; j++, k++);

                if (j == end) {
                    /* Found whole string. */
                    return i - sourceOffset;
                }
            }

如果查到的下标在max范围之内的话,我们定义j为下一个字符下标,end为查找完的目标字符串最后一个字符下标。
然后定义k为目标字符串第二个字符的下标,在j<end的同时如果源字符串在j下标的字符和目标字符串为k下标的字符相等的话,j和k就自增。如果没有就停止。
如果j能够成功的遍历到end的话,也就是在这个范围期间source[j]和target[k]都相等的话,我们就能够说i就是查找到该字符串的第一个下标。这里返回的是i - sourceOffset,其实就是i,因为我们知道sourceOffet就是0。
如果么有遍历到end,说明这个i开始的下标,长度为targetCount的字符串不是我们要查找的字符串,那么继续外层for循环开始查找i,直到退出for循环。
最后没有查找到话返回-1。

总结

对于源码的解析可能也有很多不足,如果有什么错误希望可以不吝赐教。篇幅很多地方都写的特别详细,可能懂得人就会觉得啰嗦。当然这更多是自己的阅读笔记,所以不要介意。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,948评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,371评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,490评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,521评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,627评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,842评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,997评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,741评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,203评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,534评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,673评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,339评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,955评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,770评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,000评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,394评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,562评论 2 349

推荐阅读更多精彩内容