Java 字符串 split 的一个反直觉陷阱

最近生产环境遇到一个奇怪的数组下标越界报错,如下图代码所示,我们可以肯定的是 fieldName 变量不为空(不是空字符串,也不是 null),但是代码执行到读取 names[0] 变量的时候,抛出了一个 数组下标越界java.lang.ArrayIndexOutOfBoundsException) 的异常。

image

异常信息如下图所示

image

问题很简单,我们对一个字符串执行 split 方法之后,以过往其它编程语言(Go、PHP、Javascript、Dart 等)的使用经验来看,即使字符串为空,即使没有匹配到分隔符,在返回值数组中也会包含一个当前字符串的值。但是这里却抛出了 ArrayIndexOutOfBoundsException,难道 split 方法的返回值可能为空数组?

最终经过排查发现,在上述代码段中,当 fieldName 的值为 "~" 的时候,我们访问 names[0] 就会抛出 ArrayIndexOutOfBoundsException,为什么会这样呢?

本文将会持续修正和更新,最新内容请参考我的 GITHUB 上的 程序猿成长计划 项目,欢迎 Star,更多精彩内容请 follow me

问题

在 Java 中,如果执行下面这段代码,直觉上你认为会输出什么?

String str = "~";
String []arr = str.split("~");

System.out.println(arr.length);

如果你有其他编程语言的经验,可能直觉上会觉得这里输出的应该是 2,但是遗憾的是,这里输出的是 0,变量 arr 是个空数组。

这里不禁怀疑自己之前的记忆是不是有偏差,于是我又使用其它语言来尝试复现这个问题。

不同语言中 split 的行为

我总结了一个表格,说明了不用语言不同的行为,这里对比的是执行 split 函数/方法后返回数组的长度:

语言\函数 "".split("") "~".split("~") "~~".split("~") "".split("~") "~123".split("~")
Javascript 0 2 3 1 2
PHP 0 2 3 1 2
Dart 0 2 3 1 2
Golang 0 2 3 1 2
Scala 1 0 0 1 2
Java 1 0 0 1 2

Javascript

首先是 Javascript,在浏览器的控制台上直接执行,得到了下面的结果

"".split("")
"~".split("~")
"~~".split("~")
"".split("~")
"~123".split("~")

执行结果

image

跟我的直觉是一致的,同样的情况,这里返回的是 2

PHP

在 PHP 中,我使用了 mb_split 函数,该函数用于对多字节字符串进行分割

image

执行结果如下

image

执行结果跟我的直觉也是一致的,同样的情况,这里返回的是 2

Dart

然后是 Google 的 Dart,这是一门主要用于使用 Flutter 来开发跨平台应用的编程语言,代码如下

void main() {
    print("".split('').length); // 0
    print("~".split('~').length); // 2
    print("~~".split('~').length); // 3
    print("".split('~').length); // 1
    print("~123".split('~').length); // 2
}

执行结果

image

同样,"~".split("~") 也是返回了两个值。

Golang

在 Golang 中,执行结果依旧是符合直觉的,返回的是 2

package main

import(
    "strings"
    "fmt"
)

func main() {
    printStrs(strings.Split("", "")) // 0 []
    printStrs(strings.Split("~", "~")) // 2 ["", "", ]
    printStrs(strings.Split("~~", "~")) // 3 ["", "", "", ]
    printStrs(strings.Split("", "~")) // 1 ["", ]
    printStrs(strings.Split("~123", "~")) // 2 ["", "123", ]
}

func printStrs(s []string) {
    fmt.Print(len(s), " [")
    for _, item := range s {
        fmt.Printf(`"%s", `, item)
    }

    fmt.Print("]\n")
}

执行结果

image

Scala

然后,我又尝试了 Scala,发现在 Scala 中, split 的行为有些不一样了。

"".split("").length
"~".split("~").length
"~~".split("~").length
"".split("~").length
"~123".split("~").length
image

代码 "~".split("~") 返回的是 空数组,与在 Java 中我们遇到的问题如出一辙。

Java

最后,我又用 Java 执行了同样的代码

package example;
import org.junit.Test;

public class ExampleTest {
  @Test
  public void testSplit() {
    printStrings("".split("")); // 1 ["", ]
    printStrings("~".split("~")); // 0 []
    printStrings("~~".split("~")); // 0 []
    printStrings("".split("~")); // 1 ["", ]
    printStrings("~123".split("~")); // 2 ["", "123", ]
  }
  
  private void printStrings(String[] strings) {
    System.out.print(strings.length + " [");
    for (String str : strings) {
      System.out.printf("\"%s\", ", str);
    }
    System.out.println("]");
  }
}

执行结果

image

结果与 Scala 是一致的,同时也解释了为什么我们会遇到 ArrayIndexOutOfBoundsException 的问题。

原因

翻阅了 Java 的 API 文档,发现原来 Java 中的 split 方法确实跟其它语言是不一样的,这一点我们特别容易忽略

image

如果分隔符表达式与字符串不匹配,则返回原始字符串作为数组的唯一值,这也就解释了

"".split("") // 1 [""]
"".split("~") // 1 [""]

如果分隔符表单式与字符串的开始字符就已经匹配了,则返回值中第一个元素会被设置为 ""

"~123".split("~") // 2 ["", "123"]

如果 limit 参数为 0,也就是 split(String regex) 方法,则匹配结果末尾的所有空字符串 "" 都会被丢弃,也就解释了下面两段代码

"~".split("~") // 0 []
"~~".split("~") // 0 []
image

然后我又翻阅了 Scala 的官方文档,Scala 和 Java 的行为是一致的。

image

总结

在 Java 中使用字符串的 split 方法,一般情况下的行为是和其他编程语言是一致的,但在一些边界条件下,也有一些不一致的地方,这一点是我们应该注意的,这也提醒了我们,不要想当然的认为不同语言,同名函数(方法)的功能是完全一致的,当我们遇到一些奇奇怪怪的问题时,多看官方文档才是硬道理。

本文将会持续修正和更新,最新内容请参考我的 GITHUB 上的 程序猿成长计划 项目,欢迎 Star,更多精彩内容请 follow me

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,080评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,422评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,630评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,554评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,662评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,856评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,014评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,752评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,212评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,541评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,687评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,347评论 4 331
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,973评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,777评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,006评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,406评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,576评论 2 349

推荐阅读更多精彩内容