String.split与StringUtils.split对比

0.前言

字符串分割是日常开发中常见的需求。实际中,我们也没少被String中的split函数挖坑。在commons-lang3中,有一个StringUtils类,里面有很多对字符串进行操作的方法,其中就有split方法。现在我们就将String里的split与StringUtils.split分别拿出来做一下对比。

1.先看代码

首先为了了解这些split方法的不同,我们先来看个简单的demo。二话不说,先上代码。

import org.apache.commons.lang3.StringUtils

object StrTest {

    def test() = {
        val raw = "a,,b,,c,ddd,,,"
        val res1 = raw.split(",")
        val res2 = StringUtils.split(raw, ",")
        val res3 = StringUtils.splitPreserveAllTokens(raw, ",")
        printArray(res1)
        printArray(res2)
        printArray(res3)
    }

    def main(args: Array[String]): Unit = {
        test()
    }

    def printArray(array: Array[String]) = {
        println("the length of array is: " + array.length)
        for(i <- 0 until array.length) {
            println(i + ": " + array(i))
        }
        println()
    }
}

这段代码里用到了三个跟split相关的方法:java.lang.String里的split方法, StringUtils里的split与splitPreserveAllTokens方法。

那么这三个方法的不同在哪里?先看代码的输出结果:

the length of array is: 6
0: a
1: 
2: b
3: 
4: c
5: ddd

the length of array is: 4
0: a
1: b
2: c
3: ddd

the length of array is: 9
0: a
1: 
2: b
3: 
4: c
5: ddd
6: 
7: 
8: 

2.String.split中需要注意的问题

可以看出上面三个split方法得到的结果都不尽相同。那为什么会这样呢?我们结合源码来一一分析。
首先我们来看String.split的方法原型。

public String[] split(String regex)

由此可见,split方法传入的是一个正则表达式。注意,参数regex是个正则表达式!所以,如果分隔符是正则表达式里的特殊字符,就需要打起十二分注意了。例如下面的例子:

String[] aa = "aaa|bbb|ccc".split("|");  //这样是不行的,得不到想要的结果
String[] aa = "aaa|bbb|ccc".split("\\|");  //这样才能得到正确的结果 

另外我们看为什么最后三个逗号也得不到预期的结果,主要是因为源码里有这么一部分代码:

            int resultSize = list.size();
            if (limit == 0) {
                while (resultSize > 0 && list.get(resultSize - 1).length() == 0) {
                    resultSize--;
                }
            }

由这段代码克制,当list最后一个元素的长度为0的时候,resultSize做了--的操作!(其实我也不明白JDK里为什么要这么干。。。)

3.StringUtils中的split方法

StringUtils中的split方法采用的也是KMP算法。由最前面的结果可以看出,StringUtils进行split的时候,会将结果中所有的空字符串过滤掉!当然如果是空格的话是不会过滤掉的。

4.StringUtils中的splitPreserveAllTokens方法

实际工作中做数据预处理的时候,经常会存在有些字段空缺的情况。但是即使这些字段空缺,我们也是需要保证分割得到的数组中包含空缺字段的,显然此时String.split方法与StringUtils.split都不能满足我们上面的需求。这个时候,就需要splitPreserveAllTokens出马了。
先看看StringUtils中split方法跟splitPreserveAllTokens方法的源码:

    public static String[] split(String str, String separatorChars) {
        return splitWorker(str, separatorChars, -1, false);
    }

    public static String[] splitPreserveAllTokens(String str, String separatorChars) {
        return splitWorker(str, separatorChars, -1, true);
    }

    private static String[] splitWorker(String str, String separatorChars, int max, boolean preserveAllTokens) 

由此可见,split与splitPreserveAllTokens方法都是调用的splitWorker方法,唯一的区别就是在调用splitWorker的时候,preserveAllTokens这个标志符,一个为false,另外一个为true,所以最后得出的结果不一样!

对于我们日常做数据的ETL清洗来说,因为经常存在有字段值为空的情况,所以我们尽量使用splitPreserveAllTokens方法为好!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,491评论 19 139
  • 1. Java基础部分 基础部分的顺序:基本语法,类相关的语法,内部类的语法,继承相关的语法,异常的语法,线程的语...
    子非鱼_t_阅读 31,958评论 18 399
  • java笔记第一天 == 和 equals ==比较的比较的是两个变量的值是否相等,对于引用型变量表示的是两个变量...
    jmychou阅读 5,400评论 0 3
  • 我,一个刚毕业一年的大学生。大学毕业后不久便辞去了自己的工作,不远万里跨越了半个中国从东北回到了自己的家乡——河南...
    大威少阅读 1,852评论 0 1
  • 五个表达 1.well-rounded 原句:Mom said the only way I was going ...
    daimosun阅读 3,856评论 0 0