前言
众所周知, 在Java中, String类是不可变的。那么到底什么是不可变的对象呢?可以这样认为:如果一个对象,在它创建完成之后,不能再改变它的状态,那么这个对象就是不可变的。不能改变状态的意思是,不能改变对象内的成员变量,包括基本数据类型的值不能改变,引用类型的变量不能指向其他的对象,引用类型指向的对象的状态也不能改变。
什么是不可变?
String不可变很简单,如下图,给一个已有字符串"abcd"第二次赋值成"abcedl",不是在原内存地址上修改数据,而是重新指向一个新对象,新地址。String为什么不可变?
翻开JDK源码,java.lang.String类起手前三行,是这样写的:
public final class String implements java.io.Serializable, Comparable<String>, CharSequence {
/** The value is used for character storage. */
private final char value[];
/** Cache the hash code for the string */
private int hash; // Default to 0
...
}
首先String类是用final关键字修饰,这说明String不可继承。
再看下面,String类的主力成员字段value是个char[ ]数组,而且是用final修饰的。final修饰的字段创建以后就不可改变。
有的人以为故事就这样完了,其实没有。因为虽然value是不可变,也只是value这个引用地址不可变。挡不住Array数组是可变的事实。Array的数据结构看下图:
也就是说Array变量只是stack上的一个引用,数组的本体结构在heap堆。String类里的value用final修饰,只是说stack里的这个叫value的引用地址不可变。没有说堆里array本身数据不可变。例如:
final int[] value={1,2,3};
value[2]=100; //这时候数组里已经是{1,2,100}
所以String是不可变,关键是因为SUN公司的工程师,在后面所有String的方法里很小心的没有去动Array里的元素,没有暴露内部成员字段。
private final char value这一句里,private的私有访问权限的作用都比final大。
而且设计师还很小心地把整个String设成final禁止继承,避免被其他人继承后破坏。所以String是不可变的关键都在底层的实现,而不是一个final。考验的是工程师构造数据类型,封装数据的功力。
不可变有什么好处?
1. 字符串常量池的需要
String常量池是方法区的一个特殊的储存区。当新建一个字符串的时候,如果此字符串在常量池中早已存在,会返回一个已经存在字符串的引用,而不是新建一个对象。以下代码展示了只会在堆内存(String常量池就是位于堆内存中)中创建一个String对象。
String string1 = "abcd";
String string2 = "abcd";
最后,设想一下,如果String可变,那么用某个引用一旦改变了字符串的值将会导致其他引用指向错误的值。
2. 缓存 Hashcode
字符串的hashcode在Java中频繁地使用,比如在HashMap 或者 HashSet。hashcode始终相同成为了字符串不变的保证,所以可以在操作的时候可以不必担心改变。这也就意味着,不用每次使用的时候都要计算其hashcode,这样更高效。在String类中,有如下代码:
/** Cache the hash code for the string */
private int hash; // Default to 0
3. 使其他对象使用更加方便
来具体地解释下,看下方代码:
HashSet<String> set = new HashSet<String>();
set.add(new String("a"));
set.add(new String("b"));
set.add(new String("c"));
for(String a: set){
a.value = "a";
}
设想一下,如果String可变(也就是添加后,再去改变字符串的值),那么将会违反Set集合的规则(元素不能重复)。当然了,上方代码只是示范作用,String类中没有value属性。
4.安全
String类在Java很多类中被广泛的使用(作为方法的参数),比如网络连接,打开文件等操作。如果String类可变,某个连接或者文件会可能被改变,这可能会导致严重的安全威胁。在反射的时候,不稳定的字符串也可能造成安全问题。代码如下:
boolean connect(string s){
if (!isSecure(s)) {
throw new SecurityException();
}
//here will cause problem, if s is changed before this by using other references.
causeProblem(s);
}
5.不可变的对象是线程安全的
因不可变对象的不能被改变的特性,所以其可以在多线程中自由的共享。这也消除了进行同步的需求。
- (1) 只有当字符串是不可变的,字符串池才有可能实现。字符串池的实现可以在运行时节约很多heap空间,因为不同的字符串变量都指向池中的同一个字符串。但如果字符串是可变的,那么String interning将不能实现(译者注:String interning是指对不同的字符串仅仅只保存一个,即不会保存多个相同的字符串。),因为这样的话,如果变量改变了它的值,那么其它指向这个值的变量的值也会一起改变。
- (2) 如果字符串是可变的,那么会引起很严重的安全问题。譬如,数据库的用户名、密码都是以字符串的形式传入来获得数据库的连接,或者在socket编程中,主机名和端口都是以字符串的形式传入。因为字符串是不可变的,所以它的值是不可改变的,否则黑客们可以钻到空子,改变字符串指向的对象的值,造成安全漏洞。
- (3) 因为字符串是不可变的,所以是多线程安全的,同一个字符串实例可以被多个线程共享。这样便不用因为线程安全问题而使用同步。字符串自己便是线程安全的。
- (4) 类加载器要用到字符串,不可变性提供了安全性,以便正确的类被加载。譬如你想加载java.sql.Connection类,而这个值被改成了myhacked.Connection,那么会对你的数据库造成不可知的破坏。
- (5) 因为字符串是不可变的,所以在它创建的时候hashcode就被缓存了,不需要重新计算。这就使得字符串很适合作为Map中的键,字符串的处理速度要快过其它的键对象。这就是HashMap中的键往往都使用字符串。