关于intern()

    开始介绍 intern()方法前,先看一个简单的 Java程序吧!

publicclassIntern{

    // 测试 String.intern()的使用

     publicstaticvoid main(String[] args) {        

                 String str1 ="abc";      

                 String str2 ="abc";       

                  String str3 ="a";      

                  String str4 ="bc";       

                 String str5 = str3 + str4;        

                 String str6 =newString(str1);


                 print("------no intern------");       

                  printnb("str1 == str2 ? ");print( str1 == str2);        

                   printnb("str1 == str5 ? ");print(str1 == str5);     

                   printnb("str1 == str6 ? ");print(str1 == str6);

                    print();


                   print("------intern------");     

                   printnb("str1.intern() == str2.intern() ? "); print(str1.intern() == str2.intern());       

                   printnb("str1.intern() == str5.intern() ? ");print(str1.intern() == str5.intern());                                                     printnb("str1.intern() == str6.intern() ? ");print(str1.intern() == str6.intern());       

                    printnb("str1 == str6.intern() ? ");print(str1 == str6.intern());    }}


the true answer is over here:

------no intern------

str1 == str2 ?true

str1 == str5 ?false

str1 == str6 ?false

-----intern------

str1.intern() == str2.intern() ?true

str1.intern() == str5.intern() ?true

str1.intern() == str6.intern() ?true

str1 == str6.intern() ?true

** 初步解析 **

------no intern------

Java语言会使用常量池保存那些在编译器就已确定的已编译的class文件中的一份数据,主要有类、接口、方法中的常量,以及一些以文本形式出现的符号引用,如:类和接口的全限定名;字段的名称和描述符;方法和名称和描述符等。因此在编译完Intern类后,生成的class文件中会在常量池中保存“abc”、“a”和“bc”三个String常量。

变量str1和str2均保存的是常量池中“abc”的引用,所以str1==str2成立;

在执行 str5 = str3 + str4这句时,JVM会先创建一个StringBuilder对象,通过StringBuilder.append()方法将str3与str4的值拼接,然后通过StringBuilder.toString()返回一个String对象,赋值给str5,因此str1和str5指向的不是同一个String对象,str1 == str5不成立;

String str6 = new String(str1)一句显式创建了一个新的String对象,因此str1 == str6不成立便是显而易见的事了。

------intern------

上面没有使用intern()方法的字符串比较相对比较好理解,然而下面这部分使用了intern()方法的字符串比较操作才是本文的重点。看到答案的你有没有一脸懵逼?

String.intern()使用原理

查看 Java String类源码,可以看到 intern()方法的定义如下:

publicnativeStringintern();

String.intern()是一个Native方法,底层调用C++的 StringTable::intern方法实现。

当通过语句str.intern()调用intern()方法后,JVM 就会在当前类的常量池中查找是否存在与str等值的String,若存在则直接返回常量池中相应Strnig的引用;若不存在,则会在常量池中创建一个等值的String,然后返回这个String在常量池中的引用。因此,只要是等值的String对象,使用intern()方法返回的都是常量池中同一个String引用,所以,这些等值的String对象通过intern()后使用==是可以匹配的。

由此就可以理解上面代码中------intern------部分的结果了。因为str1、str5和str6是三个等值的String,所以通过intern()方法,他们均会指向常量池中的同一个String引用,因此str1.intern() == str5.intern() == str6.intern()均为true。

String.intern() in Java 6

Java 6中常量池位于PermGen(永久代)中,PermGen是一块主要用于存放已加载的类信息和字符串池的大小固定的区域。执行intern()方法时,若常量池中不存在等值的字符串,JVM就会在常量池中*** 创建一个等值的字符串***,然后返回该字符串的引用。除此以外,JVM 会自动在常量池中保存一份之前已使用过的字符串集合。

** Java 6中使用intern()方法的主要问题就在于常量池被保存在PermGen中 **

首先,PermGen是一块大小固定的区域,一般,不同的平台PermGen的默认大小也不相同,大致在32M到96M之间。所以不能对不受控制的运行时字符串(如用户输入信息等)使用intern()方法,否则很有可能会引发PermGen内存溢出;

其次,String对象保存在 Java堆区,Java堆区与PermGen是物理隔离的,因此,如果对多个不等值的字符串对象执行intern操作,则会导致内存中存在许多重复的字符串,会造成性能损失。

String.intern() in Java 7

Java 7将常量池从PermGen区移到了Java堆区,执行intern操作时,如果常量池已经存在该字符串,则直接返回字符串引用,否则*** 复制该字符串对象的引用*** 到常量池中并返回。

堆区的大小一般不受限,所以将常量池从PremGen区移到堆区使得常量池的使用不再受限于固定大小。除此之外,位于堆区的常量池中的对象可以被垃圾回收。当常量池中的字符串不再存在指向它的引用时,JVM就会回收该字符串。

可以使用 -XX:StringTableSize 虚拟机参数设置字符串池的map大小。字符串池内部实现为一个HashMap,所以当能够确定程序中需要intern的字符串数目时,可以将该map的size设置为所需数目*2(减少hash冲突),这样就可以使得String.intern()每次都只需要常量时间和相当小的内存就能够将一个String存入字符串池中。

-XX:StringTableSize的默认值:Java 7u40以前为:1009,Java 7u40以后:60013

intern()适用场景

Java 6中常量池位于PermGen区,大小受限,所以不建议适用intern()方法,当需要字符串池时,需要自己使用HashMap实现。

Java7、8中,常量池由PermGen区移到了堆区,还可以通过-XX:StringTableSize参数设置StringTable的大小,常量池的使用不再受限,由此可以重新考虑使用intern()方法。

intern()方法优点:

执行速度非常快,直接使用==进行比较要比使用equals()方法快很多;

内存占用少。

虽然intern()方法的优点看上去很诱人,但若不是在恰当的场合中使用该方法的话,便非但不能获得如此好处,反而还可能会有性能损失。

下面程序对比了使用intern()方法和未使用intern()方法存储100万个String时的性能,从输出结果可以看出,若是单纯使用intern()方法进行数据存储的话,程序运行时间要远高于未使用intern()方法时:

publicclassIntern2{

        publicstaticvoidmain(String[] args){        

                print("noIntern: "+ noIntern());        

                print("intern: "+ intern());    

        }

         privatestaticlongnoIntern(){

                longstart = System.currentTimeMillis();

                for(inti =0; i <1000000; i++) {

                        intj = i %100;            

                        String str = String.valueOf(j);        

                 }

                 returnSystem.currentTimeMillis() - start;  

           }

           privatestaticlongintern(){

                    longstart = System.currentTimeMillis();

                     for(inti =0; i <1000000; i++) {intj = i %100;            

                           String str = String.valueOf(j).intern();       

                    }

                    returnSystem.currentTimeMillis() - start;   

             }

}

//Output:noIntern:48// 未使用intern方法时,存储100万个String所需时间intern:99

// 使用intern方法时,存储100万个String所需时间

由于intern()操作每次都需要与常量池中的数据进行比较以查看常量池中是否存在等值数据,同时JVM需要确保常量池中的数据的唯一性,这就涉及到加锁机制,这些操作都是有需要占用CPU时间的,所以如果进行intern操作的是大量不会被重复利用的String的话,则有点得不偿失。由此可见,String.intern()主要适用于只有有限值,并且这些有限值会被重复利用的场景,如:数据库表中的列名、人的姓氏、编码类型等。

使用 String.intern() 可以保证所有相同内容的字符串变量引用相同的内存对象。

intern 用法 intern 适合用在需要读取数据并将这些对象或者字符串纳入一个更大范围作用域的情况。需要注意的是,硬编码在代码中的字符串(例如常量等等)都会被编译器自动的执行 intern 操作。

看一个例子:

 String city = resultSet.getString(1);

String region = resultSet.getString(2);

String countryCode = resultSet.getString(3);

double city = resultSet.getDouble(4);

double city = resultSet.getDouble(5);

Location location = new Location(city.intern(), region.intern(), countryCode.intern(), long, lat); allLocations.add(location);

所有新创建的地点对象都会使用 intern 得到的字符串。而从数据库读取到的临时字符串则会被垃圾回收。

总结:

String.intern()方法是一种手动将字符串加入常量池中的方法,原理如下:如果在常量池中存在与调用intern()方法的字符串等值的字符串,就直接返回常量池中相应字符串的引用,否则在常量池中复制一份该字符串,并将其引用返回(Java7中会直接在常量池中保存当前字符串的引用);

Java 6 中常量池位于PremGen区,大小受限,不建议使用String.intern()方法,不过Java 7 将常量池移到了Java堆区,大小可控,可以重新考虑使用String.intern()方法,但是由对比测试可知,使用该方法的耗时不容忽视,所以需要慎重考虑该方法的使用;

String.intern()方法主要适用于程序中需要保存有限个会被反复使用的值的场景,这样可以减少内存消耗,同时在进行比较操作时减少时耗,提高程序性能。




如何确定 intern 的效率

最好的方法是对整个堆执行一次堆转储。堆转储也会在发生 OutOfMemoryError 时执行。

在 MAT (内存分析工具,译者注)中打开转储文件,然后选择 java.lang.String,依次点击“Java Basics”、“Group By Value”。

根据堆的大小,上面的操作可能耗费比较长的时间。最后可以看到类型这样的结果。按 “Retained Heap” 或者是 “Objects” 列进行排序,可以发现一些有趣的东西:

从这快照中我们可以看到,空的字符串占用了大量的内存!两百万个空字符串对象占用了总共 130 MB 的空间。另外可以看到一部分被加载的 JavaScript 脚本,一些作为键的字符串,它们被用于定位。另外,还有一些与业务逻辑相关的字符串。

这些与业务逻辑相关的字符串是最容易进行 intern 操作的,因为我们清楚地知道它们是在什么地方被加载进内存的。对于其他字符串,可以通过 “Merge shortest Path to GC Root” 选项来找到它们被存储的位置,这个信息也许能够帮助我们找到该使用 intern 的地方。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,254评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,875评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,682评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,896评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,015评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,152评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,208评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,962评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,388评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,700评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,867评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,551评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,186评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,901评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,142评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,689评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,757评论 2 351

推荐阅读更多精彩内容

  • String 的声明 由 JDK 中关于String的声明可以知道: 不同字符串可能共享同一个底层char数组,例...
    CodeKing2017阅读 1,625评论 1 2
  • 缘起 开始介绍 intern()方法前,先看一个简单的 Java程序吧!下面是一段 Java代码,代码内容比较简单...
    LilacZiyun阅读 2,725评论 6 17
  • 从网上复制的,看别人的比较全面,自己搬过来,方便以后查找。原链接:https://www.cnblogs.com/...
    lxtyp阅读 1,345评论 0 9
  • String源码阅读 wiki 通过反编译深入理解Java String及intern 成神之路-基础篇 Java...
    uranusleon阅读 735评论 0 1
  • 大家可能都知道String.intern()的作用,调用它时,如果常量池中存在当前字符串, 就会直接返回当前字符串...
    biloba阅读 3,585评论 0 6