Java集合概要

1、Java集合类图
Java集合类图

观察此图,总结如下结论:

  • 集合类分为了Map和Collection两个大的类别。
  • Dictionary、HashTable、Vector、Stack是JDK遗留类且为线程安全的
  • Collection有三个继承接口:List、Queue和Set。

依照实现分类

  • 实现Map接口的有:EnumMap、IdentityHashMap、HashMap、LinkedHashMap、WeakHashMap、TreeMap
  • 实现List接口的有:ArrayList、LinkedList
  • 实现Set接口的有:HashSet、LinkedHashSet、TreeSet
  • 实现Queue接口的有:PriorityQueue、LinkedList、ArrayQueue

依照内部结构分类

  • 底层以数组的形式实现:EnumMap、ArrayList、ArrayQueue
  • 底层以链表的形式实现:LinkedHashSet、LinkedList、LinkedHashMap
  • 底层以hash table的形式实现:HashMap、HashSet、LinkedHashMap、LinkedHashSet、WeakHashMap、IdentityHashMap
  • 底层以红黑树的形式实现:TreeMap、TreeSet
  • 底层以二叉堆的形式实现:PriorityQueue

依照并发分类

  • 最下方的一个整块都是java.util.concurrent包里面的类,依照包名我们就能够知道这个包里面的类都是用来处理Java编程中各种并发场景的。
2、Java常用集合特性
Java集合特性

注:1.6之前linkedList JDK使用双向循环链表,之后则使用双向链表。

1.1、数组与链表的区别

数组是将元素在内存中连续存放,每个元素占用内存相同,通过下标移动来访问数组中的任意元素,这样删除和增加都需要对数组空间重新整理,或增或减。

链表中的元素在内存中并非顺序存储,而是通过存储元素中的指针联系到一起。所以访问元素,需要从头开始,但是删除元素就比较简单,只需要修改元素的指针就可以,元素本身存储的位置不需要改动。

内存角度理解,数组是从栈分配空间,便捷但自由度小;链表是从堆中分配空间,自由度大但是内存管理麻烦。

1.2、ArrayList

基于索引的数据结构,它地底层是数组。他可以以O(1)的时间复杂度对元素访问。使用ArrayList需要注意它是线程异步的,所以如果不考虑线程安全,ArrayList 的效率是比较高的。另外,ArrayList的大小的动态变化的,增长率是50%,所以如果数据量过大它就没有太大的优势。

1.3、LinkedList

以元素列表的形式存储它的数据,每一个元素和它的前一个和后一个元素链接在一起,因此查找某个元素的时间复杂度是O(n)。相对于ArrayList,它的插入添加删除会更快,但是随机的get也就是查询不如ArrayList。

1.4、Vector

底层基于数组实现的,如果集合中的元素数目大于目前集合数组的长度时,Vector增长率为目前长度的100%。Vector 是线程同步的。正是由于Vector使用了synchronized方法,所以性能上比ArrayList要差。

1.5、LinkedHashSet

底层基于链表实现,集成自HashSet,所以同样也是使用HashCode来决定元素的位置,但是它使用链表维护元素的次序。它是非线程安全的。

1.6、TreeSet

底层是以二叉树实现的,主要功能是排序,可以指定一个顺序,对象的存储会按照指定的顺序排列。它是非线程安全的。

1.7、ArrayDeque

双端队列的实现类,继承自AbastractCollection,其内部是通过数组实现的,它是非线程安全的。

1.8、HashMap

通过hashcode对其内容进行查找,底层是通过hash表实现的。在Map中插入删除和定位元素,HashMap都是最佳选择。

1.9、LinkedHashMap

基于链表和哈希表实现的。虽然增加了时间和空间的开销,但是通过维护一个运行于所有条目的双向链表,保证了其对元素迭代的顺序。它是非线程安全的。

1.10、 WeakHashMap

基于链表和哈希实现的,所以也是HashMap的一种实现,他使用弱引用作为内部数据的存储方案,它是简单缓存表的解决方案,非线程安全。

1.11、 TreeMap

实现了SortedMap接口,能够把它保存的记录根据键排序,默认是键值的升序排序,当然也可以指定比较器。

1.12、 IdentityHashMap

最明显的特征是,在检索元素时,条件更为苛刻。HashMap 按照 key1.equals(key2),而IdentityHashMap是按照key==k来进行检索。

1.13、 ConcurrentHashMap

和 HashMap思路差不多的,但是因为它支持并发操作。简单理解就是,ConcurrentHashMap 是一个 Segment 数组,Segment 通过继承 ReentrantLock 来进行加锁,所以每次需要加锁的操作锁住的是一个 segment,这样只要保证每个 Segment 是线程安全的,也就实现了全局的线程安全。同时相比较HashTable锁整个集合的方式而言,ConcurrentHashMap 的并发性更高,在多线程开发中是个不错的选择。1.8之后数据结构发生变化

note:其中hashMap 和ConcurrentHashMap 在1.8之后做过优化,具体参考:
1.7及1.8 Hashmap与ConcurrentHashMap详解_Al1en的博客-CSDN博客_1.7 concurrenthashmap

3、常见面试题
3.1、ArrayList和LinkedList的异同?

ArrayList和LinkedList 底层实现不同,前者数组后者双向循环链表。数组插入和删除元素的时间复杂度受到元素位置的影响,插入末尾还好,如果是中间,则时间复杂度接近于O(n),链表使用指针所以插入和删除不需要挪动元素位置,只需要改变指针位置,时间复杂度接近O(1),对于访问,数组却优于链表。所以两者刚好相反,数组访问快,增删慢。链表增删快,但访问慢。另外,ArrayList的空间浪费体现在List的结尾预留容量,LinkedList体现在每一个元素都要消耗额外空间维护链表关系(直接后继和直接前驱以及数据)。

3.2、HashMap 和 HashTable的区别?
  • 线程安全,HashMap是非线程安全的,HashTable是线程安全的;这是因为HashTable内部的方法基本都被Synchronized修饰过。
  • 效率,因为线程安全的问题,HashTable会比HashMap效率低一下,而且HashTable也基本被淘汰
  • 对null key 和value的支持,HashMap对于null的键值都支持,HashTable不支持null 的key,否则会NPE
  • 初始容量和扩容,Table默认11,扩容为2n+1,Map默认16,扩容为二倍。另外HashMap 会为指定容量扩容二倍。
  • 底层结构,JDK1.8 以后的 HashMap 在解决哈希冲突时有了较大的变化,当链表长度大于阈值(默认为8)(将链表转换成红黑树前会判断,如果当前数组的长度小于 64,那么会选择先进行数组扩容,而不是转换为红黑树)时,将链表转化为红黑树,以减少搜索时间。Hashtable 没有这样的机制
3.3、HashMap和HashSet区别?

两者都是基于HashMap实现的,前者是Map接口,后者是Set接口,存储分别是键值对与对象,前者使用key计算Hash 值,后者使用对象,所以需要使用equals方法来判断对象的相等性。

这里引出额外问题:

  • 如果两个对象相等,则hashCode也一定相等,equals方法也返回true
  • 两个对象的hashcode值相等,则对象不一定相等

所以需要注意:

  • equals方法被覆盖,则hashcode一定需要被覆盖,这是因为hashcode的默认行为是对堆上的对象产生独特值,如果没有重写hashcode,则两个class对象无论如何都不会相等(即使他们指向了相同的数据)。
  • "==" 是判断两个变量或者实例是不是指向同一个内存空间equals是判断两个对象或实例所指向的内存空间的值是不是相同。所以==是指堆内存地址进行比较,equals则是对内容进行比较,或者说前者是引用是否相等,而后者则是值是否相等。
3.4、HashMap的底层实现。

JDK1.8以前,HashMap底层是数组和链表组合在一起使用也就是链表散列。HashMap通过Key的hashcode经过扰动函数处理后得到的hash值,然后通过(n-1)&hash判断当前元素存放的位置(这里的n指的是数组的长度),如果当前位置存在元素的话,就判断该元素与要存入的元素hash值以及key是否相等,如果相等,直接覆盖,如果不相同就通过拉链法解决冲突。 所谓扰动函数就是HashMap 的hash方法。使用扰动函数是为了减少hash碰撞。较之1.7的hash方法,1.8减少了扰动次数。所以性能有些许提升。

所谓拉链法,就是将链表和数组相结合,也就是说创建一个链表数组,数组中每一格都是一个链表,若是遇到hash冲突,则将冲突的值加入到链表即可。

较之1.7在解决hash冲突方面,1.8有较大的变化。当链表长度大于阈值(default 8),则将链表转换为红黑树后判断,如果当前数组的长度小于64,则先进行扩容,而不是转换红黑树。以便减少搜索时间。 TreeMap、TreeSet以及JDK1.8之后的HashMap底层都用到了红黑树。红黑树是为了解决二叉树在某些条件下退化为一个线性结构的缺陷。

3.5、HashMap的长度为什么总是2的幂次方?

HashMap为了存取高效,要尽量较少碰撞,就是要尽量把数据分配均匀,每个链表长度大致相同,这个实现就在把数据存到哪个链表中的算法;这个算法实际就是取模,hash%length,计算机中直接求余效率不如位移运算,源码中做了优化hash&(length-1),如下是截取自resize方法。

newTab[e.hash & (newCap - 1)] = e;

hash%length==hash&(length-1)的前提是length是2的n次方;
为什么这样能均匀分布减少碰撞呢?2的n次方实际就是1后面n个0,2的n次方-1 实际就是n个1;
例如长度为9时候,3&(9-1)=0 2&(9-1)=0 ,都在0上,碰撞了;
例如长度为8时候,3&(8-1)=3 2&(8-1)=2 ,不同位置上,不碰撞;其实就是按位“与”的时候,每一位都能 &1 ,也就是和1111……1111111进行与运算

3.6、HashMap多线程导致死循环问题

HashMap本身就不是线程安全的,在并发的情况,发生扩容时,多个线程同时对table进行扩容,扩容后rehash的链表可能会产生循环链表,在执行get的时候,会触发死循环,引起CPU的100%问题,所以一定要避免在并发环境下使用HashMap。

具体参考:HashMap多线程下发生死循环的原因_zhangjunli的博客-CSDN博客

解决方案:

  • 使用ConcurrentHashMap
  • 使用Collections.synchronizedMap(Mao<K,V> m)方法把HashMap变成一个线程安全的Map
3.7、ConcurrentHashMap和HashTable 的区别?

两者主要区别体现在实现线程安全的方式不同。

  • 底层数据结构,JDK1.7的ConcurrentHashMap底层采用分段的数组+链表实现,1.8采用的数据结构和HashMap一样,数组+链表、红黑树。HashTable和JDK1.8之前的HashMap类似采用数数组+链表,数组是主体,链表是为了解决hash冲突而存在的。

  • 实现线程安全的方式,1.7的时候,ConcurrentHashMap使用分段锁对整个桶数组进行分割分段,没一把锁只锁住容器内的数据,多线程的访问容器里不同数据段的数据,就不会存在锁竞争,提高并发效率。而到1.8则摒弃了Segment 的概念,直接使用Node数组+链表+红黑树来实现,并发控制使synchronized和CAS来个控制。1.6之后对synchronized做了很多优化,虽然仍然可以看到segment的代码 但是是为了兼容旧版本。HashTable使用Synchronized 一把锁确保数据安全,效率低下。

3.8、comparable和comparator的区别?

Comparable & Comparator 都是用来实现集合中元素的比较、排序的,只是 Comparable 是在集合内部定义的方法实现的排序, Comparator 是在集合外部实现的排序,所以,如想实现排序,就需要在集合外定义 Comparator 接口的方法或在集合内实现 Comparable 接口的方法, Comparator 位于包java.util下,而 Comparable 位于包java.lang下。

public int compareTo(T o);
 int compare(T o1, T o2);

具体表现,

  • Comparable是排序接口。若一个类实现了Comparable接口,就意味着该类支持排序。实现了Comparable接口的类的对象的列表或数组可以通过Collections.sort或Arrays.sort进行自动排序。实现此接口的对象可以用作有序映射中的键或有序集合中的集合,无需指定比较器。
  • Comparator是比较接口,我们如果需要控制某个类的次序,而该类本身不支持排序(即没有实现Comparable接口),那么我们就可以建立一个“该类的比较器”来进行排序,这个“比较器”只需要实现Comparator接口即可。

总结
两种方法各有优劣, 用Comparable 简单, 只要实现Comparable 接口的对象直接就成为一个可以比较的对象,但是需要修改源代码。 用Comparator 的好处是不需要修改源代码, 而是另外实现一个比较器, 当某个自定义的对象需要作比较的时候,把比较器和对象一起传递过去就可以比大小了, 并且在Comparator 里面用户可以自己实现复杂的可以通用的逻辑,使其可以匹配一些比较简单的对象,那样就可以节省很多重复劳动了。

4、特殊问题
4.1、Java中集合的线程安全问题

事实上我们可以注意到,除了遗留的Vector和HashTable,java.util包中的集合都不是线程安全的。这是因为线程安全的代价是性能降低。甚至在相当大的数据操作下,ArrayList速度差不多是Vector的2倍。

为了确保在单线程环境下的性能最大化,所以基础的集合实现类都没有保证线程安全。那么如果我们在多线程环境下如何使用集合呢?其实我们可以手动自己添加synchronized代码块来确保安全,但是使用自动线程安全的线程比我们手动更为明智。


线程安全的集合

示例:

List<String> safeList = Collections.synchronizedList(new ArrayList<>());
//已存在的集合
Map<Integer, String> unsafeMap = new HashMap<>();
Map<Integer, String> safeMap = Collections.synchronizedMap(unsafeMap);

迭代器本身也是不安全的Iterator,我们可以使用同步代码块来控制,

synchronized (safeList) {
    while (iterator.hasNext()) {
        String next = iterator.next();
        System.out.println(next);
    }
}

更明智的做法是,使用java提供的并发包下的并发集合。

一个关于同步集合的缺点是,用集合的本身作为锁的对象。这意味着,在你遍历对象的时候,这个对象的其他方法已经被锁住,导致其他的线程必须等待。其他的线程无法操作当前这个被锁的集合,只有当执行的线程释放了锁。这会导致开销和性能较低。
这就是为什么jdk1.5+以后提供了并发集合的原因,因为这样的集合性能更高。并发集合类并放在java.util.concurrent包下,根据三种安全机制被放在三个组中。

  • 写时复制集合:这种集合将数据放在一成不变的数组中;任何数据的改变,都会重新创建一个新的数组来记录值。这种集合被设计用在,读的操作远远大于写操作的情景下。有两个如下的实现类:CopyOnWriteArrayList 和 CopyOnWriteArraySet.

  • 比对交换集合也称之为CAS(Compare-And-Swap)集合:这组线程安全的集合是通过CAS算法实现的。CAS的算法可以这样理解:
    为了执行计算和更新变量,在本地拷贝一份变量,然后不通过获取访问来执行计算。当准备好去更新变量的时候,他会跟他之前的开始的值进行比较,如果一样,则更新值。
    如果不一样,则说明应该有其他的线程已经修改了数据。在这种情况下,CAS线程可以重新执行下计算的值,更新或者放弃。使用CAS算法的集合有:ConcurrentLinkedQueue and ConcurrentSkipListMap.

  • 采用了特殊的对象锁(java.util.concurrent.lock.Lock):这种机制相对于传统的来说更为灵活,可以如下理解:
    这种锁和经典锁一样具有基本的功能,但还可以再特殊的情况下获取:如果当前没有被锁、超时、线程没有被打断。
    不同于synchronization的代码,当方法在执行,Lock锁一直会被持有,直到调用unlock方法。有些实现通过这种机制把集合分为好几个部分来提供并发性能。比如:LinkedBlockingQueue,在队列的开后和结尾,所以在添加和删除的时候可以同时进行。
    其他使用了这种机制的集合有:ConcurrentHashMap 和绝多数实现了BlockingQueue的实现类

4.2、更加安全的删除元素

java集合中,list列表应该是我们最常使用的,它有两种常见的实现类:ArrayList和LinkedList。ArrayList底层是数组,查找比较方便;LinkedList底层是链表,更适合做新增和删除。但实际开发中,我们也会遇到使用ArrayList需要删除列表元素的时候。虽然ArrayList类已经提供了remove方法,不过其中有潜在的坑,下面将介绍remove方法的三种错误用法以及六种正确用法。

1、错误:for循环中使用remove(int index),列表从前往后遍历
首先看一下ArrayList.remove(int index)的源码,读代码前先看方法注释:移除列表指定位置的一个元素,将该元素后面的元素们往左移动一位。返回被移除的元素。

源代码也比较好理解,ArrayList底层是数组,size是数组长度大小,index是数组索引坐标,modCount是被修改次数的计数器,oldValue就是被移除索引的元素对象,numMoved是需要移动的元素数量,如果numMoved大于0,则执行一个数组拷贝(实质是被移除元素后面的元素都向前移动一位)。然后数组长度size减少1,列表最后一位元素置为空。最后将被移除的元素对象返回。

public E remove(int index) {
  rangeCheck(index);
 
  modCount++;
  E oldValue = elementData(index);
 
  int numMoved = size - index - 1;
  if (numMoved > 0)
    System.arraycopy(elementData, index+1, elementData, index,
             numMoved);
  elementData[--size] = null; // clear to let GC do its work
 
  return oldValue;
}

如果在for循环中调用了多次ArrayList.remove(),那代码执行结果是不准确的,因为每次每次调用remove函数,ArrayList列表都会改变数组长度,被移除元素后面的元素位置都会发生变化。比如下面这个例子,本来是想把列表中奇数位置的元素都移除,但最终得到的结果是[2,3,5]。

List<Long> list = new ArrayList<>(Arrays.asList(1L, 2L, 3L, 4L, 5L));
for (int i = 0; i < list.size(); i++) {
  if (i % 2 == 0) {
    list.remove(i);
  }
}
//最终得到[2,3,5]

2、错误:直接使用list.remove(Object o)
ArrayList.remove(Object o)源码的逻辑和ArrayList.remove(int index)大致相同:列表索引坐标从小到大循环遍历,若列表中存在与入参对象相等的元素,则把该元素移除,后面的元素都往左移动一位,返回true,若不存在与入参相等的元素,返回false。

3、错误:Arrays.asList()之后使用remove()
Arrays.asList()返回的是一个指定数组长度的列表,所以不能做Add、Remove等操作。至于为啥是返回的是固定长度的,看下面源码,asList()函数中调用的new ArrayList<>()并不是我们常用的ArrayList类,而是一个Arrays的内部类,也叫ArrayList,而且这个内部类也是基于数组实现的,但它有一个明显的关键字修饰,那就是final。都用final修饰了,那是肯定不能再对它进行add/remove操作的。

public static <T> List<T> asList(T... a) {
  return new ArrayList<>(a);
}
 
private static class ArrayList<E> extends AbstractList<E>
  implements RandomAccess, java.io.Serializable
 {
  private static final long serialVersionUID = -2764017481108945198L;
  private final E[] a;
 
  ArrayList(E[] array) {
    a = Objects.requireNonNull(array);
  }
}

Arrays.asList()之后需要进行add/remove操作,可以使用下面这种方式:

String[] arr = new String[3];
List list = new ArrayList(Arrays.asList(arr));

4、正确:直接使用removeIf()
removeIf()的入参是一个过滤条件,用来判断需要移除的元素是否满足条件。方法中设置了一个removeSet,把满足条件的元素索引坐标都放入removeSet,然后统一对removeSet中的索引进行移除。

5、正确:在for循环之后使用removeAll(Collection<?> c)
这种方法思路是for循环内使用一个集合存放所有满足移除条件的元素,for循环结束后直接使用removeAll方法进行移除。

6、正确:list转为迭代器Iterator的方式
迭代器就是一个链表,直接使用remove操作不会出现问题。

7、正确:for循环中使用remove(int index), 列表从后往前遍历
因为每次调用remove(int index),index后面的元素会往前移动,如果是从后往前遍历,index后面的元素发生移动,跟index前面的元素无关,我们循环只去和前面的元素做判断,因此就没有影响。

8、正确:使用while循环
使用while循环,删除了元素,索引便不+1,在没删除元素时索引+1

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,634评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,951评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,427评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,770评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,835评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,799评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,768评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,544评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,979评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,271评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,427评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,121评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,756评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,375评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,579评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,410评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,315评论 2 352

推荐阅读更多精彩内容