Java中的BitSet

最近看到ES在缓存filter的结果时用到了BitSet的数据结构,用一个bit来标识文档是否满足这个filter,利用bitset的or,and,andnot可以迅速地找到符合多个filter的文档的集合。顺带就看了看java中的BitSet的实现。

原理简介

1、 Java平台的BitSet用于存放一个位序列,如果要高效的存放一个位序列,就可以使用位集(BitSet)。由于位集将位包装在字节里,所以使用位集比使用Boolean对象的List更加高效和更加节省存储空间。

2、BitSet是位操作的对象,值只有0或1即false和true,内部维护了一个long数组,初始只有一个long,所以BitSet最小的size是64,当随着存储的元素越来越多,BitSet内部会动态扩充,一次扩充64位,最终内部是由N个long来存储。

private final static int ADDRESS_BITS_PER_WORD = 6;  
private final static int BITS_PER_WORD = 1 << ADDRESS_BITS_PER_WORD;  
private long[] words;  
  
private static int wordIndex(int bitIndex) {  
    return bitIndex >> ADDRESS_BITS_PER_WORD;  
}  
  
private void initWords(int nbits) {  
    words = new long[wordIndex(nbits-1) + 1];  
}  
  
public BitSet() {  
    initWords(BITS_PER_WORD);  
    ...  
}  
  
public BitSet(int nbits) {  
    ...  
    initWords(nbits);  
    ...  
}  
上面代码可以看出:long[] words这个数组是BitSet内部的关键实现,
如果用户在构造函数中输入一个nbits变量,
initWords方法会把这个数减1再右移6位加1,按照这个长度产生words数组的长度。 
如果是输入的28,那么words的长度是1, 
如果是输入的2^6       = 64,那么words的长度是1, 
如果是输入的2^6+1     = 65,那么words的长度是2, 
如果是输入的(2^6)*2   = 128,那么words的长度是2, 
如果是输入的(2^6)*2+1 = 129,那么words的长度是3, 
如果是输入的(2^6)*3   = 192,那么words的长度是3, 
如果是输入的(2^6)*3+1 = 193,那么words的长度是4, 
... 

到这里已经很清楚了,BitSet用long类型表示“位图”,因为一个long是64bit,
所以每个long表示64个数据,也就是说:数组中words中的第一个long表示0~63,
第二个long表示64~127,第三个long表示128~191 ... 

1)get函数,检测某个数是否被置位
public boolean get(int bitIndex) {  
    if (bitIndex < 0)  
        throw new IndexOutOfBoundsException("bitIndex < 0: " + bitIndex);  
...  
    int wordIndex = wordIndex(bitIndex);  
    return (wordIndex < wordsInUse)  
        && ((words[wordIndex] & (1L << bitIndex)) != 0);  
}  

说明: 
- wordsInUse变量主要用来控制long的容量,当set的数值过大时,
BitSet类可以扩充words数组的长度,这一点和很多集合类(例如ArrayList,HashMap)是相似的 
- 下面的语句值得注意: 
1L << bitIndex 
一般看到这条语句,会认为bitIndex如果超过64位,
高位会溢出并得到返回0,事实上这个1会重新循环到低位,也就是说: 
1L << 64 返回为1。 

2)size()方法:

/**
 * Returns the number of bits of space actually in use by this
 * <code>BitSet</code> to represent bit values.
 * The maximum element in the set is the size - 1st element.
 *
 * @return  the number of bits currently in this bit set.
 */
public int size() {
return words.length * BITS_PER_WORD;
}
这里也有一个常量,定义如下:

private final static int ADDRESS_BITS_PER_WORD = 6;
private final static int BITS_PER_WORD = 1 << ADDRESS_BITS_PER_WORD;
很明显,BITS_PER_WORD = 64,这里很重要的一点就是,
如果使用size来返回BitSet数组的大小,其值一定是64的倍数,原因就在这里

3)与size相似的一个方法:length()源码如下:
/**
    * Returns the "logical size" of this <code>BitSet</code>: the index of
    * the highest set bit in the <code>BitSet</code> plus one. Returns zero
    * if the <code>BitSet</code> contains no set bits.
    *
    * @return  the logical size of this <code>BitSet</code>.
    * @since   1.2
    */
   public int length() {
       if (wordsInUse == 0)
           return 0;
 
       return BITS_PER_WORD * (wordsInUse - 1) +
       (BITS_PER_WORD - Long.numberOfLeadingZeros(words[wordsInUse - 1]));
   }

方法虽然短小,却比较难以理解,细细分析一下:根据注释,
这个方法法返回的是BitSet的逻辑大小,比如说你声明了一个129位的BitSet,
设置了第23,45,67位,那么其逻辑大小就是67,
也就是说逻辑大小其实是的是在你设置的所有位里面最高位的Index。

这里有一个方法,Long.numberOfLeadingZeros,网上没有很好的解释,做实验如下:

long test = 1;
System.out.println(Long.numberOfLeadingZeros(test<<3));
System.out.println(Long.numberOfLeadingZeros(test<<40));
System.out.println(Long.numberOfLeadingZeros(test<<40 | test<<4));
打印结果如下:

60
23
23

也就是说,这个方法是输出一个64位二进制字符串前面0的个数的。

3、默认情况下,BitSet的所有位都是false即0。
4、在没有外部同步的情况下,多个线程操作一个BitSet是不安全的。
一个1GB的空间,有8102410241024 = 8.5810^9bit,也就是1GB的空间可以表示85亿多个数。

应用场景:

1、统计一组大数据中没有出现过的数;
将这组数据映射到BitSet,然后遍历BitSet,对应位为0的数表示没有出现过的数据。
2、对大数据进行排序;
将数据映射到BitSet,遍历BitSet得到的就是有序数据。
3、 在内存对大数据进行压缩存储等等。
一个GB的内存空间可以存储85亿多个数,可以有效实现数据的压缩存储,节省内存空间开销。

  1. BitSet使用的例子
BitSet bits1 = new BitSet(16);
BitSet bits2 = new BitSet(16);
bits1.set(3);
bits1.set(5);
bits2.set(5);
bits2.set(6);
bits1.or(bits2);
System.out.println(bits1);
输出的结果为{3,5,6},也就是说满足bits1和bits2的文档都被返回。

BitSet bits1 = new BitSet(16);
BitSet bits2 = new BitSet(16);
bits1.set(3);
bits1.set(5);
bits2.set(5);
bits2.set(6);
bits1.and(bits2);
System.out.println(bits1);
输出的结果为{5},只有同时满足bits1和bits2的文档才会被返回。

 // 使用BitSet进行排序
private static String sortNums(int[] nums){
    long start = System.currentTimeMillis();
    System.out.println("开始排序");
    int len = nums.length;
    StringBuilder sb = new StringBuilder();
    BitSet bitSet = new BitSet(len);
    bitSet.set(0, len, false);
    for(int i=0;i<len;i++){
        bitSet.set(nums[i], true);
    }
    for(int i=0;i<len;i++){
        if(bitSet.get(i)){
            sb.append(i).append(",");
        }
    }
    return sb.toString();
}



2. BitSet的内部实现
BitSet内部用long数组实现了bit的向量

/**
 * The internal field corresponding to the serialField "bits".
 */
private long[] words;
并动态扩展数组的长度

private void expandTo(int wordIndex) {
    int wordsRequired = wordIndex+1;
    if (wordsInUse < wordsRequired) {
        ensureCapacity(wordsRequired);
        wordsInUse = wordsRequired;
    }
}
 
private void ensureCapacity(int wordsRequired) {
    if (words.length < wordsRequired) {
        // Allocate larger of doubled size or required size
        int request = Math.max(2 * words.length, wordsRequired);
        words = Arrays.copyOf(words, request);
        sizeIsSticky = false;
    }
}
当数组的长度不够时,会将生成一个长度为当前长度2倍的数组,然后将老数组中的内容拷贝到新数组中。
将某一个bit置为1,会先定位到这个bit所在的word,也就是数组中的一个long,然后对这个word进行位的或操作。

public void set(int bitIndex) {
    int wordIndex = wordIndex(bitIndex);
    expandTo(wordIndex);
 
    words[wordIndex] |= (1L << bitIndex); // Restores invariants
 
    checkInvariants();
}

3.BitSet中为什么使用long数组而不是int数组存储bit
当对单个bit进行操作时,两种存储方式不会有太大的区别:首先计算bit所在的word,然后对word中对应的bit进行操作。
当同时对多个bit进行操作时,long数组存储方式可以带来较大的新能提升。例如我们进行BitSet中的and, or, xor操作时,要对整个bitset中的bit都进行操作,需要依次读出bitset中所有的word,如果是long数组存储,我们可以每次读入64个bit,而int数组存储时,只能每次读入32个bit。另外我们在查找bitset中下一个置为1的bit时,word首先会和0进行比较,如果word的值为0,则表示该word中没有为1的bit,可以忽略这个word,如果是long数组存储,可以一次跳过64个bit,如果是int数组存储时,一次只能跳过32个bit。减少循环次数,提高性能。

【本文转自:
Java中的BitSet
Java中的位集

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,402评论 6 499
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,377评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,483评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,165评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,176评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,146评论 1 297
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,032评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,896评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,311评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,536评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,696评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,413评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,008评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,659评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,815评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,698评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,592评论 2 353

推荐阅读更多精彩内容

  • 1.ios高性能编程 (1).内层 最小的内层平均值和峰值(2).耗电量 高效的算法和数据结构(3).初始化时...
    欧辰_OSR阅读 29,372评论 8 265
  • 关于Mongodb的全面总结 MongoDB的内部构造《MongoDB The Definitive Guide》...
    中v中阅读 31,928评论 2 89
  • 人生之所以奇妙,就是它的不可预知性,你永远不知道很多年后你会和谁在一起过着什么样的生活。于是,我们想法设法的给自己...
    乐菩提阅读 336评论 1 2
  • 芳邻 “你看,你看,她伤害了我的骄傲。” 素人渔夫 我尖叫起来,飞奔去浴室,关掉洗衣机,肥皂泡泡里掏出我的长裤,...
    一条鱼__阅读 140评论 2 0