20 亿个数字在 4G 内存中如何去重排序:快来试一试 BitMap

有一道流传广泛的面试题:
给你一台 4G 内存的机器,一组 20 亿个无序正整数,如何快速地判断一个正整数 N 是否在这组数字中?或者如何快速地对这组数据排重后排序?
让我们先算算 20 亿个整数会占用多大的内存空间,Java 的 int 类型占用 4 个字节,那么 20 亿 * 4 再换算成 G 大约是 7.5G,大于题目中 4G 内存的限制,无法一次性地放到内存中;
这时候有些伙伴会说:“把数据放到磁盘上,然后分批将数据读取到内存中就行查询”,但是这种方法会导致多次磁盘 IO,而且只能解决第一个查找的问题,排序就没有办法做到了。

BitMap 的概念

BitMap 能够很好地解决这个问题;它是用一个 Bit 位来标记某个元素对应的 Value, 而 Key 即是该元素,比如我们初始化一个类型为 bit、长度为 8 的数组,数组下标 0-7,数组中的内容 1 表示存在,0 表示不存在,那么:


下标 5 对应的位置是 1,表示 5

00000001 下标为 0 的位置,对应值是1,那么表示 0;同理:
00000010 表示 1;
00000100 表示 2;
00001000 表示 3;
...
10000000 表示 7;

如果一组数据 {2,3,4,7} 放到同一个数组中的话,就是 10011100:


下标 2,3,4,7 对应的位置是 1,表示了这 4 个数字

如果按照 int 数组存储,{2,3,4,7} 需要 4 * 4 * 8 个 bit 才能存储的数据,但是现在 BitMap 只需要 8 个 bit 就可以存储,很大地节省了存储空间,并且排重后的排序也变的非常简单了;如果用 byte 实现的话,只需要 1 个 byte 就可以(1 byte = 8 bits)。

如果增加了一个数字 10 呢,那么 1 个 byte 就不够了:


image.png

数据结构及初始化

我们可以得知,BitMap 的容量大小取决于最大的那个数值,比如要存储 {2,3,4,7,10}:

  • 如果用 bit 数组实现(假如有的话),那么需要 10 + 1 个长度;
  • 如果是用 byte 数组实现,那么需要 10/8 + 1 个长度;
  • 如果是用 int 数组实现,那么就需要 10/32 + 1 个长度(1 个 int 等于 4 个 bytes,等于 32 个 bits);

明白了这点之后,一个简单的 BitMap 数据结构也就可以确定了:

public class BitMap {
    //数据
    private byte[] bits; 
    //最大值
    private int max_value;
    //容量
    private int capacity;
    
    /**
     * 初始化
     * @param capacity
     */
    public BitMap(int max_value){
        this.max_value = max_value;
        //1bit存储8个数据,存储最大值为 max_value 的数组需要 max_value/8+1 个 byte,除以8就是右移3位
        this.capacity = (max_value >> 3 ) + 1;
        bits = new byte[capacity];
    }
}

添加数据

添加数据,需要快速地定位到这个元素要存到整个数组中的哪个位置,这里有两个概念:

  • 索引号 index:数据保存在整个数组的哪个下标中;
  • 位置号 position:数据在这个下标元素的哪个位置;

比如 10 保存在 index = 1,position = 2(从 0 开始) 这个位置中,经推算可得:

index = N / 8
position = N % 8
添加数据

知道了 10 保存的位置之后,怎么把对应位置的数据更改成 1 呢?可以用“位或”运算。将 10 添加到 BitMap 中的完整步骤如下:

  • 计算 index = 10/8 = 1 ;
  • 计算 position = 10%8 = 2 ;
  • 将 byte[1] 的数据与 0000100 做“位或”运算,其中 0000100 是通过对 1 左移 2 得到。

完整的代码如下:

public void add(int num){
    //数据保存在整个数组的哪个下标中
    int index = num / 8;
    //数据在这个下标元素的哪个位置
    int position = num % 8;
    
    bits[index] |= 1<<position;
}

判断数字是否存在

知道了如何判断数字的索引号和位置号之后,判断数字是否存在也就容易了,直接使用“位与”运算,代码如下:

public boolean contains(int num){
  if(num > max_value){
    return false;
  }
  //数据保存在整个数组的哪个下标中
  int index = num / 8;
  //数据在这个下标元素的哪个位置
  int position = num % 8;
  return (bits[index] & 1<<position) != 0;
}

测试

让我们做一下测试吧:

public class BitMapTest {
  public static void main(String[] agrs){
    BitMap bm = new BitMap(100);
    
    bm.add(1);
    bm.add(12);
    bm.add(14);
    bm.add(51);
    bm.add(71);
    bm.add(100);
    
    System.out.println("12:" + (bm.contains(12)?"存在":"不存在"));
    System.out.println("13:" + (bm.contains(13)?"存在":"不存在"));
    System.out.println("51:" + (bm.contains(51)?"存在":"不存在"));
    System.out.println("66:" + (bm.contains(66)?"存在":"不存在"));
    System.out.println("100:" + (bm.contains(100)?"存在":"不存在"));
  }
}

运行结果:

12:存在
13:不存在
51:存在
66:不存在
100:存在

从结果可以看到,判断的都很准确,当然这只是一个最简单的BitMap实现,它还存在着很多问题,比如我们必须知道数据中最大的那个数字是多少,这个可以采用动态扩容的方式解决;
在 JDK 中,已经有对应实现的数据结构类 java.util.BitSet,我们可以不用强撸 BitMap,直接使用 BitSet 就好了,或者使用谷歌封装的 EWAHCompressedBitmap

优缺点

优点:

  • 占用内存空间低,可以极大地节约空间;
  • 运算效率高,查找、去重都不需要遍历全部数据;

缺点:

  • 所有的数据不能重复,相当于直接就是排重过的;
  • 如果数据只有两个:1 和 10000000,使用 BitMap 得不偿失,只有当数据比较密集时才有优势。

本章节介绍了 BitMap 的概念和基本实现,后续会介绍 BitMap 在实际开发中的应用。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,657评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,662评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,143评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,732评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,837评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,036评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,126评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,868评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,315评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,641评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,773评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,859评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,584评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,676评论 2 351