Golang 优化之路——bitset

写在前面

开发过程中会经常处理集合这种数据结构,简单点的处理方法都是使用内置的map实现。但是如果要应对大量数据,例如,存放大量电话号码,使用map占用内存大的问题就会凸显出来。内存占用高又会带来一些列的问题,这里就不展开说了。还有就是,大量数据存放于map,查找的哈希算法消耗也会很高。这时就该考虑对数据结构进行优化。之前浏览awesome-go时发现了一种叫bitset的数据结构,今天就介绍一下它。

bitset 简介

首先这是一个数据结构。从名字set不难发现,这是一个集合的数据结构。bit的含义也比较好懂,通过set是通过bit实现的。如果你需要一个集合,正好集合内的元素都是正整数,那么用这个就没错了。

注:biset 有时也会被叫做 Bitmap。

Example

import "github.com/willf/bitset"

var b bitset.BitSet // 定义一个BitSet对象
b.Set(10).Set(11) // 给这个set新增两个值10和11
if b.Test(1000) { // 查看set中是否有1000这个值(我觉得Test这个名字起得是真差劲,为啥不叫Exist)
    b.Clear(1000) // 情况set
}
for i,e := v.NextSet(0); e; i,e = v.NextSet(i + 1) { // 遍历整个Set
   fmt.Println("The following bit is set:",i);
}
if B.Intersection(bitset.New(100).Set(10)).Count() > 1 { // set求交集
    fmt.Println("Intersection works.")
}

这个包功能已经非常完善了,完整的文档可以参考它的godoc。我使用这些包,除了看重基础功能(对于集合,就是增删改查这些),还有就是得方便调试。bitset内部保存数字都是按位存的,如果调试的时候是把bitset的内部数据给我看,我也是看不懂的,还好这个包提供了String()方法,可以把我设置的数据已字符串的形式返回,棒棒哒。

实现原理

研究一下实现原理才是我的Style。大概说一下原理。正整数集合可以都放到一个大的整数里面,用位来表示数字。比如1001就可以表示0和2这两个数字。用一个bit代替了一个int,可以大大降低内存的占用。但是一个整数最大也就64位,也就是说最大表示的数字就是64了,所以可以通过多个int拼接的形式来表示大整数。

bitset的内部数据结构,很亲切有木有:

type BitSet struct {
    length uint // set的大小
    set    []uint64 // 这个就会被用来表示一个大整数
}

通过下面的测试代码对于内部实现一探究竟:

var b bitset.BitSet // 定义一个BitSet对象
fmt.Println(b.Bytes())
b.Set(0)
fmt.Println(b.Bytes(),0)
b.Set(10) // 给这个set新增两个值10
fmt.Println(b.Bytes(),0,10)
b.Set(64)
fmt.Println(b.Bytes(),0,10,64)
if b.Test(1000) { // 查看set中是否有1000这个值(我觉得Test这个名字起得是真差劲,为啥不叫Exist)
    b.Clear(1000) // 情况set
}

输出:
[]
[1] 0
[1025] 0 10
[1025 1] 0 10 64

  • 新建的bitset,set是空[]
  • 放入了一个0,用第一位表示,也就是0x00000001
  • 放入了10,内部结构0x00000041
  • 放入了64,这个时候一个整数已经存不下了,内部结构是0x000000410x00000001。set这个数组里面,从前往后表示的数据依次增加,但是在uint64内部,是从低位开始,低位表示小的数。

与其它数据结构的对比

表示正整数的集合,Golang有很多种方式,自带的map就可以,当然这是最差的一种选择,首先就是内存的浪费,其次是每次查找还涉及到hash计算,虽然理论上hashmap的复杂度是O(1),实际上跟bitset比完全就是渣渣。此外,bitset都得升级版roaring也是不错的选择。如果你要保存的数据是10000000000这种级别的,那么用bitset就会存在低位浪费内存的情况,roaring可以用来压缩空间。

import (
    "testing"

    "github.com/RoaringBitmap/roaring"
    "github.com/willf/bitset"
)

func BenchmarkMap(b *testing.B) {
    var B = make(map[int]int8, 3)
    B[10] = 1
    B[11] = 1
    for i := 0; i < b.N; i++ {
        if _, exists := B[1]; exists {

        }
        if _, exists := B[11]; exists {

        }
        if _, exists := B[1000000]; exists {

        }
    }
}

func BenchmarkBitset(b *testing.B) {
    var B bitset.BitSet
    B.Set(10).Set(11)
    for i := 0; i < b.N; i++ {
        if B.Test(1) {

        }
        if B.Test(11) {

        }
        if B.Test(1000000) {

        }
    }
}

func BenchmarkRoaring(b *testing.B) {
    for i := 0; i < b.N; i++ {
        B := roaring.BitmapOf(10, 11)
        if B.ContainsInt(1) {

        }
        if B.ContainsInt(11) {
        }
        if B.ContainsInt(1000000) {

        }

    }
}

$ go test -bench=.* -benchmem 

BenchmarkMap-2          50000000                28.4 ns/op             0 B/op          0 allocs/op
BenchmarkBitset-2       2000000000               1.86 ns/op            0 B/op          0 allocs/op
BenchmarkRoaring-2       3000000               492 ns/op             152 B/op          6 allocs/op

结论

如果是比较连续的非负整数,推荐用bitset解决集合的问题。当然具体问题具体分析。

本文所涉及到的完整源码请参考

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容