【译】Swift算法俱乐部-布隆过滤器

Swift算法俱乐部

本文是对 Swift Algorithm Club 翻译的一篇文章。
Swift Algorithm Clubraywenderlich.com网站出品的用Swift实现算法和数据结构的开源项目,目前在GitHub上有18000+⭐️,我初略统计了一下,大概有一百左右个的算法和数据结构,基本上常见的都包含了,是iOSer学习算法和数据结构不错的资源。
🐙andyRon/swift-algorithm-club-cn是我对Swift Algorithm Club,边学习边翻译的项目。由于能力有限,如发现错误或翻译不妥,请指正,欢迎pull request。也欢迎有兴趣、有时间的小伙伴一起参与翻译和学习🤓。当然也欢迎加⭐️,🤩🤩🤩🤨🤪。
本文的翻译原文和代码可以查看🐙swift-algorithm-club-cn/Bloom Filter


布隆过滤器(Bloom Filter)

介绍

布隆过滤器是一种节省空间的数据结构,可以告诉您元素是否存在于集合中。

这是一个概率数据结构:对布隆过滤器的查询返回false,意味着该元素肯定不在集合中,或者是true,这意味着元素可能在集合中。

误报的可能性很小,即使查询返回true,元素实际上也可能不在集合中。 但是永远不会有任何漏报:如果查询返回false,你可以保证,那么元素确实不在集合中。

所以布隆过滤器告诉你,“绝对不是”或“可能是的”。

起初,这似乎不太有用。 但是,它在缓存过滤和数据同步等应用程序中很重要。

布隆过滤器优于哈希表的一个优点是前者保持恒定的内存使用和恒定时间插入和搜索。 对于具有大量元素的集合,哈希表和布隆过滤器之间的性能差异很大,如果您不需要保证不存在误报,则它是可行的选项。

注意:与哈希表不同,布隆过滤器不存储实际对象。 它只会记住你看过的对象(有一定程度的不确定性)以及你没有看过的对象。

将对象插入集合中

布隆过滤器本质上是一个固定长度的位向量,一个位数组。 当我们插入对象时,我们将其中一些位设置为1,当我们查询对象时,我们检查某些位是0还是1。 两个操作都使用哈希函数。

要在过滤器中插入元素,可以使用多个不同的哈希函数对元素进行哈希。 每个哈希函数返回一个我们映射到数组中索引的值。 然后,我们将这些索引处的位设置为1true

例如,假设这是我们的位数组。 我们有17位,最初它们都是0false

[ 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0 ]

现在我们要在布隆过滤器中插入字符串"Hello world!"。 我们对此字符串应用两个哈希函数。第一个给出值1999532104120917762。我们通过取数组长度的模数将此哈希值映射到数组的索引:1999532104120917762 % 17 = 4。 这意味着我们将索引4处的位设置为1或者true

[ 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0 ]

然后我们再次散列原始字符串,但这次使用不同的散列函数。 它给出哈希值9211818684948223801。取17的模数为12,我们也将索引12处的位设置为1

[ 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0 ]

这两个1位足以告诉布隆过滤器它现在包含字符串 "Hello world!"。 当然,它不包含实际的字符串,所以你不能要求布隆过滤器,“给我一个你包含的所有对象的列表”。 所有它都是一堆1和0。

查询集合

类似于插入,查询是通过首先对期望值进行哈希来实现的,该期望值给出几个数组索引,然后检查这些索引处的所有位是否为1。 如果其中一个位不是1,则无法插入该元素,并且查询返回false。 如果所有位都是1,则查询返回true

例如,如果我们查询字符串"Hello WORLD",那么第一个哈希函数返回5383892684077141175,其中取17的模是12。该位是1。但是第二个哈希函数给出5625257205398334446,它映射到数组索引9。该位为0。 这意味着字符串"Hello WORLD"不在过滤器中,查询返回false

第一个哈希函数映射到1位的事实是巧合(它与两个字符串以"Hello "开头的事实无关)。 太多这样的巧合可能导致“碰撞”。 如果存在冲突,即使未插入元素,查询也可能错误地返回true - 导致前面提到的误报问题。

假设我们插入了一些其他元素,"Bloom Filterz",它设置了第7位和第9位。现在数组看起来像这样:

[ 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0 ]

如果再次查询"Hello WORLD",则过滤器会看到第12位为true,第9位现在也为true。 它报告说"Hello WORLD"确实出现在集合中,即使它不是......因为我们从未插入过那个特定的字符串。这是误报。这个例子说明了为什么布隆过滤器永远不会说“绝对是”,只有“可能是”。

您可以通过使用具有更多位的数组并使用其他哈希函数来解决此类问题。 当然,使用的哈希函数越多,布隆过滤器就越慢。 所以你必须取得平衡。

使用布隆过滤器无法删除,因为任何一个位都可能属于多个元素。 一旦你添加了一个元素,它就在那里。

布隆过滤器的性能是O(k),其中 k是哈希函数的数量。

代码

代码非常简单。 内部位数组在初始化时设置为固定长度,初始化后不能进行突变。

public init(size: Int = 1024, hashFunctions: [(T) -> Int]) {
    self.array = [Bool](repeating: false, count: size)
  self.hashFunctions = hashFunctions
}

应在初始化时指定几个哈希函数。 您使用哪些哈希函数将取决于您将添加到集合的元素的数据类型。 你可以在playground测试中看到一些例子 - 字符串的djb2sdbm哈希函数。

插入只是将所需的位翻转为true

public func insert(_ element: T) {
  for hashValue in computeHashes(element) {
    array[hashValue] = true
  }
}

这使用computeHashes()函数,它循环遍历指定的hashFunctions并返回索引数组:

private func computeHashes(_ value: T) -> [Int] {
  return hashFunctions.map() { hashFunc in abs(hashFunc(value) % array.count) }
}

并查询检查以确保哈希值处的位为true

public func query(_ value: T) -> Bool {
  let hashValues = computeHashes(value)
  let results = hashValues.map() { hashValue in array[hashValue] }
    let exists = results.reduce(true, { $0 && $1 })
  return exists
}

如果你来自另一种命令式语言,你可能会注意到exists赋值中的不寻常语法。 当Swift使代码更加简洁和可读时,Swift使用函数范例,在这种情况下,reduce是一种更加简洁的方法来检查所有必需的位是否为true而不是用for循环。

作者:Jamil Dhanani,Matthijs Hollemans
翻译:Andy Ron
校对:Andy Ron

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,657评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,662评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,143评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,732评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,837评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,036评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,126评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,868评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,315评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,641评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,773评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,859评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,584评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,676评论 2 351

推荐阅读更多精彩内容