登录注册写文章

Hbase学习-BloomFilter原理

Hbase学习-BloomFilter原理

BloomFilter

一、背景说明

Hash 函数在计算机领域，尤其是数据快速查找领域，加密领域用的极广
作用是将一个大的数据集映射到一个小的数据集上面（这些小的数据集叫做哈希值，或者散列值）
Hash table（散列表，也叫哈希表），是根据哈希值(Key value)而直接进行访问的数据结构。也就是说，它通过把哈希值映射到表中一个位置来访问记录，以加快查找的速度。下面是一个典型的示意图：

1014-1.png
这种简单的Hash Table存在一定的问题，就是Hash冲突的问题。假设 Hash 函数是良好的，如果位阵列长度为 m 个点，那么如果想将冲突率降低到例如 1%, 这个散列表就只能容纳 m * 1% 个元素。显然这就不叫空间有效了（Space-efficient）。

二、Bloom Filter概述

Bloom Filter是1970年由布隆（Burton Howard Bloom）提出的
它实际上是一个很长的二进制向量和一系列随机映射函数（Hash函数）
布隆过滤器可以用于检索一个元素是否在一个集合中
它的优点是空间效率和查询时间都远远超过一般的算法
Bloom Filter广泛的应用于各种需要查询的场合中，如：Google 著名的分布式数据库 Bigtable 使用了布隆过滤器来查找不存在的行或列，以减少磁盘查找的IO次数
在很多Key-Value系统中也使用了布隆过滤器来加快查询过程，如 Hbase，Accumulo，Leveldb，一般而言，Value 保存在磁盘中，访问磁盘需要花费大量时间，然而使用布隆过滤器可以快速判断某个Key对应的Value是否存在，因此可以避免很多不必要的磁盘IO操作，只是引入布隆过滤器会带来一定的内存消耗

三、Bloom Filter 原理

如果想判断一个元素是不是在一个集合里，一般想到的是将所有元素保存起来，然后通过比较确定，链表，树等等数据结构都是这种思路.。但是随着集合中元素的增加，需要的存储空间越来越大，检索速度也越来越慢。
一个Bloom Filter是基于一个m位的位向量（b1,…bm），这些位向量的初始值为0。另外，还有一系列的hash函数（h1,…hk）（默认是3个哈希函数），这些hash函数的值域属于1~m。下图是一个bloom filter插入x,y,z并判断某个值w是否在该数据集的示意图：

1014-2.png
布隆过滤器的缺点和优点一样明显。误算率（False Positive）是其中之一。随着存入的元素数量增加，误算率随之增加。但是如果元素数量太少，则使用散列表足矣
总结：Bloom Filter 通常应用在一些需要快速判断某个元素是否属于集合，但是并不严格要求100%正确的场合。此外，引入布隆过滤器会带来一定的内存消耗

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

HBase学习笔记
最近使用HBase存储数据比较多，看了一些资料，这里记录一下笔记。HBase是Google开源项目bigtable...
猿鹿说阅读 5,306评论 0赞 1
详解布隆过滤器（Bloomfilter）+scrapy分布式持久化去重
前提网上大部分python实现的布隆过滤器库如：pybloomfilter、pybloom 但都是基于py2且哈...
SMEB_阅读 9,380评论 3赞 5

python面试学习路线-4.中间件
4.中间件要求: 能熟练使用、部署、调优、问题排查、懂原理 1.缓存中间件: Redis/Memecache 1...
BigJeffWang阅读 1,891评论 0赞 1
从原理到实战：如何通过布隆过滤器防止缓存击穿
为什么引入我们的业务中经常会遇到穿库的问题，通常可以通过缓存解决。如果数据维度比较多，结果数据集合比较大时，缓存...
愿天堂没有BUG阅读 1,644评论 0赞 0
布隆过滤器原理及应用
01背景假如需要过滤某些不安全网页，现有100亿个黑名单页面，每个网页的URL最多占用64字节。现要设计一种网页...
程序员姜戈阅读 3,800评论 0赞 0

赞1赞

赞赏

手机看全文