布隆过滤器

scrapy-redis占用内存，目前两千万的redis去重队列+mongodb的缓存，15g的内存有点坚持不住了，不知道是不是我的程序有问题，感觉不应该这么快内存就不够用了，决定用布隆过滤将scrapy-redis优化一下，优化原理参考：《python3网络爬虫开发实战》
参考链接：https://cloud.tencent.com/developer/article/1084962

BLOOMFILTER_HASH_NUMBER = 6
BLOOMFILTER_BIT = 30


class HashMap(object):
    def __init__(self, m, seed):
        self.m = m
        self.seed = seed

    def hash(self, value):
        ret = 0
        for i in range(len(value)):
            ret += self.seed * ret + ord(value[i])

        return (self.m - 1) & ret


class BloomFilter(object):
    def __init__(self, server, key, bit=BLOOMFILTER_BIT, hash_number=BLOOMFILTER_HASH_NUMBER):
        self.m = 1 << bit
        self.seeds = range(hash_number)
        self.maps = [HashMap(self.m, seed) for seed in self.seeds]
        self.server = server
        self.key = key

    def exists(self, value):
        if not value:
            return False
        exist = 1
        for map in self.maps:
            offset = map.hash(value)
            exist = exist & self.server.getbit(self.key, offset)
        return exist

    def insert(self, value):
        for f in self.maps:
            offset = f.hash(value)
            self.server.setbit(self.key, offset, 1)

简单测试一下就能明白流程是怎么进行的了
然后将上面代码保存成一个python文件，将这个文件放置在scrapy-redis源码目录下
需要修改scrapy-redis的源码中的dupefilter.py文件

from .bloom import BloomFilter        #bloom是我保存的文件名称
......
def __init__(self, server, key, debug=False):        #修改初始化函数
    self.server = server
    self.key = key
    self.debug = debug
    self.logdupes = True
    self.bf = BloomFilter(server, self.key)        #新增
......
def request_seen(self, request):            #修改函数
    fp = self.request_fingerprint(request)
    # This returns the number of values added, zero if already exists.
    # added = self.server.sadd(self.key, fp)
    # return added == 0
    if self.bf.exists(fp):
        return True
    self.bf.insert(fp)
    return False

其它的和正常的scrapy一样，运行方法也是一样的
现在的问题是，如何将现有数据转换成bloom的格式，
我想到的是一个比较笨的方法，将原先的redis中的数据拿出来，用上面的bloom文件处理一边再写入redis中，一定要做好原数据备份

BLOOMFILTER_HASH_NUMBER = 6
BLOOMFILTER_BIT = 30


class HashMap(object):
    def __init__(self, m, seed):
        self.m = m
        self.seed = seed

    def hash(self, value):
        ret = 0
        for i in range(len(value)):
            ret += self.seed * ret + ord(value[i])

        return (self.m - 1) & ret


class BloomFilter(object):
    def __init__(self, server, key, bit=BLOOMFILTER_BIT, hash_number=BLOOMFILTER_HASH_NUMBER):
        self.m = 1 << bit
        self.seeds = range(hash_number)
        self.maps = [HashMap(self.m, seed) for seed in self.seeds]
        self.server = server
        self.key = key

    def exists(self, value):
        if not value:
            return False
        exist = 1
        for map in self.maps:
            offset = map.hash(value)
            exist = exist & self.server.getbit(self.key, offset)
        return exist

    def insert(self, value):
        for f in self.maps:
            offset = f.hash(value)
            self.server.setbit(self.key, offset, 1)


import redis
conn = redis.Redis(host="redis的ip地址", port="6379")
bf = BloomFilter(conn, "country1:dupefilter")    #写到redis的目标string中
while conn.scard('country:dupefilter'):         #判断原redis是不是已经转换完成了
    s = str(conn.spop('country:dupefilter'))[2:-1]        #一定要做好原数据备份，将原redis中的数据删除返回一个
    bf.insert(s)        #因为原先的reids已经去重过了，所以这里没有用bloom判断是否重复，直接写入bloom

如果一开始用的不是scrapy-redis去重，后来发现内存不足了，那现在需要手动生成指纹，再保存到布隆中

from scrapy.utils.request import request_fingerprint


class Request_Fingerprint(object):
    def __init__(self, url):
        self.method = 'GET'     # 如果是post请求，请修改成POST
        self.url = url
        self.body = b''


def run(url):
    '''
    手动添加url指纹，存在返回True，不存在返回False
    :param url: 传入需要去重的url
    :return: 存在返回True，不存在返回False
    '''
    re = Request_Fingerprint(url=url)
    fp = request_fingerprint(re)
    return fp          #scrapy-redis指纹

目前整个流程就是这样了，有什么想法请下方留言

最后编辑于：2019.07.30 15:16:39

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,163评论 6赞 498
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,301评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,089评论 0赞 352
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,093评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,110评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,079评论 1赞 295
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,005评论 3赞 417
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,840评论 0赞 273
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,278评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,497评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,667评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,394评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,980评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,628评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,796评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,649评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,548评论 2赞 352

布隆过滤器

推荐阅读更多精彩内容