2019-03-30学习笔记 去重策略

爬虫去重策略

  1. 将访问过的url保存到数据库中,效率较低
  2. 将访问过的url保存到set(内存)中,只需要o(1)的代价就可以查询url
    对内存的占用较高
  3. url经过md5等方法哈希后保存到set中 (scrapy使用的)
  4. 用bitmap等方法,将访问过的url通过hash函数映射到某一位
    申请一个8个位,每一个url映射到每一个位上
    有冲突的可能性 哈希解决冲突的方法
  5. bloomfilter方法对bitmap进行改进,多重hash函数降低冲突

部分知识

Python用缩进表示代码块,不使用{}
Python 通常是一行写完一条语句,但如果语句很长,我们可以使用反斜杠()来实现多行语句,例如:

total = item_one + \
        item_two + \
        item_three

输入input()
输出print()

导入模块

在 python 用import或者from...import来导入相应的模块。
将整个模块(somemodule)导入,格式为:import somemodule
从某个模块中导入某个函数,格式为:from somemodule import somefunction
从某个模块中导入多个函数,格式为:from somemodule import firstfunc, secondfunc, thirdfunc
将某个模块中的全部函数导入,格式为:from somemodule import *

sys模块详解:https://www.cnblogs.com/Archie-s/p/6860301.html

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 模块和包 一 模块 1 什么是模块? 常见的场景:一个模块就是一个包含了python定义和声明的文件,文件名就是...
    go以恒阅读 6,760评论 0 4
  • 写在前面的话 代码中的# > 表示的是输出结果 输入 使用input()函数 用法 注意input函数输出的均是字...
    FlyingLittlePG阅读 8,266评论 0 9
  • 一、Python简介和环境搭建以及pip的安装 4课时实验课主要内容 【Python简介】: Python 是一个...
    _小老虎_阅读 11,339评论 0 10
  • ¥开启¥ 【iAPP实现进入界面执行逐一显】 〖2017-08-25 15:22:14〗 《//首先开一个线程,因...
    小菜c阅读 11,944评论 0 17
  • winpcap/sharppcap调用 多线程、队列、委托的使用 TCP、RTMP协议常识及握手过程 封包数据解析...
    涟漪之湖阅读 5,195评论 1 0

友情链接更多精彩内容