爬虫基本架构

url 管理器

防重复抓取、循环抓起
内存 set
mysql
redis

下载器

下载html 到本地成字符串
urllib2
urllib2可以接受一个Request类的实例来设置URL请求的headers，urllib仅可以接受URL。这意味着，你不可以伪装你的User Agent字符串等。urllib提供urlencode方法用来GET查询字符串的产生，而urllib2没有。这是为何urllib常和urllib2一起使用的原因。

request(第三方库)

解析器

beautifulsoup4
https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/#id5

最后编辑于：2017.12.03 04:42:40

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Python爬虫入门（urllib+Beautifulsoup）
Python爬虫入门（urllib+Beautifulsoup）本文包括：1、爬虫简单介绍2、爬虫架构三大模块3...
廖少少阅读 13,340评论 0赞 6
Spring Cloud
Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具（例如配置管理，服务发现，断路器，智...
卡卡罗2017阅读 135,810评论 19赞 139

Python入门网络爬虫之精华版
Python学习网络爬虫主要分3个大的版块：抓取，分析，存储另外，比较常用的爬虫框架Scrapy，这里最后也详细...
楚江数据阅读 5,319评论 0赞 6
一小时入门 Python 3 网络爬虫
声明：本文讲解的实战内容，均仅用于学习交流，请勿用于任何商业用途！一、前言强烈建议：请在电脑的陪同下，阅读本文...
Bruce_Szh阅读 14,382评论 6赞 28
First TRY FLASK（0）
准备学习下flask，找个偏僻的地方记录一下学习吧，也看看自己能坚持多久学习flask原因很简单，第一个就是py...
腹黑君阅读 1,247评论 0赞 1

友情链接更多精彩内容

赞1赞

赞赏

手机看全文