登录注册写文章

实战项目：基础爬虫

朱双伟_西潮坝上

实战项目：基础爬虫

停更了许久，从今天开始继续更新。

基础爬虫架构及运行流程

爬虫架构由5部分组成，爬虫调度器，URL管理器，HTML下载器，HTML解析器和数据存储器。其功能如下：

爬虫调度器：主要负责统筹其他四个模块的协调工作。

URL管理器：负责管理URL链接，维护已经爬取的URL集合和未爬取的URL集合，提供获取新URL链接的借口。

HTML下载器：用于从URL管理器中获取未爬取的URL链接并下载HTML网页。

HTML解析器：用于从HTML下载器中获取已经下载的HTML网页，并从中解析出新的URL链接交给URL管理器，解析出有效的数据交给数据存储器。

数据存储器：用于将HTML解析器解析出来的数据通过文件或数据库的形式存储起来。

URL管理器

URL管理器主要包括两个变量，一个是已爬取URL的集合，另一个是未爬取的URL集合，采用python中的set数据类型，进行去重，另外还配有以下接口，以便供其他模块使用。

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

吾爱吾师
吾爱吾师文/王雨涵吾爱吾师。吾爱吾师，爱您的严而不厉，谆谆善诱。我好像生来与数学无缘，但幸运的是我遇到了您...
爱于心敏于行阅读 4,162评论 0赞 3
禅绕画之旅~简单至美~百分之71-75
禅绕画之旅，月满百福至75。因为有老师的三个图样，所以很轻松的就完成了三个图样，基本上就是照葫芦画瓢而来的，稍作...
时光分拣机阅读 3,142评论 2赞 5

白琼格焦点解决初级十期坚持分享第37天
今天完成刘老师布置的作业时，突然不知道怎么入手。因为上周二宝宝一直在身边根本听不成课，所以上周没有上成课，对于做作...
潼宝的开心果阅读 1,040评论 0赞 1
2018，幸福尽在掌控！
-1- 什么是幸福？有网友调侃：枯藤老树昏鸦，空调wifi西瓜，葛优同款沙发，夕阳西下，我就往上一趴。虽然是...
白立平阅读 1,657评论 0赞 0

赞1赞

赞赏

手机看全文