实战项目:基础爬虫

停更了许久,从今天开始继续更新。

基础爬虫架构及运行流程

爬虫架构由5部分组成,爬虫调度器,URL管理器,HTML下载器,HTML解析器和数据存储器。其功能如下:

爬虫调度器:主要负责统筹其他四个模块的协调工作。

URL管理器:负责管理URL链接,维护已经爬取的URL集合和未爬取的URL集合,提供获取新URL链接的借口。

HTML下载器:用于从URL管理器中获取未爬取的URL链接并下载HTML网页。

HTML解析器:用于从HTML下载器中获取已经下载的HTML网页,并从中解析出新的URL链接交给URL管理器,解析出有效的数据交给数据存储器。

数据存储器:用于将HTML解析器解析出来的数据通过文件或数据库的形式存储起来。

URL管理器

URL管理器主要包括两个变量,一个是已爬取URL的集合,另一个是未爬取的URL集合,采用python中的set数据类型,进行去重,另外还配有以下接口,以便供其他模块使用。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容