python爬虫的基本工作流程

1）首先选取一部分进行挑选的种子URL。

2）将这些URL放入待抓取URL队列

3）从待抓取URL队列中读取待抓取的URL，解析DNS，并且得到主机的IP，并将URL对应的网页下载下来，存储进已经下载网页库中。此外将这些URL放进已抓取URL队列。

4）分析已抓取URL队列中的URL，从已下载的网页数据中分析出其他URL，并和已抓取的URL进行比较去重，最后将去重过的URL放入待抓取URL队列，从而进入下一个循环。

python中实现HTTP请求的三种方法urllib2/urllib, httplib/utllib以及Requests。本文只介绍最好用的Requests方法。欲知怎么使用，且看下节分解。

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

Python爬虫入门（urllib+Beautifulsoup）
Python爬虫入门（urllib+Beautifulsoup）本文包括：1、爬虫简单介绍2、爬虫架构三大模块3...
廖少少阅读 13,338评论 0赞 6
《这就是搜索引擎》爬虫部分摘抄总结
《这就是搜索引擎》这本书的第二章是关于爬虫的，干货很多（文章几乎没有废话，所以复制居多），可以参考搜索引擎是如何构...
SeanCheney阅读 6,338评论 0赞 20

掌握开发轻量级爬虫0
第1章介绍 1、简单爬虫架构有3个模块：（这些模块怎样组装在一起完成整个爬取任务。这里简单的架构经过扩展可以爬...
Datacat阅读 2,744评论 0赞 3
python------爬虫基本面试题
1, 你用过的爬虫框架或者模块有哪些？谈谈他们的区别或者优缺点？ Python自带：urllib，urllib2 ...
城北有梦阅读 11,231评论 0赞 11
Vue-router之导航守卫
导航守卫全局导航守卫全局钩子 beforeEach 进行数据校验，比如验证页面，用户需要登录后才能显示，设置跳...
王童孟阅读 8,777评论 0赞 1

赞1赞

赞赏

手机看全文