python爬虫基础

好像Python从流行起来，她就与爬虫有着千丝万缕的关系。一提到Python就想到爬虫程序，可能是因为Python提供的库比较方便吧，不管是自带的urllib，还是各种第三方库。总的来说，Python就是基础知识之上，熟练使用第三方库，以及框架。

而关于爬虫的库我想主要分为四大类：http协议库，文档解析库，模拟浏览器，爬虫框架。

1.urllib，urllib2，urllib3，requests

urllib和urllib2是Python2自带的http库，他们负责请求url链接并返回结果。urllib2并不完全是对urllib的升级，有时候得urllib和urllib2一起用，比如当你想在POST请求带上参数的话，就得用urllib.urlencode()来格式化参数，就是这么蛋疼。不过Python3里，urllib和urllib2就合并啦。

自带的urllib、urllib2有很多局限，比如说链接不可重用(http请求头的connection值总是close)。

urllib3、requests都是针对urllib、urllib2改进的第三方库。requests的底层使用urllib3来实现的，并且比urllib3提供了更强大的接口。所以啊，现在最强大的http库应该就是requests了。

2.beautiful soup

beautiful soup是用来解析html和xml文档的第三方库，它支持多种解析引擎(包括原生的html引擎、xml引擎、html5lib引擎)。

通常的流程是先使用urllib库请求某个url，然后将返回的html数据传递给beautiful soup进行解析。

通过urllib(requests)+beautiful soup结合可以很好滴爬取静态网页的内容。但现在的web技术，ajax跟node.js大行其道，很多网页内容是通过JavaScript动态生成的，简单地html爬虫对此根本无能为力，除非你能破解出JavaScript动态加载的目标url，然后再访问该地址并解析数据。或者可以模拟浏览器来解析页面的dom模型，并进行操作。

另外，其实我们也可以用正则表达式re来解析html和xml文档。

3.ghost、selenium

ghost是基于QtWebKit的无窗口浏览器。单文档超寒酸，而且实现的功能也少，预期琢磨它的源码，还不如自己学习下pyQt或者pySide，然后直接调用QtWebKit来得简单粗暴。

selenium是一个可支持多款本地浏览器的“驱动器”，它同时提供多种程序语言接口。我们可以通过Python+selenium webdriver来驱动Firefox来访问网页、搜索dom元素进行各种操作。特别的，对于通过ajax来进行动态加载的网页内容，selenium简直就是人们的大救星。

4.srapy

scrapy是最负盛名的爬虫框架，但目前为止，其实我就用了Python基本的库，我一定要试试它！

5.我现在使用

我现在仍是一个初级爬虫者，凡事基础要打牢固，所以我现在使用的是urllib，urllib2以及requests来请求url链接并返回网页结果，然后通过正则表达式来解析出自己所需要的，这样刚好也把正则表达式给学习了。

最后编辑于：2017.12.09 18:49:16

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

python爬虫基础

python爬虫基础

1.urllib，urllib2，urllib3，requests

2.beautiful soup

3.ghost、selenium

4.srapy

5.我现在使用

相关阅读更多精彩内容

友情链接更多精彩内容