python爬虫，学习路径拆解及资源推荐（第二篇：轻量级爬虫）

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

以下文章来源于腾讯云作者：昱良

“获取数据——解析数据——存储数据”是爬虫的三部曲，大部分爬虫都是按这样的流程来进行，这其实也是模拟了我们使用浏览器获取网页信息的过程。

爬虫第一步操作就是模拟浏览器向服务器发送请求，基于python，你不需要了解从数据的实现，HTTP、TCP、IP的网络传输结构，一直到服务器响应和应达的原理，因为python提供了功能齐全的类库来帮我们完成这些请求。

Python自带的标准库urllib2使用的较多，它是python内置的HTTP请求库，如果你只进行基本的爬虫网页抓取，那么urllib2足够用。

Requests的slogen是“Requests is the only Non-GMO HTTP library for Python, safe for humanconsumption”，相对urllib2，requests使用起来确实简洁很多，并且自带json解析器。

如果你需要爬取异步加载的动态网站，可以学习浏览器抓包分析真实请求或者学习Selenium来实现自动化。

对于爬虫来说，在能够爬取到数据地前提下当然是越快越好，显然传统地同步代码不能满足我们对速度地需求。

（ps：据国外数据统计：正常情况下我们请求同一个页面 100次的话，最少也得花费 30秒，但使用异步请求同一个页面 100次的话，只需要要 3秒左右。）

aiohttp是你值得拥有的一个库，aiohttp的异步操作借助于async/await关键字的写法变得更加简洁，架构更加清晰。使用异步请求库进行数据抓取时，会大大提高效率。

你可以根据自己的需求选择合适的请求库，但建议先从python自带的urllib开始，当然，你可以在学习时尝试所有的方式，以便更了解这些库的使用。

推荐请求库资源:

爬虫爬取的是爬取页面指定的部分数据值，而不是整个页面的数据，这时往往需要先进行数据的解析再进行存储。

从web上采集回来的数据的数据类型有很多种,主要有HTML、 javascript、JSON、XML等格式。

解析库的使用等价于在HTML中查找需要的信息时时使用正则，能够更加快捷地定位到具体的元素获取相应的信息。

Css选择器是一种快速定位元素的方法。

Pyqurrey使用lxml解析器进行快速在xml和html文档上操作，它提供了和jQuery类似的语法来解析HTML文档，支持CSS选择器，使用非常方便。

Beautiful Soup是借助网页的结构和属性等特性来解析网页的工具，能自动转换编码。支持Python标准库中的HTML解析器,还支持一些第三方的解析器。

Xpath最初是用来搜寻XML文档的，但是它同样适用于 HTML 文档的搜索。它提供了超过 100 个内建的函数。

这些函数用于字符串值、数值、日期和时间比较、节点和 QName 处理、序列处理、逻辑值等等，并且XQuery和XPointer都构建于XPath基础上。

Re正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。

个人认为前端基础比较扎实的，用pyquery是最方便的，beautifulsoup也不错，re速度比较快，但是写正则比较麻烦。

当然了，既然用python，肯定还是自己用着方便最好。

推荐解析器资源：

当爬回来的数据量较小时，你可以使用文档的形式来储存，支持TXT、json、csv等格式。

但当数据量变大，文档的储存方式就行不通了，所以掌握一种数据库是必须的。

Mysql 作为关系型数据库的代表，拥有较为成熟的体系，成熟度很高，可以很好地去存储一些数据，但在在海量数据处理的时候效率会显著变慢，已然满足不了某些大数据的处理要求。

MongoDB已经流行了很长一段时间，相对于MySQL ，MongoDB可以方便你去存储一些非结构化的数据，比如各种评论的文本，图片的链接等等。

你也可以利用PyMongo，更方便地在Python中操作MongoDB。

因为这里要用到的数据库知识其实非常简单，主要是数据如何入库、如何进行提取，在需要的时候再学习就行。

Redis是一个不折不扣的内存数据库，Redis 支持的数据结构丰富，包括hash、set、list等。

数据全部存在内存，访问速度快，可以存储大量的数据，一般应用于分布式爬虫的数据存储当中。

推荐数据库资源：