1. Python爬虫的流程
爬虫实际上是用浏览器访问的方式模拟了访问网站的过程,整个过程包括三个阶段:打开网页,提取数据和保存数据。
在Python中,这三个阶段都有对应的工具可以使用。在打开网页这一步骤中,可以使用Requests访问页面,得到服务器返回给我们的数据,这里包括HTML页面以及JSON数据。在提取数据这一步骤中,主要用到了两个工具。针对HTML页面,可以使用XPath进行元素定位,提取数据;针对JSON数据,可以使用JSON进行解析。在最后一步保存数据中,我们可以使用Pandas保存数据,最后导出csv文件。
Requests 访问页面
Requests是Python HTTP的客户端库,编写爬虫的时候都会用到,它有两种访问方式:Get和Post。这两者最直观的区别是:Get把参数包含在url中,而Post通过request body来传递参数。
2. Xpath定位,JSON对象解析
XPath是XML的路径语言,实际上是通过元素和属性进行导航,帮我们定位位置。XPath的选择功能非常强大,它可以提供超过100个内建函数,来做匹配。我们想要定位的节点,几乎都可以使用XPath来选择。
JSON是一种轻量级的交互方式,在Python 中有JSON库,可以让我们将Python对象和JSON对象进行转换。为什么要转换呢?将JSON对象转换为Python对象,我们对数据进行解析就更方便了。
3. 如何在Python中使用Selenium库来帮助你模拟浏览器,获取完整的HTML。
Selenium是Web应用的测试工具,可以直接运行在浏览器中,它的原理是模拟用户在进行操作,支持当前多种主流的浏览器。