欢迎大家关注公众号【哈希大数据】
爬虫是什么?
请求、获取,整理、保存你想要的网站数据的一种自动化程序。
爬虫基本步骤
爬虫抓取网站数据和我们平常浏览网页的步骤是一样的主要可分为四个步骤:
发起请求
Python通过HTTP库向目标站点发起Request请求,请求主要包含URL(也就是网站的网址)以及User-Agent、cookies等请求头信息,然后等待服务器响应。下载响应内容
如果服务器正常响应,会返回一个Response(响应),Response中包含状态码、响应头、响应体等,响应体内容类型可能有HTML,Json字符串,二进制数据(如图片、视频)等类型。解析下载内容
得到的如果是HTML,在python中可以用正则表达式(re库)、解析库(Beautifulsoup、pyquery、xpath)进行解析。如果是Json,可以直接转为Json对象解析,可能是二进制数据(图片、视频),可以直接按相应格式保存。保存数据
可根据获取到的数据格式,已经业务需求存为文本(txt或Json格式),也可保存到关系型数据库或非关系型数据库,或者保存特定格式的文件。
Request和Response是什么?分别包含哪些内容?
当客户端(对网站来说是浏览器)向服务器发送请求时,服务器会先创建两个对象:request对象和response对象。其中request对象中封装的是请求信息,response是用来向客户端响应信息。当客户端接收到响应信息后会进行相应解析显示。
Request主要包含以下内容:
1.请求方式
常用的请求方式主要有两种:
GET:从服务器上获取数据
POST:可简单理解为向服务器传送数据新建一条记录
还有其他四种:
HEAD:获取网页请求头信息
PUT:可简单理解为向服务器传送数据覆盖URL位置的资源
PATCH:可简单理解为向服务器传送数据更新部分内容
DELETE:删除URL位置存储的数据
2.请求URL
URL是Uniform Resoure Locator 的缩写,译为“统一资源定位符”,通俗来说,URL是是Internet上描述信息资源的字符串,采用URL可以用一种统一的格式来描述各种信息资源,包含文件、服务器的地址目录等。URL是计算机世界的详细地址,通过它可以定位到你想获取的数据。
3.请求头
Headers包含请求的头部信息,包括User-Agent、Cookies等。
4.请求体
POST、PUT、PATCH、DELETE等请求需要向数据库传到数据,这部分内容在请求体中。
Response主要包含以下内容:
1.响应状态
存在多种响应状态:常见的有200:请求成功;301:重定向;403:服务器拒绝执行请求;404请求失败,在服务器中找不到该资源。503:请求失败,服务器当前无法处理请求。
2.响应头
响应头包含:响应内容的类型和编码类型,服务器的信息等
3.响应体
包含求取资源的内容,如网页HTML,json,图片,视频等二进制数据等。
如何解析数据
在Python中根据获取的的内容可分为以下解析方式:
1.获取到的是json格式数据,用json包中的loads函数将已编码的 JSON 字符串解码为 Python 对象。
2.获取的是HTML,及二进制数据,可以用以下几种方式:
正则表达式(re库)直接提取信息,正则表达式的使用范围最为宽泛,但规则较多,使用难度大。
BeautifulSoup库:它是解析、遍历、维护“标签树”(HTML可认为是一个标签树)的功能库。HTML中的信息有很多,该库可以帮我们快速定位、获取我们想要的信息。具体使用方法后面再讲。
PyQuery库:该库是jQuery的Python实现,也是一个很棒的解析HTML文件的库,它的优点是语法简单,但我在实际应用过程中会出现部分标签解析不出的情况。这个大家要留意,当检查过语法无误但依然无法解析出标签内容时请换种解析方式(推荐使用BeautifulSoup)。
如何保存数据
Python提供各种数据的保存方式,所以数据的保存格式主要是看自己的需求。一般可保存为以下格式:
可以保存为简单的纯文本格式或json格式,在保存时记得制定编码格式(如utf-8或gbk)。
对于图片或视频可保存为对应格式的二进制文件。
可保存到MySQL、Oracle、SqlServer等关系型数据库。
可保存到MongoDB、Redis等关系型数据库
本次分享就到这里,下次将给大家分享如何用Python中的requests库爬取你想要的的数据。