第一章爬虫基础（续）2019-11-28

爬虫介绍

三、HTTP 协议介绍

3、常用请求 method

在Http协议中，定义了八种请求方法。

1、GET 请求：一般情况下，只从服务器获取数据下来，并不会对服务器资源产生任何影响的时候会使用get请求。

2、POST 请求：向服务器发送数据（登录）、上传文件等，会对服务器资源产生影响的时候会使用post请求。

以上是在网站开发中常用的两种方法。并且一般情况都会遵循使用的原则。但是有的网站和服务器为了做反爬虫机制，也经常会不按常理出牌，有可能一个应该用get方法的请求就一定要改成post请求，视情况而定。

3、HEAD 请求：类似于get请求，只不过返回的响应中没有具体的内容，用于获取表头。

4、PUT 请求：从客户端向服务器传送的数据取代指定的文档的内容。

5、DELETE 请求：请求服务器删除指定的页面。

6、CONNECT 请求：HTTP/1.1协议中预留给能够将连接改为管道方式的代理服务器。

7、OPTIONS 请求：允许客户端查看服务器性能。

8、TRACE 请求：回显服务器收到的请求，主要用于测试或诊断。

4、常用请求头参数

在http协议中，向服务器发送一个请求，数据分为三部分，第一个是把数据放在url中，第二个是把数据放在body中（在post请求中），第三个就是把数据放在head中。这里介绍在网络爬虫中经常会用到的一些请求头参数。

1、User-Agent：浏览器名称。这个在网络爬虫中经常会被使用到。请求一个网页时，服务器通过这个参数就可以知道这个请求是由哪个浏览器发送的。如果我们是通过爬虫发送请求，那么我们的User-Agent 就是 Python，这对于那些有反爬虫机制的网站来说，可以轻易判断你这个请求是爬虫。因此我们要经常设置这个值为一些浏览器的值，来伪装我们的爬虫。

2、Referer：表明当前这个请求是从哪个url过来的。这个一般也可以用来做反爬虫技术。如果不是从指定页面过来的，那就不做相关的响应。

3、Cookie：http协议是无状态的。也就是同一个人发送了两次请求，服务器没有能力知道这两个请求是否来自同一个人。因此这时候就用cookie来做标识。一般如果想要做登录后才能访问的网站，那么就需要发送cookie信息了。

5、常见响应状态码

1、200：请求正常，服务器正常的返回数据。

2、301：永久重定向。比如在访问 www.jingdong.com 时会重定向到 www.jd.com

3、302：临时重定向。比如在访问一个需要登录的页面时，而此时没有登录，那么就会重定向到登录页面。

4、400：请求的url在服务器上找不到。就是请求url错误。

5、403：服务器拒绝访问，权限不够。

6、500：服务器内部错误。可能是服务器出bug了。

6、Chrome抓包使用

Elements：源代码可以帮助分析网页结构，获取数据。但是elements下是最终呈现的网页数据，有时候网页数据是通过ajax请求得到的，因此elements下的数据不能完全相信。

Console：控制台用来打印网页的一些信息。

Sources：文件夹整个网页所加载的所有文件。

Network：网页请求XHR 查看整个网页发送的所有网络请求。一般我们想要去查看某个请求的信息，都可以到这里去看。

练习题：

网站： https://www.guazi.com/www/buy/

1、走的什么协议？

2、User-Agent是什么？

3、点击下一页，走的是什么method？

上一篇文章第一章爬虫基础 2019-11-27 地址：

https://www.jianshu.com/p/a81950c5cb30

下一篇文章第二章网络请求（一） 2019-11-29 地址：

https://www.jianshu.com/p/272e03eb2948

以上资料内容来源网络，仅供学习交流，侵删请私信我，谢谢。

最后编辑于：2019.12.02 22:33:06

第一章 爬虫基础（续）2019-11-28