爬虫基础 - HTTP基本原理

HTTP基本原理

URI和URL

URI的全称为Uniform Resource Identifier，即统一资源标志符，URL的全称为Universal Resource Locator，即统一资源定位符。
URL是URI的子集，也就是说每个URL都是URI，但不是每个URI都是URL。URI还包括一个子类叫作URN，全称为Universal Resource Name，即统一资源名称。URN只命名资源而不指定如何定位资源，比如urn:isbn:0451450523指定了一本书的ISBN，可以唯一标识这本书，但是没有指定到哪里定位这本书，这就是URN。

超文本

超文本，其英文名称叫作hypertext，在浏览器里看到的网页及时超文本解析而成的，其网页源代码是一系列HTML代码，里面包含了一系列标签，比如img显示图片，p指定显示段落等。浏览器解析这些标签后，便形成了我们平常看到的网页，而网页的源代码HTML就可以称作超文本。

HTTP和HTTPS

URL的开头会有http或https，这就是访问资源需要的协议类型。有事，我们还会看到ftp、sftp、smb开头的URL，它们都是协议类型。在爬虫中，我们抓取的页面通常就是http或https协议的。
HTTP的全称是Hyper Text Transfer Protocol，中文名叫作超文本传输协议。HTTP协议是用从网络传输超文本数据到本地浏览器的传送协议，它能保证高效而准确地传送超文本文档。HTTP由万维网协会（World Wide Web Consortium）和Internet工作小组IETF（Internet Engineering Task Force）共同合作指定的规范，目前广泛使用的是HTTP1.1版本。
HTTPS的全称是Hyper Text Transfer Protocol over Secure Socket Layer，是以安全为目标的HTTP通道，简单讲是HTTP的安全办，即HTTP下加入SSL层，简称为HTTPS。

HTTP请求过程

我们在浏览器输入一个URL，回车之后便会在浏览器中观察到页面内容。实际上，这个过程是浏览器想网站所在的服务器发送了一个请求，网站服务器接收到这个请求后进行处理和解析，然后返回对应的响应，接着传回给浏览器。响应里包含了页面的源代码等内容，浏览器再对其进行解析，便将网页呈现了出来。

请求

请求，由客户端向服务端发出，可以分为4个内容：请求方法、请求的网址、请求头、请求体。

请求方法

常见的请求方法有两种：GET和POST。
在浏览器中直接输入URL并回车，这便发起了一个GET请求，请求的参数会直接包含到URL例。例如，在百度中搜索Python，这就是一个GET请求，连接为https://www.baidu.com/s?wd=Python，其中URL中包含了请求的参数信息，这里参数wd表示要搜寻的关键字。POST请求大多在表单提交时发起。比如，对于一个登录表单，输入用户名和密码后，点击“登录”按钮，这通常会发起一个POST请求，其数据通常以表单的形式传输，而不会体现在URL中。
GET和POST请求方法有如下区别：

GET请求中的参数包含在URL里面，数据可以在URL中看到，而POST请求的URL不会包含这些数据，数据都是通过表单形式传输的，会包含在请求体中。
GET请求提交的额数据最多只有1024字节，而POST方式没有限制。

我们平常遇到的绝大部分请求都是GET或POST请求，另外还有一些请求方法，如GET、HEAD、POST、PUT、DELETE、OPTIONS、CONNECT、TRACE等。

请求的网址

请求的网址，即统一资源定位符URL，它可以唯一确定我们想请求的资源。

请求头

请求头，用来说明服务器要使用的附加信息，比较重要的信息有Cookie、Referer、User-Agent等。

Accept：请求报头域，用于指定客户端可接受哪些类型的信息。
Accept-Language：指定客户端可接受的语言类型。
Accept-Encoding：指定客户端可接受的内容编码。
Host：用于指定请求资源的主机IP和端口号，其内容为请求URL的原始服务器或网关的位置。从HTTP1.1版本开始，请求必须包含此内容。
Cookie：也常用复数形式Cookies，这是网站为了辨别用户进行会话追踪而存储在用户本地的数据。它的主要功能是维持当前访问会话。Cookies里有信息标识了我们所对应的服务器会话，每次浏览器再请求该站点的页面时，都会在请求头中加上Cookies并将其发送给服务器，服务器通过Cookies识别出是我们自己，并且查出当前状态是登录状态，所以返回结果就是登录之后才能看到的网页内容。
Referer：此内容用来标识这个请求是从哪个页面发过来的，服务器可以拿到这一信息并做相应的处理，如做来源统计、防盗链处理等。
User-Agent：简称UA，它是一个特殊的字符串头，可以使服务器识别客户使用的操作系统及版本、浏览器及版本等信息。在做爬虫时加上此信息，可以伪装为浏览器；如果不加，很可能会被识别出为爬虫。
Content-Type：也叫互联网媒体类型(Internet Media Type)或者MIME类型，在HTTP协议消息头中，它用来表示具体请求中的媒体类型信息。例如，text/html代表HTML格式，image/gif代表GIF图片，application/json代表JSON类型。

请求体

一般承载的内容是POST请求中的表单数据，而对于GET请求，请求体则为空。

响应

响应，由服务端返回客户端，可以分为三部分：响应状态码（Response）、响应头（Response Headers）和响应体（Response Body）。