HTTP请求过程
我们在浏览器输入百度首页的地址:https://www.baidu.com,输入之后浏览器会给我们打开百度首页。实际上这个过程是浏览器向网站所在的服务器发送了一个Request请求,网站服务器接收到这个Request之后进行处理和解析,然后返回对应的一个Response响应,然后传回给浏览器,Response里面就包含了页面的源代码等内容,浏览器再对其进行解析便将网页呈现了出来。
在网页中按F12可查看详细的请求和响应内容
Request(请求)
由客户端向服务端发出。可以将Request划分为四部分内容:
- Request Method:请求方式
- Request URL:请求链接
- Request Headers:请求头
- Request Body:请求体
Request Method
请求方式常见的有两种类型,GET和POST。
- GET用于信息获取,而且应该是安全的和幂等的(幂等的意思就是一个操作不会修改状态信息,并且每次操作的时候都返回同样的结果。)从发送请求的角度,GET请求相当于我们在数据库中做了查询的操作,这样的操作不影响数据库本身的数据。
- POST表示可能会修改服务器上资源的请求,也相当于在数据库中做了修改的操作,会影响数据库本身的数据(比如:注册了账户,发了帖子,做了评论,得到了积分等。这种情况下,资源状态被改变了)。
案例1——GET请求
在浏览器输入:https://www.baidu.com/s?wd=appium 并回车,这个其实就是在百度搜索appium这个关键词。URL中包含了请求的参数信息,这里参数wd就是要搜寻的关键字。在浏览器可以看到Query String Parameters 选项就是请求的参数。发起一次GET请求时,参数会以url string的形式进行传递。即?后的字符串则为其请求参数。并以&作为分隔符。
案例2——POST请求
一般来说,网站登录验证的时候,需要提交用户名密码,这里包含了敏感信息,使用GET方式请求的话密码就会暴露在URL里面,造成密码泄漏,所以这里最好以POST方式发送。文件的上传时,由于文件内容比较大,也会选用POST方式。
除了常规的GET,POST请求,另外还有一些请求方式,如HEAD、PUT、DELETE等,简单将其总结如下:
Request URL
Request URL就是请求的网址,即统一资源定位符,用URL 可以唯一确定我们想请求的资源。比如:https://www.baidu.com/
Request Headers
请求头,用来说明服务器要使用的附加信息,比较重要的信息有Cookie、Referer、User-Agent等,下面将一些常用的头信息说明如下:
- Accept,请求报头域,用于指定客户端可接受哪些类型的信息。
- Accept-Language,指定客户端可接受的语言类型。
- Accept-Encoding,指定客户端可接受的内容编码。
- Host,用于指定请求资源的主机IP和端口号,其内容为请求URL的原始服务器或网关的位置。从HTTP1.1版本开始,Request必须包含此内容。
- Cookie,也常用复数形式Cookies,是网站为了辨别用户进行Session跟踪而储存在用户本地的数据。Cookies的主要功能就是维持当前访问会话。
- Referer,此内容用来标识这个请求时从哪个页面发过来的,服务器可以拿到这一信息并做相应的处理,如做来源统计、做防盗链处理等。
- User-Agent,简称UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、浏览器及版本等信息。在做爬虫时加上此信息可以伪装为浏览器,如果不加很可能会被识别出为爬虫。
- Content-Type,即Internet Media Type,互联网媒体类型,也叫做MIME类型,在HTTP协议消息头中,使用它来表示具体请求中的媒体类型信息。例如 application/x-www-form-urlencoded表示表单数据,text/html代表HTML格式,image/gif代表GIF图片,application/json代表json类型。
Request Body
请求体,一般用于POST请求中,主要定义向服务器提交的数据类型,而对于GET请求Request Body则为空。
比如在登录之前我们填写了用户名和密码信息,提交时就这些内容就会以Form Data的形式提交给服务器,此时注意Request Headers中指定了Content-Type为application/x-www-form-urlencoded,只有设置Content-Type为application/x-www-form-urlencoded才会以Form Data形式提交,另外我们也可以将Content-Type设置为application/json提交Json数据,或者设置为multipart/form-data来上传文件。
常用Content-Type和POST提交数据方式的关系:
application/x-www-form-urlencoded与multipart/form-data 区别
- 在没有type=file时候,用默认的application/x-www-form-urlencoded就行。
- 在有type=file时候,要用multipart/form-data编码方式。浏览器就会把表单以控件为单位分割,并且为每个部分加上Content-Disposition(form-data或file)、Content-Type(默认text/plain)、name(控件name)等信息,并加上分割符(boundary)。