http的客户端
最简单的http的客户端就是我们的浏览器,只要实现了发送一个http的请求的报文的工具,那么这就是一个http的client。(爬虫也是一个http client)
我们可以尝试一下
看一下返回的html,为什么html会这么短呢,这个meta是一个refresh,他的内容是www.baidu.com,我们直接访问baidu.com,他就会直接返回一个上面的东西,他会自动的识别这个meta的值,然后重定向到www.baidu.com。
我们换一个请求,直接发送www.baidu.com,他会返回什么呢?
看一个小指令
curl -v www.baidu.com 这个指令用来详细的展示header和General的相关的数据,但是在curl指令中,只能得到数据,没有渲染的过程,所以不会向我们展示这个界面。
ps:其中的(115.239.211.112是我们通过DNS解析得到的服务器地址,请求的的端号是80)
Accept-Ranges:WEB服务器表明自己是否接受获取其某个实体的一部分(比如文件的一部分)的请求。bytes:表示接受,none:表示不接受。
Content-Type:返回内容的MIME(一种标准化的方式来表示文档的性质和格式)类型。
CORS跨域请求的限制和解决(跨域资源共享)
- CORS的简介
CORS是支持POST提交的,CORS原理是只需要向响应头的header中注入Access-Control-Allow-Origin,浏览器中一旦检测到Access-Control-Allow-Origin,就可以实现跨域的操作。
CORS实现需要服务器和浏览器同时进行支持,现在所有的浏览器都支持该功能,但是IE要不低于IE10才可以,整个CORS过程都是浏览器自己进行完成的,不需要用户进行参与,对于用户来说,CORS和AJAX的通信是没有什么区别的。
所以我们想要实现CORS通信,关键还是再服务器,只要服务器实现了CORS接口就可以实现通信了。 - 两种请求
浏览器将CORS的请求分成两类:简单请求和非简单请求
简单请求的概念就是要同时满足下面两大条件
(1)请求方法是下面三种方法之一 :HEAD、GET、POST
(2)HTTP的头信息不超过以下几个字段:
- Accept
- Accept-Language
- Content-Language
- Last-Event-ID
- Content-Type:只限于三个值application/x-www-form-urlencoded、multipart/form-data、text/plain
浏览器对这两种请求的处理是不一样的。凡是不同时满足上述条件的都是非简单请求。
简单的请求
基本的流程
对于简单请求来说,浏览器直接发送一个CORS请求,简单来说就是在头信息中,增加了一个Origin字段
我们看一下添加Origin字段的请求
GET /cors HTTP/1.1
Origin: http://api.bob.com
Host: api.alice.com
Accept-Language: en-US
Connection: keep-alive
User-Agent: Mozilla/5.0...
其中Origin字段是用来说明,本次请求来自哪一个源(协议+域名+端口),服务器会根据这个值来确定是否进行通信。
ps:if Origin这个源不在许可范围内,服务器也会返回一个正常的HTTP回应,但是这个回应的头信息不包含Access-Control-Allow-Origin字段,浏览器就知道出错了,抛出一个错误,因为这个错误是无法通过状态码进行识别的,所以可能状态码是300。
300(多种选择) 针对请求,服务器可执行多种操作。 服务器可根据请求者 (user agent) 选择一项操作,或提供操作列表供请求者选择。
如果Origin指定的在许可范围内,服务器会做出相应,多出几个信息头
Access-Control-Allow-Origin: http://api.bob.com
Access-Control-Allow-Credentials: true
Access-Control-Expose-Headers: FooBar
Content-Type: text/html; charset=utf-8
Access-Control-Allow-Origin:参数是必须的,他的值要么是Origin字段的值,要么是*,表示接受任意域名的请求。
Access-Control-Allow-Credentials:参数是可选的,表示的是是否发送cookie,默认的情况下Cookie不包含CORS的请求之中,设为true的话,表示服务器的明确许可,cookie可以包含在请求中,一起发给服务器。
Access-Control-Expose-Headers:该字段可选。CORS请求时,XMLHttpRequest对象的。getResponseHeader()方法只能拿到6个基本字段:Cache-Control、Content-Language、Content-Type、Expires、Last-Modified、Pragma。如果想拿到其他字段,就必须在Access-Control-Expose-Headers里面指定。上面的例子指定,getResponseHeader('FooBar')可以返回FooBar字段的值。
注意一下:
这个时候,开发者必须要在AJAX请求中打开withCredentials属性
var xhr = new XMLHttpRequest();
xhr.withCredentials = true;
如果不打开的话,及时是服务器同意发送cookie,浏览器也是不会发送的,或者服务器要求设置Cookie,浏览器也不会进行处理。
需要注意的是,如果要发送Cookie,Access-Control-Allow-Origin就不能设为星号,必须指定明确的、与请求网页一致的域名。同时,Cookie依然遵循同源政策,只有用服务器域名设置的Cookie才会上传,其他域名的Cookie并不会上传,且(跨源)原网页代码中的document.cookie也无法读取服务器域名下的Cookie。
非简单的请求
预检请求:浏览器先询问服务器,当前网页所在的域名是否在服务器的许可名单之中,以及可以使用哪些HTTP动词和头信息字段。只有得到肯定答复,浏览器才会发出正式的XMLHttpRequest请求,否则就报错。也就是说,我们会在正式的通信之前,会增加一个HTTP的查询请求。
让我们look一下浏览器的JavaScript脚本:
var url = 'http://api.alice.com/cors';
var xhr = new XMLHttpRequest();
xhr.open('PUT', url, true); //put请求
xhr.setRequestHeader('X-Custom-Header', 'value'); //发送X-Custom-Header自定义头信息
xhr.send();
看一下预检请求的HTTP头信息:
OPTIONS /cors HTTP/1.1 //预检的请求方法
Origin: http://api.bob.com //表示请求的是哪一个源
Access-Control-Request-Method: PUT //字段是必须的,用来列出浏览器的CORS请求会用到哪些HTTP方法
Access-Control-Request-Headers: X-Custom-Header //该字段是一个逗号分隔的字符串,指定浏览器CORS请求会额外发送的头信息字段
Host: api.alice.com
Accept-Language: en-US
Connection: keep-alive
User-Agent: Mozilla/5.0...
预检请求得回应:
HTTP/1.1 200 OK
Date: Mon, 01 Dec 2008 01:15:39 GMT
Server: Apache/2.0.61 (Unix)
Access-Control-Allow-Origin: http://api.bob.com //表示http://api.bob.com可以请求数据。该字段也可以设为星号,表示同意任意跨源请求。
Access-Control-Allow-Methods: GET, POST, PUT
Access-Control-Allow-Headers: X-Custom-Header
Content-Type: text/html; charset=utf-8
Content-Encoding: gzip
Content-Length: 0
Keep-Alive: timeout=2, max=100
Connection: Keep-Alive
Content-Type: text/plain
服务器回应的其他的CORS相关字段:
Access-Control-Allow-Methods: GET, POST, PUT
Access-Control-Allow-Headers: X-Custom-Header
Access-Control-Allow-Credentials: true
Access-Control-Max-Age: 1728000
Access-Control-Allow-Methods:该字段必需,它的值是逗号分隔的一个字符串,表明服务器支持的所有跨域请求的方法。注意,返回的是所有支持的方法,而不单是浏览器请求的那个方法。这是为了避免多次"预检"请求。
Access-Control-Allow-Headers:如果浏览器请求包括Access-Control-Request-Headers字段,则Access-Control-Allow-Headers字段是必需的。它也是一个逗号分隔的字符串,表明服务器支持的所有头信息字段,不限于浏览器在"预检"中请求的字段。
Access-Control-Max-Age:该字段可选,用来指定本次预检请求的有效期,单位为秒。上面结果中,有效期是20天(1728000秒),即允许缓存该条回应1728000秒(即20天),在此期间,不用发出另一条预检请求。
一旦服务器通过了"预检"请求,以后每次浏览器正常的CORS请求,就都跟简单请求一样,会有一个Origin头信息字段。服务器的回应,也都会有一个Access-Control-Allow-Origin头信息字段。
预检结束之后,浏览器的正常CORS请求。
PUT /cors HTTP/1.1
Origin: http://api.bob.com
Host: api.alice.com
X-Custom-Header: value
Accept-Language: en-US
Connection: keep-alive
User-Agent: Mozilla/5.0...
服务器的正常回应:
Access-Control-Allow-Origin: http://api.bob.com
Content-Type: text/html; charset=utf-8
本文参考了跨域CORS原理及调用具体示例