原创文章转载请注明出处,谢谢
URL语法
URL提供了一种特定定位因特网上任意资源的手段,但这些资源是可以通过各种不同的Scheme来访问,因此URL语法会随着方案的不同而有所不同。
URL的通用格式如下:
<scheme>://<user>:<password>@<host>:<port>/<path>;<params>?<query>#<frag>
以下就是这个9个通用URL组件的定义
Scheme(方案)
scheme组件必须以一个字母符号开始,由第一个":"将其与URL的其余部分分隔开。
scheme是不区分大小写的。
常用的包括Http,FTP,SMTP,Https。
Host(主机) && Port(端口)
Host标识了资源宿主服务器的主机名或分IP地址。
Port标识了资源宿主服务器正在监听的端口号。
User(用户名) && Password(密码)
某些方案访问资源时需要User,User后面可能要包含的Password,中间由冒号(:)分隔。
Path(路径)
服务器上资源的本地名,由一个斜杠(/)将其与前面的URL组件分隔开来。路径组件的语法是与服务器和方案有关的。
Params(参数)
某些方案会用这个组件来指定输入参数。参数为名/值对。URL中可以包含多个参数字段,它们相互之间以及与路径的其余部分之间用分号(;)分隔。
Query(查询)
某些方案会用这个组件传递参数以激活应用程序(比如数据库、公告板、搜索引擎以及其他因特网网关)。查询组件的内容没有通用格式。用字符“?”将其与URL的其余部分分隔开来,名/值对的形式中间都是以&分隔开。
Frag(片段)
一小片或一部分资源的名字。引用对象时,不会将frag字段传送给服务器;这个字段是在客户端内部使用的。通过字符“#”将其与URL的其余部分分隔开来。用来指定资源中的章节,直接跳转。
URL快捷方式
URL有两种方式:绝对的和相对的。相对URL是不完整的。要从相对URL中获取访问资源所需的全部信息,就必须相对于另一个,被称为其基础(base)的URL进行解析。对于相对URL是有相应的算法进行补全的。有些浏览器在用户输入URL之后会进行“自动扩展”。关于“自动扩展”的特性包括主机名扩展和历史扩展两种。
基础URL可以来自下面几个地方:
- 相对路径需要用基础URL进行补完,有些时候有些资源会显示的指定基础URL,如在HTML页面中指定<BASE>,通过它来转换这个页面的相对路径。
- 如果没有显示的制定基础URL的话,那么会以当前的页面的位置作为基础URL进行相对路径补完。
URL的字符
如上面所说的,URL是可以再各种协议中使用的,也就是说无论任何协议都可以准确安全的传送到目的地,者流就有个问题了:有些协议会剥去一些特定的字符做专门的用途,可以参考类似于我们在编程中经常遇到的关键字符什么的,而URL既要保证所有协议传输时都不能出问题,又要保证URL对人类来说有可阅读性,而且还有完整性,要求非常非常的多,这时转义机制就华丽丽的诞生了~
URL使用的是US-ASCII,但是这个字符主要针对的是英文,随着互联网的发展,各种类别的语言都有了通过URL传输的需求,而且也有二进制传输的需求等等,为了避开安全字符集带来的限制,人们设计了一种编码机制,用来表示URL中各种不安全的字符,这种转义方法包含了一个百分号(%),后面跟着两个字符ASCII码的十六进制数。
在URL中有几个字符被保留起来有着特殊含义。
URN的定义
URN的目的就是无论对象搬到什么地方(在一个Web服务器内或者是不同的Web服务器),URN都可以为对象提供一个稳定的名称。基本的思想就是在搜索资源的过程中引入另一个中间层,通过一个中间资源定位符服务器对资源的实际URL进行登记和跟踪。客户端可以向定位符请求一个永久的URL,定位符可以以一个资源作为响应,将客户端重定向到资源当前实际的URL上去。