URL编码

URL的架构

<scheme>://<username>:<password>@<host>:<port>/<parameters>?<query>#<fragment>
<模式> ://<用户名>:<密码>@<主机地址>:<端口>/<路径>;<参数>?<查询>#<信息片断>

模式

通常是指用来访问URL所标明地址的资源的协议.
如果一个模式向IANA注册过,那么它就是官方的(如HTTP,FTP)
但也有非官方的(未注册)的模式在普遍使用,(如SFTP,svn)
scheme: 为一部分,//不属于分隔符的一部分,是URL下一部分的开始.

{ .....//<用户名>:<密码>@<主机地址>:<端口>...}

构成了URL的权限控制部分

只提供用户名
ftp://some_user@code.google.com/
提供用户名和密码
ftp://some_user:password@code.google.com/
如果你不提供用户名和密码,而你试图访问的URL要求你提供,那么应用程序(如:浏览器)将提供一些默认值.

主机

主机地址可以是域名或IP地址,正如我们所知,域名会解析成IP地址(通过DNS查找)以确定我们正在尝试访问
的机器的地址.

端口

它告诉我们,我们连接到机器上的指定应用正在监听什么网络端口,如果省略,则使用默认值 ,HTTP的默认为80

路径

以 / 作为前缀从URL组成部分中分离.一个路径由一系列的 / 字符分隔的片断组成.
告诉我们资源在服务器上的位置,每个路径片断都可以包含参数,以 ; 号与路径片断隔开,如:
http://www.soon.com/aaa;para1=xxx/bbb;para2=yyy/my.html
这样的URL是完全有效的.

参数

它们可以出现在路径之后,查询字符串之前,以 ; 号与URL的其它部分和其它参数隔开,如:
http://www.soon.com/aaa/bbb/ccc/my.html;para1=xyz;para2=abc
它们不是很常见.

查询

它们十分常见.
这是发送一些参数到服务器资源上的首选方式.
这些以 关键字=值 的查询对以?号与URL的其它部分隔开,并且以&符号与其它的 [查询对] 分开.使用 ; 号将 [查询对] 分开也是合法的.

http://www.soon.com/bbs/about.html?para1=ok&para2=yes 等价于
http://www.soon.com/bbs/about.html?para1=ok;para2=yes

信息片断

这是一个URL的可选部分,用于描述资源的一个特定部分.我们通常看到它们用于链接到HTML文档中的特定部分.信息片断以#号与URL的其它部分隔开.当从服务器请求一个以URL寻址的资源时,客户端通常不会发送信息片断到服务器(至少HTTP协议不会).一旦客户端获取资源,它将使用信息片断处理有关部分.

-------------------------- 上面是URL的九大部分 -----------------------------

URL该如何进行正确的编码?哪些字符可以在URL中安全的使用?
哪些字符不能使用?

URL的特殊字符

当几种特定的字符集合出现在URL中时,你必须特别注意:

首先,在URL中有特殊意义的字符,也就是保留字符:
; / ? : @ & = + $ , {10个}
这意味着,这些字符通常在URL中使用时,是有特殊含义的(如 ":"把每一个部分分隔开来),如果一个URL的某一部分(如查询参数的一部分)可能包含这些字符之一,则应该在放入URL之前对其进行转义处理.
第二组需要注意的字符集是非保留字符集.如下:
- _ . ! ~ * ' ( ) {9个}
这些字符可以被用于URL的任何位置(有些地方,不允许它们出现.使用它们作为URL的一部分时,你不需要进行编码/转义处理.你可以对它们进行转义操作且不影响URL的语义,但不建议这么做.
第三组 不推荐字符 也就是避用字符集合使用它们是不明智的:
{ } | \ ^ [ ] `::数字1键前:: {8个}
不明智的原因:网关有时会修改这样的字符,或者将其作为分隔符使用.这并不意味着网关总会修改这些字符,但这种情况可能发生.如果真是要使用这些字符,请做转义处理.
第四组 例外字符集
这组字符集是所有的ASCII控制字符组成.包含空格字符以下列字符:
< > # % " {5 个}
控制字符是不可打印的US-ASCII字符(十六进制00~1F及7F)
如果使用,请转义处理.有些字符#(哈希)和%(百分比)在URL上下文中有着特殊含义,你可以把它们当作保留字符对待.这个集合中的其它字符无法被打印,因此对它们进行转义是唯一的表示方式, < > " 这三个字符需要被转义,因为这些字符通常用来在文本中分隔URL

编码/转义

通常将它的ASCII十六进制值加上一个%字符.
如空格字符的URL编码是 %20
%字符本身被编码为%25

这就是你所需要知道的所有URL的特殊字符,当然,从这些字符外,英文字母
和数字是可以直接使用而不需要进行编码的:)

!!! 必须记住
URL应该始终保持其编码形式.只有当你要拆分URL的时候,才应该对其进行
解码.每个URL部分,都必须分别进行编码.
应该避免重复编码/解码一个URL.如果你编码一个URL一次,但解码两次,而
这个URL包含%字符,那么你将破坏掉你的URL
可以查看 RFC 2396 中的定义

绝对URL和相对URL

如果一个URL包含scheme部分的话(如http),那它就可以被看做绝对URL.
但相对URL就有点复杂了.
相对URL永远是代表着相对于另外一个URL而言的,其它的URL被称为base URL.
将相对URL变成绝对URL的形式,我们首先要了解它的base URL,接着把它跟相
对URL的语法结合之后就得到绝对URL.
在一个HTML文档中看到的相对URL,在这种情况有两个方法找到它的对应的
base URL.
1,base URL可能由html的<base>标签指出.
2,如果没有指定base标签,那么该html文档的url地址就被视为它的base URL.
一旦我们有了base URL ,我们就可以试着将我们的相对URL转成绝对URL.
首先要将相对URL拆分成单个的结构(scheme,authority(host,post),path,query
string,fragment)
拆解完成后,有几个地方需要注意,因为它们可能说明我们转换的相对URL不一定对.
1,如果没有[scheme][authority]或[path],那么这个相对URL是base URL的
一个引用.
2,如果有[scheme],那么这个相对URL其实是绝对URL,所以用绝对URL的方式处理.
3,如果没有[scheme],但是有[authority(host,post)],那么我们相对URL可能是网路位址那么我们根据base URL的[模式]并且把它跟相对URL用://结合起来.
4,如果没有上述的这些特殊情形,那我们得到的则是一个完全的相对URL.现在我们需要根据如下的程序进行处理.
5,我们从base URL继承它的scheme以及authority(host,post).
6,如果相对URL开头是一个/,那么它是一个绝对路径,我们可以通过继承得到的authoruity和host,用适当的分隔号产生绝对url
7,如果相对URL的开头不是一个/,那我们把base URL中/以后的东西都移除.然后把我们相对URL加上去得到最后的路径,再根据前面的几个字符对相对URL做一点小处理.
8,如果最后的路径包含./  
我们直接把它去掉(这代表我们的相对URL由./开始,就像./blah.html)
9,如果最后的路径包含../  
我们可以去掉它并且把路径上移一个区段,就好像把所有像样的路径组合都去掉"<segment>/../",持续这个过程,直到找不到任何的../这表示我们的相对路径开头是多个../像是../blah.htm或../../blah.html
10,如果路径的结尾是.. ,那就去掉它并且把路径上移一个区段,比如移除""<segment>/../"
这表示我们的相对路径是..
11,如果路径的结尾是.,那就把它去掉,表示我们的相对路径很有可能是.
根据这些规则我们可以简单把相对URL的query或者fragment利用合适的分隔符号
包含到我们的URL中去,这样就将相对URL转换成了绝对URL.

范例:
base: http://www.blah.com/yadda1/yadda2/yadda3?param1=foo#barrelative:rel1
final : http://www.blah.com/yadda1/yadda2/rel1

base: http://www.blah.com/yadda1/yadda2/yadda3?param1=foo#barrelative:/rel1
final : http://www.blah.com/rel1

base: http://www.blah.com/yadda1/yadda2/yadda3?param1=foo#barrelative:../rel1
base: http://www.blah.com/yadda1/rel1

base: http://www.blah.com/yadda1/yadda2/yadda3?param1=foo#barrelative:./rel1?param2=baz#bar2
final: http://www.blah.com/yadda1/yadda2/rel1?param2=baz#bar2

base: http://www.blah.com/yadda1/yadda2/yadda3?param1=foo#barrelative: ..
final : http://www.blah.com/yadda1/

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,142评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,298评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,068评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,081评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,099评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,071评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,990评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,832评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,274评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,488评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,649评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,378评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,979评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,625评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,643评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,545评论 2 352

推荐阅读更多精彩内容