引言
首先说明一下,文章的标题本身就是有问题的,千万不要试着对整个URL进行编码。因为scheme、host、path、query有着不同的编码规则,对应着不同的合法字符集。对于保留字符是否以非保留字符的形式出现,比如query部分中的“=”,不同的出现形式也代表着不同的含义,以保留字符形式(=)出现,用于分隔key和value,以非保留字符形式(%3d)出现,含义由生成URL的用户决定。原则是谁生成URL谁来进行编码。但是实际应用中存在对整个URL进行编码的使用场景。
基础知识
URL中可以出现的字符是ASCII字符集中可视的那些,而在这些可视的字符中,有一些是当做保留字符使用的,用于分隔URL的各个组成部分,而剩下的这些非保留字符中,有一些字符因为在不同的系统上有着不同的解码规则,不能直接出现,被称为不安全字符,具体分类如下:
- 不安全字符(15个,包含空格): "<>#%{}|^~[]`
- 保留字符(18个):: /?#[]@!$&'()*+,;=
-非保留字符(66个):a-z A-Z 0-9 -_.~
对于URL中出现的这些不安全字符、保留字符被当做非保留字符、非ASCII字符,都需要对其进行编码。URL编码也被称为百分号编码,首先对对应字符进行UTF8编码,编码出来一个字节流,在分别用百分号加上各个字节的十六进制表示。
应用背景
大家应该都使用过NSURL,使用NSURL的时候需要对传入的URL字符串进行编码,否则就不能正确初始化NSURL。而对URL字符串进行编码,大部分同学使用的应该都是如下的方法,或者说曾经使用过下面的方法:
NSString *str = @"https://www.baidu.com?keywork=测试";
[str stringByAddingPercentEscapesUsingEncoding:NSUTF8StringEncoding];
对于上面的例子,URL字符串确实能够进行正确地编码。但有时候要处理的URL字符串可能是来自网络上的,对于URL是否已经编码我们无法得知。如果URL已经正确编码过了,而我们再次对其进行编码,也是有问题的。尤其是对query中出现的保留字符,究竟URL生成者的本意是把它当作保留字符使用,还是把它当作非保留字符使用,我们更是无法得知。因此我们可以得出这样一个结论:URL的使用者无法对其进行正确编码。也大概是因为这个原因吧,苹果把上面的API给废弃了,并且推出了新的替代API,让我们分别对URL的各部分分别进行编码,把具体编码的细节交给了我们:
- (nullable NSString *)stringByAddingPercentEncodingWithAllowedCharacters:(NSCharacterSet *)allowedCharacters;
对整个URL进行编码
对于初次看到这个API时,我是觉得有些不知所措的,不知道该如何使用这个API。很显然,要想正确地使用这个API,背后需要正确的理论支撑。通过第二部分的基础知识介绍,我们基本上可以判断出一个合法的URL中所包含的字符,18个保留字符、66个非保留字符以及百分号。之所以包含了百分号,是因为正确编码后的URL是包含百分号的。因此我们假定使用的URL是已经正确编码过的,作为一种补救措施,即万一URL中还有非法字符,比如说中文,我们再对URL进行一次编码检测,如果URL已经正确编码,该操作没有任何效果,否则会对其中的非法字符进行编码。该操作如下所示:
[URL stringByAddingPercentEncodingWithAllowedCharacters:[NSCharacterSet characterSetWithCharactersInString:@":/?#[]@!$&'()*+,;=ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789-_.~%"]];
通过上面的操作,我们基本上可以对日常出现的大部分URL进行正确编码,即使URL没有被编码,比如本文第三部分中所举的那个例子。
对query中键值对中的值进行编码
当我们生成一个URL时,我们所需要进行编码的部分,大多数情况下都是query中“key=value”表达式的value部分。对于这部分而言,不能出现的字符是,14个不安全字符(去掉非保留字符中的“~”)以及18个保留字符,去掉它们重复的,总共29个字符。对应的操作如下:
[value stringByAddingPercentEncodingWithAllowedCharacters:[NSCharacterSet characterSetWithCharactersInString:@"?!@#$^&%*+,:;='\"`<>()[]{}/\\| "].invertedSet];
结束语
只有踩过坑,才会真正明白URL编码是一件多么复杂的事情,希望本文可以帮助大家。