原文链接:《Advanced Swift》笔记:Swift字符串长度
var str = "Pokémon"
var nsstr = str as NSString
str.characters.count // 7
nsstr.length // 8
如上,同样一个字符串,在String和NSString下,它的长度却不一样。因为Unicode编码是一种可变长格式。Unicode字符串是由编码点(code point)组成,而编码点又是由编码单元(code unit)组成。而在不同的编码标准下,同一个字符串,可能会有不同的编码方式。Swift中的String内心实现尽量符合“标准等价”的编码规范,使我们更准确的处理字符长度。
在OC的NSString
中,我们常用length
方法来获取字符串的长度,而在Swift的String
中,没有了length
方法,我们通常是使用characters.count
来获取字符长度,如下:
var str = "Hello, playground"
var nsstr = str as NSString
str.characters.count // 17
nsstr.length // 17
以上两种方法得出的字符串长度都是17,从代码运行的结果看起来是很正确的,然而事实上真的如此吗,我们再来看一组代码:
var str = "Pokémon"
var nsstr = str as NSString
str.characters.count // 7
nsstr.length // 8
我们把字符串换成了Pokémon
,结果nsstr.length方法计算出的字符串长度为8,而str.characters.count计算出来的是7,很明显后者得出的长度是正确的。
那么为什么会出现何种情况呢,因为我们今天使用的字符串都是使用Unicode编码的,它是一种可变长格式。Unicode字符串是由编码点(code point)组成,而编码点又是由编码单元(code unit)组成。而在不同的编码标准下,一个编码点占用的编码单元是不同的,比如对于UTF-32,一个编码点会占用一个编码单元,而对于UTF-8,一个编码点则会占用一至四个编码单元。
同一个字符串,可能会有不同的编码生产方式,但不管采用何种编码方式,同一个字符串最终应该是彼此相等,且含有相等字符数的,Unicode规范将此称作“标准等价”(canonically equivalent)
比如字符é
,我们可以通过单一的编码u{00E9}
来生成,也可以试用组合编码的方式,即在字母e
后面加上一个组合尖音符,u{0065}+u{0301}
,比如下面两个字符串都是Pokémon
,虽然它们采用不同的编码方式,当它们的最终结果应该是等价的。
let single = "Pok\u{00E9}mon" // "Pokémon"
let double = "Pok\u{0065}\u{0301}mon" // "Pokémon"
single == double // true
single.characters.count // 7
double.characters.count // 7
Swift的字符串实现是在尽量符合Unicode这种标准等价规范。在Swift中,String不是一个集合,而是提供了多种方式来查看字符串的类型,它可以编码任意数量的编码点,将他们合在一起可以组成单个字位簇
(grapheme cluster)。
而NSString类型则不会考虑不同字符组合起来的等价性,它只会按字面值进行计算和比较,因此将上面代码的字符串换成NSString类型,结果就不一样了:
let nssingle = single as NSString
let nsdouble = double as NSString
nssingle.length // 7
nsdouble.length // 8
nssingle == nsdouble // false
如果要对NSString的字符串进行准确的比较,应该使用compare
方法。