《Advanced Swift》笔记：Swift字符串长度


var str = "Pokémon"
var nsstr = str as NSString
str.characters.count  // 7
nsstr.length             // 8

如上，同样一个字符串，在String和NSString下，它的长度却不一样。因为Unicode编码是一种可变长格式。Unicode字符串是由编码点（code point）组成，而编码点又是由编码单元（code unit）组成。而在不同的编码标准下，同一个字符串，可能会有不同的编码方式。Swift中的String内心实现尽量符合“标准等价”的编码规范，使我们更准确的处理字符长度。

在OC的NSString中，我们常用length方法来获取字符串的长度，而在Swift的String中，没有了length方法，我们通常是使用characters.count来获取字符长度，如下：


var str = "Hello, playground"
var nsstr = str as NSString
str.characters.count // 17
nsstr.length  // 17

以上两种方法得出的字符串长度都是17，从代码运行的结果看起来是很正确的，然而事实上真的如此吗，我们再来看一组代码：


var str = "Pokémon"
var nsstr = str as NSString
str.characters.count  // 7
nsstr.length             // 8

我们把字符串换成了Pokémon，结果nsstr.length方法计算出的字符串长度为8，而str.characters.count计算出来的是7，很明显后者得出的长度是正确的。

那么为什么会出现何种情况呢，因为我们今天使用的字符串都是使用Unicode编码的，它是一种可变长格式。Unicode字符串是由编码点（code point）组成，而编码点又是由编码单元（code unit）组成。而在不同的编码标准下，一个编码点占用的编码单元是不同的，比如对于UTF-32，一个编码点会占用一个编码单元，而对于UTF-8，一个编码点则会占用一至四个编码单元。

同一个字符串，可能会有不同的编码生产方式，但不管采用何种编码方式，同一个字符串最终应该是彼此相等，且含有相等字符数的，Unicode规范将此称作“标准等价”（canonically equivalent）

比如字符é，我们可以通过单一的编码u{00E9}来生成，也可以试用组合编码的方式，即在字母e后面加上一个组合尖音符，u{0065}+u{0301}，比如下面两个字符串都是Pokémon，虽然它们采用不同的编码方式，当它们的最终结果应该是等价的。


let single = "Pok\u{00E9}mon"  // "Pokémon"
let double = "Pok\u{0065}\u{0301}mon" // "Pokémon"

single == double   // true
single.characters.count // 7
double.characters.count // 7

Swift的字符串实现是在尽量符合Unicode这种标准等价规范。在Swift中，String不是一个集合，而是提供了多种方式来查看字符串的类型，它可以编码任意数量的编码点，将他们合在一起可以组成单个字位簇（grapheme cluster）。

而NSString类型则不会考虑不同字符组合起来的等价性，它只会按字面值进行计算和比较，因此将上面代码的字符串换成NSString类型，结果就不一样了：


let nssingle = single as NSString
let nsdouble = double as NSString

nssingle.length // 7
nsdouble.length // 8

nssingle == nsdouble  // false

如果要对NSString的字符串进行准确的比较，应该使用compare方法。

最后编辑于：2017.12.04 04:22:00

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

《Advanced Swift》笔记：Swift字符串长度

《Advanced Swift》笔记：Swift字符串长度

相关阅读更多精彩内容

友情链接更多精彩内容