浅谈iOS开发中多语言的字符串排序

一、前言

在iOS开发中,一个经常的场景是利用tableview展示一组数据,以很多首歌曲为例子。为了便于查找,一般会把这些歌曲按照一定的顺序排列,还会加上索引条以便于快速定位。
由于歌曲名可能有数字、中文、英文、韩文、日文等,要处理多语言文字的排序,有两个问题

  1. 对歌曲名进行排序时的规则是什么呢?知道了规则以后,应该调用哪个函数呢?
  2. 如何获取每一首歌名的索引项呢?

二、多语言排序的规则

Objective C 中字符串使用NSString这个类表示,每一个NSString其实就是若干UTF–16 code unit排列起来。而UTF-16其实是Unicode这个组织指定的一种编码方法,那么Unicode有没有指定一个通用的排序方法呢?通过搜索,找到了这篇文档

This report is the specification of the Unicode Collation Algorithm (UCA), which details how to compare two Unicode strings while remaining conformant to the requirements of the Unicode Standard. The UCA also supplies the Default Unicode Collation Element Table (DUCET) as the data specifying the default collation order for all Unicode characters.

也就是说Unicode通过文档指定了Unicode字符—也是iOS处理字符串的方式—排序的规则。
其中提到指定不同的语言或地区 (different languages or locales),最终排列的顺序也会不一样。

三、系统提供的字符串排序函数

Localized string comparisons are based on the Unicode Collation Algorithm, as tailored for different languages by CLDR (Common Locale Data Repository).

根据文档,系统已经帮我们实现了Unicode指定的排序算法,不过需要我们指定一个语言或地区。
系统为NSString提供了两个函数- compare:,以及更加参数化的函数- compare:options:range:locale:
第一个函数会调用第二个函数,传入一些默认参数值。其中locale参数会传入nil
我们以一个例子比较一下这两个函数比较多语言字符串时的区别。

- (void)testExample
{
    NSArray *rawArray = @[@"右手",@"边城",@"重庆",@"区别",@"重要",@"行伍",@"区别",@"行走",@"nia",@"niz",@"a",@"z",@"32",@"laLa",@"la La",@"la{La",@"la<La",@"la3La"];
    [SortString defaultSort:rawArray];
    [SortString localSort:rawArray];
}

+ (void)defaultSort:(NSArray<NSString*> *)stringsToSort
{
    
    NSArray *sortedArray = [stringsToSort sortedArrayUsingComparator:^NSComparisonResult(NSString *  _Nonnull obj1, NSString *  _Nonnull obj2) {
        return [obj1 compare:obj2 options:NSCaseInsensitiveSearch];
    }];
    NSLog(@"after %@ , result is %@",NSStringFromSelector(_cmd),sortedArray);
}

+ (void)localSort:(NSArray<NSString*> *)stringsToSort
{
    NSLocale *locale=[[NSLocale alloc] initWithLocaleIdentifier:@"zh_CN"];
    NSArray *sortedArray = [stringsToSort sortedArrayUsingComparator:^NSComparisonResult(NSString *  _Nonnull obj1, NSString *  _Nonnull obj2) {
        NSRange string1Range = NSMakeRange(0, [obj1 length]);
        return [obj1 compare:obj2 options:0 range:string1Range locale:locale];
    }];
    NSLog(@"after %@ , result is %@",NSStringFromSelector(_cmd),sortedArray);
}

结果如下

2017-01-23 20:14:22.318 testStringSort[40716:4054566] after defaultSort: , result is (32,a,la La,la3La,la<La,laLa,la{La,nia,niz,z,区别,区别,右手,行伍,行走,边城,重庆,重要,)
2017-01-23 20:14:22.319 testStringSort[40716:4054566] after localSort: , result is (32,边城,重庆,区别,区别,行伍,行走,右手,重要,a,la La,la{La,la<La,la3La,laLa,nia,niz,z,)

有几个不同之处

  1. 数字、英文、中文顺序不同
    默认的是数字、英文、中文。指定地区信息的顺序是数字、中文、英文,这符合我们的一般顺序,和苹果自带的通讯录软件也相同。
    默认是数字、英文、中文的顺序是因为在Unicode的编码中,数字在英文前面,英文又在中文前面。

  2. “边城”、“右手”这两个字符串顺序不同
    默认的排序方法,顺序是“右手”、“边城”。指定地区信息的顺序是“边城”、“右手”,和汉语拼音的顺序一致。
    由于“右”的Unicode编码是U+53F3,“边”的Unicode编码是U+8FB9,比U+53F3大,所以被排到了“右”的后面。实际上,常用的汉字编码都在Unicode的基本多语言平面 (Basic Multilingual Plane) 上,而这些汉字的编码顺序是按照部首排序的,而不是拼音顺序。因此使用默认的排序方法会很混乱。

  3. 汉语多音字处理

    1. 识别成功的例子:“重 (chóng) 庆”、“重 (zhòng)要”
      指定地区信息以后,成功的把“右手”放在了“重庆”、“重要”之间。
    2. 识别失败的例子:“行 (háng) 伍”、“行 (xíng) 走”
      区 (qū) 别、行 (háng) 伍、行 (xíng) 走,显然是不符合汉语拼音顺序的。

    可见对于某些多音字,指定了地区信息以后,系统甚至可以识别成功!对于另一些,系统还做不能识别成功。

  4. 特殊字符的顺序不同
    按照ASCII码,空格、数字、< 、大写字母、{ 依次递增,默认排序方法的结果也印证了这一点。
    指定了地区信息以后,排序结果是空格、{ 、< 、数字、大写字母,有了一定变化。

从上面结果可以看出,排序时不要用默认的比较方法,要用指定了地区的排序方法。

其他函数

系统提供了一个函数- localizedStandardCompare:,根据注释,其排序结果和Finder一样,根据需要,也可选择这个函数。

This method should be used whenever file names or other strings are presented in lists and tables where Finder-like sorting is appropriate. The exact sorting behavior of this method is different under different locales and may be changed in future releases. This method uses the current locale.

三、获取字符串的索引项

系统专门提供了一个类UILocalizedIndexedCollation来帮助我们完成这项工作。

The UILocalizedIndexedCollation class is a convenience for organizing, sorting, and localizing the data for a table view that has a section index.

此外,苹果还提供了一个例子,解释了UILocalizedIndexedCollation的用法。

四、另一个常用却有问题的方法

网上的另一个方法是把BMP中的汉字的拼音首字母全部列出来,以数组方式存储。得到汉字以后,把对应的Unicode值减去第一个汉字的Unicode值,得到一个值,把这个值作为下标,从数组中取得对应的拼音首字母。
这么做有几个缺点

  1. 汉字不仅分布在BMP,也分布在扩展平面,这个方法无法处理扩展平面的汉字。扩展平面的汉字虽然不常用,但总有用到的可能。
  2. 当拼音首字母相同时,无法处理两个字的顺序。
    比如汉字"你"和汉字"您"的拼音首字母都是“n”,这个方法就只能按照Unicode编码顺序排列了,在BMP中,也就是部首序。

五、总结

既然系统提供了方法,我们最好还是按照系统的方法来实现好了。

  1. 指定地区,让系统处理多语言字符串的排序工作。
  2. 利用UILocalizedIndexedCollation类,获取字符的索引。

六、参考

  1. NSString 与 Unicode
  2. Objective-C 中文 按拼音全排序
  3. UNICODE COLLATION ALGORITHM
  4. Internationalizing Your Code
  5. Language and Locale IDs
  6. UILocalizedIndexedCollation
  7. UITableView Fundamentals for iOS
  8. YUChineseSorting
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,076评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,658评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,732评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,493评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,591评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,598评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,601评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,348评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,797评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,114评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,278评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,953评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,585评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,202评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,442评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,180评论 2 367
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,139评论 2 352

推荐阅读更多精彩内容