从NSDictionary打印不出中文开始

一直以来,我都被一个问题小小困扰,就是当我在lldb中想要查看一个NSDictionary对象时,其中的中文会显示成\Uxxxx
比如我创建了一个NSDictionary对象:

NSDictionary *dic = @{@"我" : @"哈哈"};

当我在lldb中想要查看它时,我使用了po命令,但是打印出来却是这样:

(lldb) po dic
{
    "\U6211" = "\U54c8\U54c8";
}

虽然单独打印键和值都能显示出正确的中文,也不影响程序的最终执行结果,但是在调试的时候,没法方便直观的看到dic里的数据,还是有点苦恼的。

之前也没怎么在意,不过秉承着(三分钟热度的)新年新气象的决心,打算解决一下这个问题。


解决方案



先说最后找到的一个解决方案:利用chisel中的pjson命令,就可以查看到NSDictionary对象中的中文了(=゚ω゚)ノ。

(lldb) pjson dic
{
  "我" : "哈哈"
}



除此之外,之前还考虑了几种解决办法:

  1. 利用method swizzling替换NSDictionary中的description方法:
    可以参考这篇博客:解决 NSDictionary 输出中文字符乱码(Unicode)问题,但是使用这个方法也有诸多问题,比如需要给每个工程加上这个扩展,替换系统方法存在一定风险。

  2. 在lldb上做手脚:
    我只是希望能在debug的时候让NSDictionary打印中文,并非想改变NSDictionary的实现,所以想到,在lldb上做手脚应该是一个比较合适的方法。
    前两天刚刚装了chisel,感觉在lldb上做手脚的方案应该可行,所以想先研究一下chisel是怎么工作的,然后发现用户其实可以在chisel中自定义命令。

正在我研究chisel源码的时候,突然发现其中居然有个pjson命令(☆_☆),一试,原来正符合我的需要。
虽然这个方法不能在NSLog的时候也正常显示NSDictionary对象中的中文,但是平时debug我基本都使用lldb上的命令,所以这个局限对我来说也没有什么影响。


原理



为什么用pjson就可以正确打印出NSDictionary对象中的中文呢?
先看看chiselpjson命令的实现,在/commands/FBPrintCommands.py中:

def run(self, arguments, options):
    objectToPrint = arguments[0]
    pretty = 1 if options.plain is None else 0
    jsonData = fb.evaluateObjectExpression('[NSJSONSerialization dataWithJSONObject:{} options:{} error:nil]'.format(objectToPrint, pretty))
    jsonString = fb.evaluateExpressionValue('(NSString*)[[NSString alloc] initWithData:{} encoding:4]'.format(jsonData)).GetObjectDescription()
    
    print jsonString

虽然我对Python不太熟,但是大概能明白,在lldb中使用pjson,相当于先将这个NSDictionary对象序列化成NSData对象,然后在转换成NSString对象输出。

试了试用这种方法转换出的字符串,的确可以正确显示中文:

NSDictionary *dic = @{@"我" : @"哈哈"};
NSData *data = [NSJSONSerialization dataWithJSONObject:dic options:NSJSONWritingPrettyPrinted error:nil];
NSString *jsonString = [[NSString alloc] initWithData:data encoding:NSUTF8StringEncoding];
NSLog(@"%@", jsonString);
2015-12-27 15:09:28.012 XSQPJsonNDemo[1796:1977106] {
  "我" : "哈哈"
}

编码



虽然解决了这个问题,但是仍然对编码感觉很困惑。

解决 NSDictionary 输出中文字符乱码(Unicode)问题 中用了将NSString转换成char *再转换回NSString的方法,为什么经过这两次转换就能让中文正确显示了呢?

@implementation NSDictionary (Unicode)
 
- (NSString*)my_description {
    NSString *desc = [self my_description];
    desc = [NSString stringWithCString:[desc cStringUsingEncoding:NSUTF8StringEncoding] encoding:NSNonLossyASCIIStringEncoding];
    return desc;
}
 
@end



什么都不懂@_@,上网补充了一点知识:

  1. \Uxxxx是UTF-16的编码(第一个Unicode平面),比如欧元符(€)的编码为\U20ac
  2. NSString自身使用的是UTF-16:

An NSString object encodes a Unicode-compliant text string, represented as a sequence of UTF–16 code units. All lengths, character indexes, and ranges are expressed in terms of 16-bit platform-endian values, with index values starting at 0.

按照上面转换两次的思路,我写了这样几行代码:

NSString *string = @"\U20ac";
char *cstring = [string cStringUsingEncoding:NSUTF8StringEncoding];
NSString *trans = [[NSString alloc] initWithCString:cstring encoding:NSNonLossyASCIIStringEncoding];

第二行把\U20ac转换成了一个char *,这个char *字符串使用的编码方式是UTF-8,而UTF-8中,英文字母和数字的编码和ASCII一致,故得到的char *是这样的:

|char[0]|char[1]|char[2]|char[3]|char[4]|char[5]|char[6]|
|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|
|''|'U'|'2'|'0'|'a'|'c'|\0|
|0x5c|0x55|0x32|0x30|0x61|0x63|0x00|

第三行中,假装cstring就是一些bit位,将其转化为一个NSString对象,而不进行任何转码。因为NSString本身是使用的是UTF-16,故在它看来,这些bit位组合在一起,得到了@"€"

然后我又想,为什么第二行要选择UTF-8的编码方式呢?直接转成ASCII是不是也可以呢?

NSString *string = @"\\U20ac";
char *cstring = [string cStringUsingEncoding:NSASCIIStringEncoding];
NSString *trans = [[NSString alloc] initWithCString:cstring encoding:NSNonLossyASCIIStringEncoding];

试了一下,这样也能得到正确的结果。但是当一开始的string中包含ASCII以外的字符时,cstring就会为NULL,执行第三行时崩溃。


抛开NSString



如果我只是单纯在写C代码,为什么运行下面这两行代码时,终端可以打印出中文?

char *chinese = "中文";
printf("%s", chinese);

这里面,chinese只是一个字符数组,不包含任何编码信息,为什么最终打印的结果不是乱码呢?

运行到这里的时候,我查看了chinese变量,发现其中存的已经是“中文”二字的UTF-8编码了。是谁定义由“UTF-8”作为编码方式呢?猜测应该是Xcode editor?

想到打印到终端和打印到文件的原理应该类似,如果输出到了文件,那么当我去查看这个文件的时候,这个文件本身有一个编码方式,如果编码方式和文件中的内容不符,则会看到乱码。那终端是不是也应该会有自己的编码方式?还真有。

OSX上的Terminal的“偏好设置”

由于editor和终端都使用UTF-8的编码方式,所以在代码中的“中文”二字,打印到终端后能正确显示。

做了个小实验:

NSString *string = @"€";
char *cstring = [string cStringUsingEncoding:NSMacOSRomanStringEncoding];
printf("%s", cstring);

这里把欧元符转换成了Mac OS Roman的编码方式,存放入cstring这个char *字符串中,然后打印。如果终端为UTF-8编码,则打印出乱码,而换成Mac OS Roman编码后,则能正确打印欧元符。


参考

NSString
chisel
解决 NSDictionary 输出中文字符乱码(Unicode)问题
UTF-16


2016.3.20更新



想来这篇博客讲了这么多如何解决打印不出中文的问题,却依然没有提到,为什么NSDictionary在输出到控制台的时候打印不出中文。

虽然我们不知道NSDictionary究竟是怎么实现description方法的,但是官方文档中好像给出了一点蛛丝马迹:

description
A string that represents the contents of the dictionary, formatted as a property list (read-only)

这里说到了property list。根据property list的文档,它可以被写作三种形式:XML、二进制和ASCII。浏览了一下它们的文档后,感觉ASCII格式与我们看到的、打印出来的NSDictionary迷之相似。且在讲到用ASCII来表示NSString时,文档中提到:

Though the property list format uses ASCII for strings, note that Cocoa uses Unicode. Since string encodings vary from region to region, this representation makes the format fragile. You may see strings containing unreadable sequences of ASCII characters; these are used to represent Unicode characters.

而苹果在一封邮件中,明确的提到了,NSDictionaryNSArray都会打印出“old-style ASCII property list”。虽然这封邮件的时间有点早,且description方法很容易随着iOS版本的升级而改动,但是至少,它还是正面解释了为什么NSDictionary打印不出中文。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,133评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,682评论 3 390
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,784评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,508评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,603评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,607评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,604评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,359评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,805评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,121评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,280评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,959评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,588评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,206评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,442评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,193评论 2 367
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,144评论 2 352

推荐阅读更多精彩内容