NSData:(官方文档描述:A byte buffer in memory)。
遵循NSCopying NSCoding协议,它提供面向对象的数组存储为字节 , 适用与读写文件,而读写文件的时候需要一个缓冲区,而NSData就提供了这么一个缓存区 。
什么鬼,太书面了,还是看不懂,那我们就从最基本的NSString -> NSData一探究竟!
一.首先介绍几个编码表/字符集
1). ASCII码表
(American Standard Code for Information Interchange,美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统,并等同于国际标准ISO/IEC 646。
2).Unicode码
Unicode只有一个字符集,中、日、韩的三种文字占用了Unicode中0x3000到0x9FFF的部分 Unicode目前普遍采用的是UCS-2,它用两个字节来编码一个字符,包括英文字符, 比如汉字"经"的编码是0x7ECF,注意字符码一般用十六进制来 表示,为了与十进制区分,十六进制以0x开头,0x7ECF转换成十进制 就是32463,UCS-2用两个字节来编码字符,两个字节就是16位二进制, 2的16次方等于65536,所以UCS-2最多能编码65536个字符。 编码从0到127的字符与ASCII编码的字符一样,比如字母"a"的Unicode 编码是0x0061,十进制是97,而"a"的ASCII编码是0x61,十进制也是97, 对于汉字的编码,事实上Unicode对汉字支持不怎么好,这也是没办法的, 简体和繁体总共有六七万个汉字,而UCS-2最多能表示65536个,才六万 多个,所以Unicode只能排除一些几乎不用的汉字,好在常用的简体汉字 也不过七千多个,为了能表示所有汉字,Unicode也有UCS-4规范,就是用 4个字节来编码字符。目前,在网络、Windows系统和很多大型软件中得到应用。
3).UTF-8
(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码。由KenThompson于1992年创建。现在已经标准化为RFC3629。UTF-8用1到6个字节编码Unicode字符。用在网页上可以统一页面显示中文简体繁体及其它语言(如英文,日文,韩文)。但是,Unicode支持欧洲、非洲、中东、亚洲(包括统一标准的东亚象形汉字和韩国表音文字, Unicode并没有提供对诸如Braille,Cherokee, Ethiopic, Khmer, Mongolian, Hmong, Tai Lu, Tai Mau文字的支持。同时它也不支持如Ahom, Akkadian, Aramaic,BabylonianCuneiform, Balti, Brahmi, Etruscan, Hittite, Javanese, Numidian, Old Persian Cuneiform, Syrian之类的古老文字。UTF-8一般用三个字节来编码一个汉字,一个字节来编码英文
简单理解: ASCII码是基础,Unicode和UTF-8是扩展, 且UTF-8覆盖面更广。
二.上代码讲解
1.NSString ->NSData
NSString *testString = @"123我经";
NSData *testData = [testString dataUsingEncoding: NSUTF8StringEncoding];
NSLog(@"-testData:%@--%ld", testData, testData.length);
日志输出:<313233e6 8891e7bb 8f>-长度:9
分析:
依照上面介绍的码表,单字符1,2,3在utf-8编码占1个字节,汉字字符utf-8编码占3个字节,那么刚好长度为9个字节。
那<313233e6 8891e7bb 8f>这些是什么东西,那我们继续执行以下代码
Byte *testByte = (Byte *)[testData bytes];
for(int i=0;i<[testData length];i++){
printf("testByte = %d\n----%ld",testByte[i], sizeof(testByte[i]));
}
输出日志:
--1--testByte = 49
--1--testByte = 50
--1--testByte = 51
--1--testByte = 230
--1--testByte = 136
--1--testByte = 145
--1--testByte = 231
--1--testByte = 187
--1--testByte = 143
根据ACSII码表可以发现上面打印出来的就是10进制的字符 1,2,3; 再看刚刚打印的NSData *testData <313233e6 8891e7bb 8f>不难看出,31,32,33其实就是字符1,2,3的16进制表示形式。
所以得出结论:NSData里面存的数据就是字节流,4个字节会有一个空格,但是并不是按10进制存的,是转为了16进制。
扩展:
刚刚打印*testByte时,该指针指向的是存字节Byte的数组,
Byte:是计算机信息技术用于计量存储容量的一种计量单位,范围 0~255(10进制),其实就是unsigned char(无符号字符类型)。转换如下:typedef unsigned char UInt8;
typedef UInt8 Byte;
那后面的汉字 “我经”通过找一个utf-8的解码工具看看:
看到了吧:-testData:<313233e6 8891e7bb 8f>是不是与上图刚好吻合。
到此已经把NSString转NSData的过程讲完了,我们改一下代码,使用unicode编码尝试看看。