iOS计算字符串的对应字节数
本文展示在iOS下,如何正确的计算输入的字符个数。
常见编码
汉字、中文符号
UTF-8编码下,一个汉字,包括中文符号标点,占3个字节。
GBK、GB2312编码下,是2个字节。
emoji表情
无论是UTF-8,还是GBK、GB2312,emoji表情都是占用4个字节。
iOS的设备编码
iOS的设备,基本上都是使用UTF-8编码,所以一个汉字是3个字节。
现状
通常情况下,数据库的存储,会使用UTF-8编码。
而我们在编程时,会把一个汉字认为是2个字节。
结论
因此,我们需要使用GBK的编码,去判断用户输入的字符个数,以作限制。
1、获取GBK编码
NSStringEncoding encoding = CFStringConvertEncodingToNSStringEncoding(kCFStringEncodingGB_18030_2000);
2、使用GBK编码作为 cStringUsingEncoding
方法的编译,来获取字符串的cString首个字符指针。
3、使用 lengthOfBytesUsingEncoding
获取字节长度,然后遍历,由此计算出所有字符长度。
代码示例
将以下代码放入NSString的category
- (NSUInteger)charactorNumber
{
NSStringEncoding encoding = CFStringConvertEncodingToNSStringEncoding(kCFStringEncodingGB_18030_2000);
return [self charactorNumberWithEncoding:encoding];
}
- (NSUInteger)charactorNumberWithEncoding:(NSStringEncoding)encoding
{
NSUInteger strLength = 0;
char *p = (char *)[self cStringUsingEncoding:encoding];
NSUInteger lengthOfBytes = [self lengthOfBytesUsingEncoding:encoding];
for (int i = 0; i < lengthOfBytes; i++) {
if (*p) {
p++;
strLength++;
}
else {
p++;
}
}
return strLength;
}