Tagged Pointer是内存管理中的一种优化方案,专门用来处理小对象,例如NSNumber、NSDate以及比较简短的NSString等对象。
Tagged Pointer对象示例
以NSString为例,通过几种不同的创建方式,看看什么情况下会被指定为Tagged Pointer小对象。
-(void)testString{
//一、通过@""方式直接创建
NSString *str1 = @"a";
//二、通过WithString方式创建
NSString *str2 = [[NSString alloc] initWithString:@"b"];
NSString *str3 = [NSString stringWithString:@"c"];
//三、通过WithFormat方式创建
//1.字母+数字
//length<=9
NSString *str4 = [[NSString alloc] initWithFormat:@"d12345678"];
NSString *str5 = [NSString stringWithFormat:@"d12345678"];
//length>9
NSString *str6 = [[NSString alloc] initWithFormat:@"m123456789"];
NSString *str7 = [NSString stringWithFormat:@"m123456789"];
//2.汉字
NSString *str8 = [NSString stringWithFormat:@"哈"];
NSLog(@" ==== str1: %p -> %@", str1, [str1 class]);
NSLog(@" ==== str2: %p -> %@", str2, [str2 class]);
NSLog(@" ==== str3: %p -> %@", str3, [str3 class]);
NSLog(@" ==== str4: %p -> %@", str4, [str4 class]);
NSLog(@" ==== str5: %p -> %@", str5, [str5 class]);
NSLog(@" ==== str6: %p -> %@", str6, [str6 class]);
NSLog(@" ==== str7: %p -> %@", str7, [str7 class]);
NSLog(@" ==== str8: %p -> %@", str8, [str8 class]);
}
//打印结果
2020-12-13 22:36:28.558306+0800 内存管理[22620:86657016] ==== str1: 0x10803e0c0 -> __NSCFConstantString
2020-12-13 22:36:28.558500+0800 内存管理[22620:86657016] ==== str2: 0x10803e0e0 -> __NSCFConstantString
2020-12-13 22:36:28.558608+0800 内存管理[22620:86657016] ==== str3: 0x10803e100 -> __NSCFConstantString
2020-12-13 22:36:28.558710+0800 内存管理[22620:86657016] ==== str4: 0xef9db66a4e9a23af -> NSTaggedPointerString
2020-12-13 22:36:28.558841+0800 内存管理[22620:86657016] ==== str5: 0xef9db66a4e9a23af -> NSTaggedPointerString
2020-12-13 22:36:28.558943+0800 内存管理[22620:86657016] ==== str6: 0x60000299be40 -> __NSCFString
2020-12-13 22:36:28.559050+0800 内存管理[22620:86657016] ==== str7: 0x60000299be60 -> __NSCFString
2020-12-13 22:36:28.559136+0800 内存管理[22620:86657016] ==== str8: 0x60000299be80 -> __NSCFString
从打印结果可知,NSString对象的内存管理会存在下面这3种情况:
-
NSCFConstantString:字符串常量,存储在常量区,编译期就会分配好内存,对其操作不会引起引用计数的变化。
使用@""或WithString方式创建的字符串,均属于NSCFConstantString。 -
NSCFString:运行时创建的字符串对象,存储在堆区,通过引起计数来管理。
使用WithFormat方式创建的字符串对象,长度大于9或者包含汉字,均为NSCFString。 -
NSTaggedPointerString:字符串小对象,存储在常量区,不会引起引用计数的变化。
使用WithFormat方式创建的字符串对象,长度<=9且不含汉字,即为NSTaggedPointerString。
Tagged Pointer对象的区别
从上面示例的打印结果中可看到,NSTaggedPointerString的输出地址和其他两种有着明显的区别,这里猜测,系统是直接通过地址来区分是否为Tagged Pointer对象的。
我们知道,上面示例的字符串创建过程实际上是对指针对象作了一次setter操作, 而在iOS原理 对象的本质一文中可知,setter方法在底层是调用objc_setProperty方法,通过先retain新值、再release旧值来实现。而retain和release操作往往会改变对象的引用计数,但已知Tagged Pointer对象存在常量区,引用计数不会变化,因此可断定,在retain和release方法内部必定对Tagged Pointer对象作了判断处理。
基于此,可以在objc源码中查看retain和release方法的实现,来跟踪分析Tagged Pointer的判断逻辑。
__attribute__((aligned(16), flatten, noinline))
id
objc_retain(id obj)
{
if (!obj) return obj;
//若是TaggedPointer,直接返回,不做retain处理
if (obj->isTaggedPointer()) return obj;
return obj->retain();
}
__attribute__((aligned(16), flatten, noinline))
void
objc_release(id obj)
{
if (!obj) return;
//若是TaggedPointer,直接返回,不做release处理
if (obj->isTaggedPointer()) return;
return obj->release();
}
果然,可以看到在objc_retain和objc_release内部均做了判断:若是Tagged Pointer对象,就直接返回,不会进行retain和release操作。
接着分析isTaggedPointer()的源码:
#define _OBJC_TAG_MASK (1UL<<63)
static inline bool
_objc_isTaggedPointer(const void * _Nullable ptr)
{
//判断对象地址转为64位二级制后,最高位是否为1
return ((uintptr_t)ptr & _OBJC_TAG_MASK) == _OBJC_TAG_MASK;
}
从源码可知,Tagged Pointer对象的判断逻辑为:若对象的地址转换成64位二进制后,最高位为1,则为Tagged Pointer对象。
Tagged Pointer对象的地址分析
还是以NSString对象来分析,先创建一个NSTaggedPointerString对象,再打印地址
NSString *str = [NSString stringWithFormat:@"a"];
NSLog(@" ==== str: %@ -> %p -> %@", str, str, [str class]);
//打印结果
2020-12-14 00:46:21.836117+0800 内存管理[30039:87189564] ==== str: a -> 0x938c95d512f57e48 -> NSTaggedPointerString
可以看到,小对象str的地址为0x938c95d512f57e48。从iOS原理 内存五大区一文可知,五大区中栈区处于最高位,地址一般以0x7开头,常量区地址一般以0x1开头,而Tagged Pointer对象存储在常量区,地址不可能是以0x9开头。因此,这里输出的str地址,不是真实的内存空间地址。
通过查看源码可知,在iOS14后系统对Tagged Pointer对象的地址进行了混淆处理:
//编码
static inline void * _Nonnull
_objc_encodeTaggedPointer(uintptr_t ptr)
{
//将地址与objc_debug_taggedpointer_obfuscator异或进行编码混淆
return (void *)(objc_debug_taggedpointer_obfuscator ^ ptr);
}
//解码
static inline uintptr_t
_objc_decodeTaggedPointer(const void * _Nullable ptr)
{
//将混淆后的地址与objc_debug_taggedpointer_obfuscator异或进行解码
return (uintptr_t)ptr ^ objc_debug_taggedpointer_obfuscator;
}
混淆过程即是:通过第一次异或运算进行编码混淆,再通过第二次异或运算进行解码获取到地址。
因此,这里复制解码函数的代码到文件里调用,将str的地址进行解码后打印输出:
//源码拷贝出来
extern uintptr_t objc_debug_taggedpointer_obfuscator;
uintptr_t
_objc_decodeTaggedPointer_(id ptr)
{
return (uintptr_t)ptr ^ objc_debug_taggedpointer_obfuscator;
}
//将小对象的地址解码后以16进制的格式打印
NSString *str = [NSString stringWithFormat:@"a"];
NSLog(@" ==== str: %@ -> %p -> %@", str, str, [str class]);
NSLog(@" ==== str decode: 0x%lx", _objc_decodeTaggedPointer_(str));
//打印结果
2020-12-14 19:39:03.396941+0800 内存管理[48198:88245695] ==== str: a -> 0xc618611a5f17536f -> NSTaggedPointerString
2020-12-14 19:39:03.397753+0800 内存管理[48198:88245695] ==== str decode: 0xa000000000000611
可以看到,解码后的地址为0xa000000000000611。这个地址其实也不是真实地址,而是包含了Tagged Pointer对象的地址+值等信息:
-
a:转换为二进制为1 010,其中1表示此对象为Tagged Pointer对象。010表示对象的类型,对应objc_tag_index_t的枚举值,此处为2,表示是NSString类型。enum objc_tag_index_t : uint16_t #else typedef uint16_t objc_tag_index_t; enum #endif { // 60-bit payloads OBJC_TAG_NSAtom = 0, OBJC_TAG_1 = 1, OBJC_TAG_NSString = 2, OBJC_TAG_NSNumber = 3, OBJC_TAG_NSIndexPath = 4, OBJC_TAG_NSManagedObjectID = 5, OBJC_TAG_NSDate = 6, ... ... } -
00000000000061:0x61转换为十进制为97,刚好是字符a的ASSII码。所以中间的这部分,储存的是小对象的值。 -
1:最低位是系统用于做其他处理,没有实际用途。
由于Tagged Pointer对象的地址中包含了对象的值,所以读取时不需要像NSCFString对象那样,先获取栈区指针保存的地址,再通过地址在堆区访问对象,而是可以直接获取,读取效率提高了3倍。
关于Tagged Pointer的一道面试题
- 问:下面这两种情况的运行结果有什么不同?
dispatch_queue_t queue = dispatch_queue_create("", DISPATCH_QUEUE_CONCURRENT);
for(NSInteger i=0; i<1000; i++){
dispatch_async(queue, ^{
//情况一
self.text = [NSString stringWithFormat:@"a123"];
//情况二
self.text = [NSString stringWithFormat:@"a123456789"];
NSLog(@" ==== text = %@", self.text);
});
}
- 答:情况一正常运行,情况二运行报错。
从代码来看,两种情况唯一不同的地方是字符串的长度不同,而字符串的创建也会对指针对象text进行setter操作,底层会先retain新值、再release旧值,且不能保证线程安全。所以两种情况运行结果不一致的原因在于:
-
情况一:创建的字符串为NSTaggedPointerString对象,在retain和release时会直接返回,不作任何处理,所以能正常运行。 -
情况二:创建的字符串为NSCFString对象,在多线程模式下进行release操作,会使得多条线程同时对一个对象释放,导致过度释放,所以会运行报错。
总结
通过上面的分析,Tagged Pointer可以得出以下结论:
-
Tagged Pointer是用来处理小对象,例如NSNumber、NSDate以及比较简短的NSString等对象, 存储在常量区。 -
Tagge Pointer对象不会进行retain和release操作,不需要ARC管理,内存由系统自主分配和回收。 -
Tagge Pointer对象,相比堆区存储的对象,读取效率提高约3倍,创建效率快了近100倍,且内存占用更小。 -
Tagged Pointer对象的地址不再是简单的地址,而是地址+值。在64位的二进制地址中:- 第64位(1位):用于判断是否为
Tagged Pointer对象,1为真。 - 第61-63位(3位):用于表示对象的类型,值对应
objc_tag_index_t的枚举值。 - 第5-60位(56位):用于存储对象的值,这是读取效率高的原因。
- 第1-4位(4位):系统用于其他处理,没有实际用途。
- 第64位(1位):用于判断是否为