初学Python的同学往往会听说元组对象是不可变的(immutable),字典的键必须是可以哈希的(hashable)。这一讲我们就来好好聊聊这两个概念到底是什么意思。
1. 可变对象与不可变对象
首先要明白的是当我们在聊可变与不可变对象时,我们聊的是Python的内置对象。自己定义的对象通常我们不去讨论它是不是可变的,毕竟Python本身是一门动态语言,需要的话我们随时可以给自己定义的这个对象添加其它的属性和方法。
提到Python内置的不可变对象我们能想到的往往有数字、字符串、元组等,提到Python内置的可变对象我们能想到的又有列表、字典等。我们是依据什么把其中的一些对象归于可变,又把另一些归于不可变的呢?其实这种归类的办法很简单:当我们改变一个对象的值的时候,如果能维持其id值不变,我们就说这个对象是可变,否则我们就说这个对象不可变。
我们仔细看上面这个例子,这个对象b的id值之所以前后不一样,是因为我们又重建了一个新元组对象然后把它赋值给变量b。反观对象a我们是直接调用对象a中的append方法来修改对象a中的值。假如对象b也就是元组也和对象a一样支持append方法会怎样呢?答案是此时元组就从不可变对象变为可变对象了。重点来了,Python中的可变对象与不可变对象之间的区别其实没有想象中的那么大,只不过是可变对象比不可变对象多实现了几个可以修改对象自身的方法。这里再以Python自带的集合类型和不可变集合类型举例
这些普通方法自不必说,这些双下划线方法我也都做了标注,大家可以看到都是对自身进行修改的方法。
2. 对象的ID与可哈希对象
先来看一下官方文档上面对hashable的说明:
如果一个对象在其生命周期内有一个固定不变的哈希值 (这需要__hash__()方法) 且可以与其他对象进行比较操作 (这需要__eq__()方法) ,那么这个对象就是可哈希对象 (hashable) 。可哈希对象必须有相同的哈希值才算作相等。
由于字典 (dict) 的键 (key) 和集合 (set) 内部使用到了哈希值,所以只有可哈希 (hashable) 对象才能被用作字典的键和集合的元素。
所有python内置的不可变对象都是可哈希的,同时,可变容器 (比如:列表 (list) 或者字典 (dict) ) 都是不可哈希的。用户自定义的类的实例默认情况下都是可哈希的;它们跟其它对象都不相等 (除了它们自己) ,它们的哈希值来自id()方法。
官方文档里对于什么是可哈希对象解释的算是很面了,我这里补充下对象的id值与哈希值之间的关系。首先要知道的是在id值相同的情况下,哈希值必然相同。这个很好理解,因为一个对象不可能有多个哈希值,否则就乱套了。然后,在id不同的情况下哈希值通常不同,但这个在Python内置的对象里是可以有例外的。
需要注意的是对于用户自己定义对象来说在id不同的情况下哈希值必然不同。因为用户自定义的类的实例其哈希值是用对象的id值计算出来的。这会导致出现两种情况:
-
对象值相同的情况下哈希值可以不同
-
对象值不同的情况下哈希值可以相同
这里如果我们给cls_a再添加一个属性或方法,可以发现它的哈希值还和从前一样
3. 小结
只有当哈希键(hash key)是不可变的时候,对应的哈希值(hash value)才能保持不变,所以不可变(immutable)和可哈希(hashable)是有关系的。但这里的不可变对于Python内置对象而言是指对象的值不可变,对用户自定义的对象而言是指对象的id不可变,考虑到id本就不会发生变化,所以默认用户自定义的对象都是可哈希的。