1. python对象
python使用对象模型来存储数据,python中万物皆对象。
python对象有三个特性:身份,类型,值。
-
身份:身份是对象的唯一标识,可以看做是对象的内存地址。使用内建函数id()可以查看对象id。判断两个变量是否为指向相同对象,可以使用is操作符,例如:a is b,返回
boolean
值 -
类型:对象类型决定该对象保存什么类型的值,可以进行什么样的操作,遵循什么样的规则。使用内建函数
type()
可以返回对象类型。 -
值:值就是对象存储的数据项。一个对象的身份和类型是不可变的,但值根据类型的不同具有不同可变性。
不可变类型:数字(整型,浮点型,复数型),字符串类型,tuple,frozenset...
可变类型:list,set,dict...
2. 内存管理
python变量无须显式声明,无须指定类型。python中变量第一次赋值时自动声明,解释器会根据右侧操作数决定对象的类型,在对象创建后,该对象的引用会赋值给左侧的变量,该变量会作为该对象的别名(即引用)。
python解释器使用gc模块自动管理内存,其内存管理采用的策略为:引用计数(Reference Counting),标记-清除(Mark—Sweep),分代回收。
2.1 引用计数
python解释器内部用引用计数器记录着所有对象的引用数量,当对象创建时就创建该对象的引用计数并置为1,当引用计数变为0时,该对象会被垃圾回收。
-
增加引用计数
- 对象被创建时
a = 1
- 对象另外的别名被创建
b = a
- 对象作为参数传递给函数
fun(a)
- 对象成为容器对象的一个元素
my_list = [a,]
-
减少引用计数
- 一个本地变量离开作用域
- 对象的一个别名被显示销毁
del a
- 对象的别名从容器中移除
my_list.remove(a)
- 含有该对象的容器被销毁(引用计数为0并被回收)
del my_list
-
引用计数的致命缺陷--循环引用
from sys import getrefcount
a = ['hello'] #对象list1引用计数为1
b = ['world'] #对象list2引用计数为1
print('a:', getrefcount(a)) #由于对象引用作为入参,因此引用计数加1
print('b:', getrefcount(b))
#循环引用
a.append(b) #对象list2引用计数加1
b.append(a) #对象list1引用计数加1
print('a:', getrefcount(a))
print('b:', getrefcount(b))
del a
del b
#销毁a,b后,任然未释放对象list1和list2的内存,会造成内存泄漏
循环引用发生在两个对象互相引用时(如上图代码);执行del a
时,由于a为b中的元素,所以a的引用计数并没有变成0,因此a未被释放;同理,执行del b
时,b的引用计数也未减少到0,因此b也未被释放。
2.2 标记-清除
gc模块还使用了类似“标记-清除”的算法来解决可能产生的循环引用。
gc会记录每个对象的引用计数,并用有向图记录对象之间的引用,当遍历a时,a指向b,b的引用计数会减1,同理遍历b时,b指向a,a的引用计数也会减1,最后确保互相引用的对象能够被回收。
2.3 分代
python中通过使用时间来将对象划分成3代。gc会更频繁地处理0代对象,即程序中刚刚创建的,而0代对象经过若干时间周期后仍然存在,则会移动到1代然后才是2代。这些可以通过阈值进行控制。
gc.get_threshold()
会返回垃圾回收阈值(700,10,10),700为垃圾回收启动的阈值(即对象的分配次数和释放次数的差值),后面两个10,分别表示每10次0代垃圾回收,会有1次1代垃圾回收,每10次1代垃圾会有1次2代垃圾回收。
gc.get_count()
会返回当前垃圾回收状态:
- 当计数器从(699,0,0)增加到(700,0,0),gc模块就会执行
gc.collect(0)
,即检查0代对象的垃圾,并重置计数器为(0,1,0) - 当计数器从(699,9,0)增加到(700,9,0),gc模块就会执行
gc.collect(1)
,即检查0,1代对象的垃圾,并重置计数器为(0,0,1) - 当计数器从(699,9,9)增加到(700,9,9),gc模块就会执行
gc.collect(2)
,即检查0,1,2代对象的垃圾,并重置计数器为(0,0,0)。