Python的各种数据对象在内存中到底是什么样子的?

整型(int)、字符串(string)、列表(list)以及 字典(dict)相信所有用python的人都对他们非常熟悉了。可是我们真的熟悉他们么?

最近,在研究python的变量的时候发现,我竟然对python各种数据对象在内存中的存储形式一无所知。于是我各种baidu搜博客都没有发现一个让我满意的答案。

经过我多方查找资料,甚至凭着我本科学到一点点c的基础(那是十年前的事情了!)看了看源码。

终于,找到了一些头绪。下面就给大家分享一下,我的成果。

一. 总述

对象是一个对人来说的抽象概念,而计算机是无法理解诸如这是一个字符串、这是一个整型数字这样的概念的,在计算机中所有的一切都是一个一个的字节。对象通常来说就是:数据以及基于这些数据操作的集合。在内存中对象其实是这样的:

对象整体图.jpg

PS:为了保证一致性,下面所有的图,对象(数据操作的)都会以蓝色框作为背景。对象的数据都会以绿色作为背景。

二. PyObject -- 对象的基石

python中,所有的内容都是对象,而对象最基础的内容都定义在 PyObject 中。他是一个c的结构体。像整型 PyIntObject、字符串 PyStringObject、列表 PyListObject 以及字典 PyDictObject 都是基于 PyObject 这个结构体开发出来的。

下面给出PyObject的源码


源码.jpg

每当我们创建一个对象时,这个对象中的ob_refcnt就会+1,当我们删除一个对象,或者将变量从新引用到其他对象时,ob_refcnt就会-1。

举个栗子~~~

a = 3389 我们就创建了一个值为3389的整型对象。此时这个对象的ob_refcnt就会+1。当我们执行del a 或者a =3390 时,我们之前创建的值为3389的整型对想的ob_refcnt就会-1。当这个对象的ob_refcnt的值变为0时,内存就会将这个对象销毁。

python的内存管理机制是一个很庞大的系统。之后会开一个专题来讲。现在你可以简单的认为,当一个对象的ob_refcnt 变为0时,这个对象就会被视为无用的对象,被销毁从而达到节约内存的目的。

我知道,源码是在是太难看了。毕竟很多学python的人都对c语言知之甚少。所以,我保证下面不会再出现源码了,我会尽我所能地用图的形式将内容展示给大家。

三. PyIntObject -- 整型对象

整型.jpg

整型对象和数据是通过*ob_ival这个指针联系在一起的。

因为有很多人可能不太记得指针的含义了。再此多说一句,c中的指针是一种用于存放另一个变量的地址的变量,也就是说他不是直接存储数据(这里使用数据是为了更简单的表达意思),而是存储数据所在的内存地址,这样我们在想要用这个数据的时候就可以通过内存地址来找到这个数据的。

四. PyStringObject -- 字符串对象

以“Python”这个字符串为例,看看字符串在内存中是什么样子的。

字符串.jpg

字符串对象通过ob_sval[1]的方式存储了字符串的第一个字符。而整个字符串在内存中是在连续的内存中保存的。我们知道了第一个字符的位置就可以查找到所有的字符。

在说明一下,c语言中字符串是以\0为结束符的。所以他会自动添加一个\0。但是不用担心ob_size中保存的是我们输入的字符串的字符个数。以字符串“Python”对象为例,这个字符串对象的ob_size为6。

五. 可变型和不可变型

相信大家在最初学习python数据类型的时候,一定知道整型、字符串属于不可变型数据(不可变对象)。可是为什么他们不可变呢?

可变和不可变其实是以对象与数据之间的关系是否可以发生改变为标准来区分的。

不知道大家发现了没有,字符串和整型。都是在对象中直接保存了数据的内存地址。他们两个是紧紧绑定在一起的。我在之前也一直以为数据和对象是以一个整体在内存中保存的。python根本就没有给我一个可以将一个整型对象中*ob_val指针改变的方法。所以整型是一个不可变类型的数据对象。

同理,我们也没有办法改变字符串对象中的ob_sval[1]这个属性。所以字符串也是一个不可变型的数据对象。

知道了,什么是不可变类型。那么我们就可以知道可变类型一定是我们可以改变对象中的某个属性。从而改变对象和值的关系。

那么我们继续往下看,看看列表和字典这两种最常用的可变型对象在内存中是什么样子的。

六. PyListObject -- 列表对象

以列表["P", 1]为例,直接上图:

列表.jpg

看到了么?列表是通过**ob_item这种指针的指针(二级指针)来保存的。你可以理解为他保存的是一个列表,这个列表中的内容不是我们输入列表的数据,而是输入列表各元素的数据对象的内存地址。

是不是有一点感觉了?

列表对象不是直接和数据本身建立关联。而是通过保存数据对象的内存地址,和数据对象建立的关联关系。这就是列表对象是一个可变型对象的原因。

同时,这解决了我另一个疑惑,那就是为什么列表中的元素可以是任何的数据对象。

七. PyDictObject -- 字典对象

众所周知,字典是以键值对的形式保存数据的。在python源码中,将这种键值对的整体叫做Entry。

那么我们就先来一个Entry在内存中是如何保存的。

字典entry.jpg

发现没有,与列表类似,字典中的键和值。同样不是直接与数据本身建立关系。而是通过和数据对象建立关系来使用数据的。

所以,字典也是一个可变型对象。并且每个Entry的值都可以是任意的数据对象。

为了能够让大家看明白字典对象的内容我们还要学习一下Entry的三种状态。

Entry三态.jpg

相信,unused只会出现在字典被初始化的时候。当一个Entry(键值对)被赋值之后,他就会在active和dummy两种状态之间切换。

了解完了Entry(键值对),我们继续看看他的整体,PyDictObject在内存中是什么样子的。

字典.jpg

字典对象中,与数据相关的内容全部都是通过Entry(键值对)完成的。

字典中保存的所有内容都是与字典的查找算法相关的内容了。大家可以了解一下。如果真的有需要,也可以开一个“字典到底是如何查找键值对?”的专题。

总结

至此,我们终于了解了,在内存中各种数据类型的存储方式。数据本身和数据对象其实是保存在内存的不同位置的。

顺便,我们还解决了“什么是可变型对象和不可变型对象”以及“为什么字典和列表可以保存任意类型数据”这两个问题。

非常感谢,您可以将这篇文章读完。

也衷心的希望这次阅读可以给你解决一些一直萦绕在心中的问题。

我们,下次再见~~~~~~

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 一、Python简介和环境搭建以及pip的安装 4课时实验课主要内容 【Python简介】: Python 是一个...
    _小老虎_阅读 5,848评论 0 10
  • 我们在学习理解一个事物时,往往遵循着由表及里的规律。第一步,我们学习一个事物的特性表现(feature)。在对事物...
    light_cong阅读 7,823评论 1 14
  • Python源码剖析笔记4-内建数据类型 Python内建数据类型包括整数对象PyIntObject,字符串对象P...
    __七把刀__阅读 1,168评论 0 2
  • 是谁批准你踏着畏缩的平凡之路 哪里投出濒死的勇气 为我神魂颠倒的呼喊众生 为什么要轻风作浪 来吧 席卷金灿灿无遍无...
    汤圆头爸爸阅读 227评论 0 0
  • 超文本传输协议(英语:HyperText Transfer Protocol,缩写:HTTP)是一种用于分布式、协...
    wyx8267阅读 520评论 0 0