python string 实现原理

这篇文章讲述python内部如何管理string 字符串对象,并且如何实现字符串对象的搜索

PyStringObject 结构

Python中的字符串对象在内部由结构PyStringObject表示。

ob_shash是字符串的哈希,ob_sval包含字符串的长度ob_size,该字符串以null终止。 ob_sval的初始大小为1个字节,并且ob_sval [0] =0。如果您想知道“ ob_size的定义位置”,请查看源码object.h中的PyObject_VAR_HEADob_sstate指示字符串对象是否在待查字典中,我们将在后面讲到

typedef struct {
    PyObject_VAR_HEAD
    long ob_shash;
    int ob_sstate;
    char ob_sval[1];
} PyStringObject;

创建string 字符串对象

将新字符串分配给像这样的变量时会发生什么?

>>> s1 = 'abc'

调用内部C函数PyString_FromString,伪代码如下所示:

arguments: string object: 'abc'
returns: Python string object with ob_sval = 'abc'
PyString_FromString(string):
    size = length of string
    allocate string object + size for 'abc'. ob_sval will be ofsize:size + 1
    copy string to ob_sval
    return object

每次使用新字符串时,都会分配一个新的字符串对象。

共享string 字符串对象

通过一个简单优化的特性让变量之间共享小字符串。 这减少了使用的内存量。 小字符串是大小为0或1个字节的字符串。 全局变量“ interned”是引用这些小字符串的字典。 数组characters还用于引用长度为1个字节的字符串,即:单个字符。 稍后我们将看到如何使用数组characters

static PyStringObject *characters[UCHAR_MAX + 1];
static PyObject *interned;

让我们看看将新的小字符串分配给Python脚本中的变量后会发生什么。

>>> s2 = 'a'

包含a的字符串对象将添加到内部字典中。 键是指向字符串对象的指针,值是相同的指针。 数组字符中的偏移量97也引用了这个新的字符串对象,因为ASCII中a的值为97。 变量s2指向该字符串对象。

image

将不同的变量分配给相同的字符串“ a”会怎样?

>>> s3 = 'a'

返回先前创建的相同字符串对象,因此两个变量都指向相同的字符串对象。 在该过程中,将使用characters数组检查字符串是否已存在并将指针返回到字符串对象。

if (size == 1 && (op = characters[*str & UCHAR_MAX]) != NULL)
{
    ...
    return (PyObject *)op;
5
image

让我们创建一个包含字符“ c”的新小字符串。

>>> s4 = 'c'

我们最终得到以下结果:

image

如以下Python脚本中所示,当请求字符串的项目时,我们还会发现使用“字符”数组:

>>> s5 = 'abc'
>>> s5[0]
'a'

而不是创建包含“ a”的新字符串,而是返回“字符”数组偏移量97处的指针。 这是函数string_item的代码,当我们从字符串中请求字符时会调用该代码。 参数'a'是包含'abc'的字符串对象,参数i是所请求的索引:在本例中为0。 返回指向字符串对象的指针。

static PyObject *
string_item(PyStringObject *a, register Py_ssize_t i)
{
    char pchar;
    PyObject *v;
    ...
    pchar = a->ob_sval[i];
    v = (PyObject *)characters[pchar & UCHAR_MAX];
    if (v == NULL)
        // allocate string
    else {
        ...
        Py_INCREF(v);
    }
    return v;
}

“characters”数组还用于长度为1的函数名称:

>>> def a(): pass

字符串查找

让我们看一下执行字符串搜索(如以下Python代码)时会发生什么:

>>> s = 'adcabcdbdabcabd'
>>> s.find('abcab')
>>> 9

find函数返回在字符串s中找到字符串'abcd'的索引。 如果找不到该字符串,则返回-1。 那么,内部发生了什么? 调用fastsearch方法。 它是Boyer-Moore和Horspool算法之间的完美结合,另外还有一些巧妙的技巧。 我们将搜索字符串称为s,将搜索字符串称为ps = 'adcabcdbdabcabd' 和 p ='abcab'ns的长度,mp的长度。 n = 18并且m =5。代码中的第一个检查是显而易见的,如果m> n,那么我们知道我们将无法找到索引,因此该函数立即返回-1,如下所示 码:

w = n -m
if (w < 0)
    return -1;

m = 1时,代码每次一次通过s一个字符,并在匹配时返回索引。 在我们的示例中,mode = FAST_SEARCH,因为我们要查找的是索引中首先找到该字符串的索引,而不是找到该字符串的次数。

if (m <= 1) {
    ...
        if (mode == FAST_COUNT) {
            ...
        }else{
            for (i=0;i<n;i++)
                if (s[i] == p[0])
                    return i;
        }
        return -1;
}

对于其他情况,即m>1。第一步是创建一个压缩的 boyer-moore 增量1表。 在该步骤中将分配两个变量:maskskipmask是一个32位的位掩码,使用字符的5个最低有效位作为关键字。 它是使用字符串搜索p生成的。 这是一个布隆筛选器,用于测试此字符串中是否存在字符。 这确实非常快,但是有误报。 您可以在此处阅读更多有关布隆过滤器的信息。 在我们的情况下,这就是位掩码的生成方式:

mlast = m - 1
/* process pattern[:-1] */
for (mask = i = 0; i < mlast; i++) {
    mask |= (1 << (p[i] & 0x1F));
}
/* process pattern[-1] outside the loop */
mask |= (1 << (p[mlast] & 0x1F));

p的首字符是“ a”。二进制格式的“ a”值是97 = 1100001。使用5个最低有效位,我们得到00001,因此首先将mask设置为:1 << 1 =10。处理完整个字符串p后,mask = 1110。我们如何使用此位掩码?通过使用以下测试,其中“c”是要在字符串p中查找的字符。

if((mask&(1 <<(c&0x1F)))) ,当 p ='abcab' ,是否p中的'a'? 1110&(1 <<('a'&0X1F))是true吗? 1110&(1 <<('a'&0X1F))= 1110&10 =10。因此,确认'a'在'abcab'中。

如果我们用'd'进行测试,则会得到false以及从'e'到'z'的字符,因此此过滤器在我们的情况下效果很好。 “ skip”设置为与要搜索的字符串中的最后一个字符具有相同值的字符索引。如果未找到最后一个字符,则将“ skip”设置为“ p”的长度-1。要搜索的字符串中的最后一个字符为'b',这意味着“跳过”将设置为2,因为也可以通过向下跳过2个字符来找到该字符。此变量用在称为坏字符跳过方法的跳过方法中。

以下示例中:p ='abcab'和s ='adcabcaba'。搜索从“ s”的索引4开始,并向后检查是否有字符串匹配。第一次测试在索引= 1失败,其中“ b”与“ d”不同。我们知道,“ p”中的字符“ b”也从末尾开始向下3个字符。因为“ c”是“ p”的一部分,所以我们跳到下面的“ b”。这是错误字符跳过。

image

接下来是搜索循环本身(实际代码是C而不是Python):

for i = 0 to n - m = 13:
    if s[i+m-1] == p[m-1]:
        if s[i:i+mlast] == p[0:mlast]:
            return i
        if s[i+m] not in p:
            i += m
        else:
            i += skip
    else:
        if s[i+m] not in p:
            i += m
return -1

测试s [i + m]不在p中使用位掩码完成。i + =跳过是错误字符跳过。 当在p中找不到下一个字符时,将执行i + = m。 让我们看看这种搜索算法如何与字符串ps一起使用。 前三个步骤很熟悉。 之后,字符d不在字符串p中,因此我们跳过了p的长度并在此之后快速找到匹配项。

image

参考:

Python string objects implementation

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,014评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,796评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,484评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,830评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,946评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,114评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,182评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,927评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,369评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,678评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,832评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,533评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,166评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,885评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,128评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,659评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,738评论 2 351