PHP内核中的HashTable

1.什么是哈希表
哈希表(或散列表),是将键名key按指定的散列函数HASH经过HASH(key)计算后映射到表中一个记录,而这个数组就是哈希表。
这里的HASH指任意的函数,例如MD5、CRC32、SHA1或你自定义的函数实现。

1.1、HashTable性能
HashTable是一种查找性能极高的数据结构,在很多语言内部都实现了HashTable。
理想情况下HashTable的性能是O(1)的,性能消耗主要集中在散列函数HASH(key),通过HASH(key)直接定位到表中的记录。
而在实际情况下经常会发生key1 != key2,但HASH(key1) = HASH(key2),这种情况即Hash碰撞问题,碰撞的概率越低HashTable的性能越好。当然Hash算法太过复杂也会影响HashTable性能。

2.PHP实现HashTable主要是通过两个数据结构Bucket(桶)和zend_array(hashtable)。
首先结构体zval的联合体zvalue中 是zend_array *ht类型,zend_array里的Bucket结构。从PHP脚本端来看,HashTable相当于Array对象,而Bucket相当于Array对象里的某个元素。对于多维数组实际就是HashTable的某个Bucket里存储着另一个HashTable。
HashTable结构:

typedef struct _hashtable {
     uint nTableSize; //表长度,并非元素个数
     uint nTableMask;//表的掩码,始终等于nTableSize-1
     uint nNumOfElements;//存储的元素个数
     ulong nNextFreeElement;//指向下一个空的元素位置
     Bucket *pInternalPointer;//foreach循环时,用来记录当前遍历到的元素位置
     Bucket *pListHead;
     Bucket *pListTail;
     Bucket **arBuckets;//存储的元素数组
     dtor_func_t pDestructor;//析构函数
     zend_bool persistent;//是否持久保存。从这可以发现,PHP数组是可以实现持久保存在内存中的,而无需每次请求都重新加载。
     unsigned char nApplyCount;
     zend_bool bApplyProtection;
} HashTable;

Bucket结构:

typedef struct bucket {
     ulong h; //数组索引
     uint nKeyLength; //字符串索引的长度
     void *pData; //实际数据的存储地址
     void *pDataPtr; //引入的数据存储地址
     struct bucket *pListNext;
     struct bucket *pListLast;
     struct bucket *pNext; //双向链表的下一个元素的地址
     struct bucket *pLast;//双向链表的下一个元素地址
     char arKey[1]; /* Must be last element */
} Bucket;

2.2、理解PHP的哈希表实现
在PHP内核也同样实现了HashTable并广泛应用,包括线程安全、全局变量、资源管理等基本上所有的地方都能看到它的身影。
不仅如此,在PHP脚本中数组(PHP的数组实质就是HashTable)也是被广泛使用的,例如数组形式的配置文件、数据库的查询结果等,可以说是无处不在。
那么既然PHP的数组使用率这么高,内部是如何实现的?它如何解决hash碰撞及实现均匀分布的?PHP脚本使用数组应该注意哪些?

PHP解决Hahs冲突时,使用的是双向链表。

3.内核中如何实现均匀分布和解决hash碰撞问题的
3.1) 均匀分布
均匀分布是指,将需要存储的各个元素均匀的分布到HashTable中。
而负责计算具体分布到表中哪个位置的函数就是散列函数做的事情,所以散列函数的实现直接关系到均匀分布的效率。
上面也提到了PHP内核中用了简单的方式实现:h & ht->nTableMask,其中h代表变量key经过hash算法得到的索引号,nTableMask等于(哈希表分配的长度-1),提高了均匀分布的效率。(均匀分布的实现方法)。
这里默认的是packed_array 分配的哈希表长度为-2 hash_array分配的哈希表长度为-8。

4.Hash碰撞是指,经过Hash算法后得到的值会出现key1 != key2, 但Hash(key1)却等于Hash(key2)的情况,这就是碰撞问题。
在PHP内核来看,就是会出现key1 != key2, 但hash(key1) & ht->nTableMask却等于 hash(key2) & ht->nTableMask的情况。
PHP内核使用双向链表的方式来存储冲突的数据。即Bucket本身也是一个双向链表,当发生冲突时,会将数据按顺序向后排列。使用bucket里的 next来标识冲突之前的元素位置。
如果不发生冲突,Bucket即是长度为1的的双向链表。

发生碰撞时,bucket转换成双向链表,指针分别为
struct bucket pNext; / 指向具有同一个hash值的桶列的后一个元素 */
struct bucket pLast; / 指向具有同一个hash值的桶列的前一个元素 */

ZEND_API int zend_hash_find(const HashTable *ht, const char *arKey, uint nKeyLength, void **pData)
{
     ulong h;
     uint nIndex;
     Bucket *p;
 
     IS_CONSISTENT(ht);
 
     h = zend_inline_hash_func(arKey, nKeyLength);
     nIndex = h & ht->nTableMask;
 
     p = ht->arBuckets[nIndex];
     //找到元素时,并非立即返回,而是要再对比h与nKeyLength,防止hash碰撞。此段代码就是遍历链表,直到链表尾部。
     while (p != NULL) {
          if ((p->h == h) && (p->nKeyLength == nKeyLength)) {
               if (!memcmp(p->arKey, arKey, nKeyLength)) {
                    *pData = p->pData;
                    return SUCCESS;
               }
          }
          p = p->pNext;
     }
     return FAILURE;
}

4.1在PHP中初始化一个空数组时,对应内核中是如何创建HashTable的

$array = new Array();
//省略了部分代码,提出主要的逻辑
ZEND_API int _zend_hash_init(HashTable *ht, uint nSize, hash_func_t pHashFunction, dtor_func_t pDestructor, zend_bool persistent ZEND_FILE_LINE_DC)
{
     uint i = 3;
     Bucket **tmp;
 
     SET_INCONSISTENT(HT_OK);
 
     if (nSize >= 0x80000000) {//数组的最大长度是十进制2147483648
          /* prevent overflow */
          ht->nTableSize = 0x80000000;
     } else {
          //数组的长度是向2的整次幂取圆整
          //例如数组的里有10个元素,那么实际被分配的HashTable长度是16。100个元素,则被分配128的长度
          //HashTable的最小长度是8,而非0。因为默认是将1向右移3位,1<<3=8
          while ((1U << i) < nSize) {
               i++;
          }
          ht->nTableSize = 1 << i;
     }
 
     ht->nTableMask = ht->nTableSize - 1;
     ....
    
     return SUCCESS;
}

从上看出,即使在PHP中初始化一个空数组或不足8个元素的数组,都会被创建8个长度的HashTable。同样创建100个元素的数组,也会被分配128长度的HashTable。依次类推。

5.PHP数组中,键名可以为数字或字符串类型。而在内核中只允许数字索引,对于字符串索引,内核采用了time33算法将字符串转换为整型。
与数字索引相比,只是多了一步将字符串转换为整型。用到的算法是time33,就是对字符串的每个字符转换为ASCII码乘上33并且相加得到的结果。(索引数组与关联数组的区别) hash_array形式

6.链表散列中为什么使用双向链表?
一般的链表散列只需要按key进行操作,只需要单链表就够了。但是,Zend有时需要从链表散列中删除给定的Bucket,使用双链表可以非常高效的实现,避免遍历。O(1)操作

7.nTableMask是干什么的?
这个值用于hash值到arBuckets数组下标的转换。当初始化一个HashTable,Zend首先为arBuckets数组分配nTableSize大小的内存,nTableSize取不小于用户指定大小的最小的2^n,即二进制的10。nTableMask = nTableSize – 1,即二进制的01,此时h & nTableMask就恰好落在 [0, nTableSize – 1] 里,Zend就以其为index来访问arBuckets数组。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,794评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,050评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,587评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,861评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,901评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,898评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,832评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,617评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,077评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,349评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,483评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,199评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,824评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,442评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,632评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,474评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,393评论 2 352

推荐阅读更多精彩内容