亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

深入PHP中的HashTable結構詳解

 更新時間:2013年06月13日 10:46:06   作者:  
本篇文章是對PHP中的HashTable結構進行了詳細的分析介紹,需要的朋友參考下

HashTable是Zend引擎中最重要、使用最廣泛的數(shù)據(jù)結構,它被用來存儲幾乎所有的東西。
1.2.1 數(shù)據(jù)結構
HashTable數(shù)據(jù)結構定義如下:

復制代碼 代碼如下:

typedef struct bucket {
 ulong h;    // 存放hash
 uint nKeyLength;
 void *pData;   // 指向value,是用戶數(shù)據(jù)的副本
 void *pDataPtr;
 struct bucket *pListNext; // pListNext和pListLast組成
 struct bucket *pListLast; // 整個HashTable的雙鏈表
 struct bucket *pNext;  // pNext和pLast用于組成某個hash對應
 struct bucket *pLast;  // 的雙鏈表
 char arKey[1];    // key
} Bucket;

typedef struct _hashtable {
 uint nTableSize;
 uint nTableMask;
 uint nNumOfElements;
 ulong nNextFreeElement;
 Bucket *pInternalPointer; /* Used for element traversal */
 Bucket *pListHead;
 Bucket *pListTail;
 Bucket **arBuckets;   // hash數(shù)組
 dtor_func_t pDestructor; // HashTable初始化時指定,銷毀Bucket時調(diào)用
 zend_bool persistent;  // 是否采用C的內(nèi)存分配例程
 unsigned char nApplyCount;
 zend_bool bApplyProtection;
#if ZEND_DEBUG
 int inconsistent;
#endif
} HashTable;


總的來說,Zend的HashTable是一種鏈表散列,同時也為線性遍歷進行了優(yōu)化,圖示如下:


HashTable中包含兩種數(shù)據(jù)結構,一個鏈表散列和一個雙向鏈表,前者用于進行快速鍵-值查詢,后者方便線性遍歷和排序,一個Bucket同時存在于這兩個數(shù)據(jù)結構中。
關于該數(shù)據(jù)結構的幾點解釋:
鏈表散列中為什么使用雙向鏈表?
一般的鏈表散列只需要按key進行操作,只需要單鏈表就夠了。但是,Zend有時需要從鏈表散列中刪除給定的Bucket,使用雙鏈表可以非常高效的實現(xiàn)。
nTableMask是干什么的?
這個值用于hash值到arBuckets數(shù)組下標的轉(zhuǎn)換。當初始化一個HashTable,Zend首先為arBuckets數(shù)組分配nTableSize大小的內(nèi)存,nTableSize取不小于用戶指定大小的最小的2^n,即二進制的10*。nTableMask = nTableSize – 1,即二進制的01*,此時h & nTableMask就恰好落在 [0, nTableSize – 1] 里,Zend就以其為index來訪問arBuckets數(shù)組。
pDataPtr是干什么的?
通常情況下,當用戶插入一個鍵值對時,Zend會將value復制一份,并將pData指向value副本。復制操作需要調(diào)用Zend內(nèi)部例程 emalloc來分配內(nèi)存,這是個非常耗時的操作,并且會消耗比value大的一塊內(nèi)存(多出的內(nèi)存用于存放cookie),如果value很小的話,將會造成較大的浪費。考慮到HashTable多用于存放指針值,于是Zend引入pDataPtr,當value小到和指針一樣長時,Zend就直接將其復制到pDataPtr里,并且將pData指向pDataPtr。這就避免了emalloc操作,同時也有利于提高Cache命中率。
arKey大小為什么只有1?為什么不使用指針管理key?
arKey是存放key的數(shù)組,但其大小卻只有1,并不足以放下key。在HashTable的初始化函數(shù)里可以找到如下代碼:

復制代碼 代碼如下:

  p = (Bucket *) pemalloc(sizeof(Bucket) - 1 + nKeyLength, ht->persistent);

可見,Zend為一個Bucket分配了一塊足夠放下自己和key的內(nèi)存,上半部分是Bucket,下半部分是key,而arKey“恰好”是Bucket的最后一個元素,于是就可以使用arKey來訪問key了。這種手法在內(nèi)存管理例程中最為常見,當分配內(nèi)存時,實際上是分配了比指定大小要大的內(nèi)存,多出的上半部分通常被稱為cookie,它存儲了這塊內(nèi)存的信息,比如塊大小、上一塊指針、下一塊指針等,baidu的Transmit程序就使用了這種方法。
不用指針管理key,是為了減少一次emalloc操作,同時也可以提高Cache命中率。另一個必需的理由是,key絕大部分情況下是固定不變的,不會因為key變長了而導致重新分配整個Bucket。這同時也解釋了為什么不把value也一起作為數(shù)組分配了——因為value是可變的。

1.2.2 PHP數(shù)組
關于HashTable還有一個疑問沒有回答,就是nNextFreeElement是干什么的?
不同于一般的散列,Zend的HashTable允許用戶直接指定hash值,而忽略key,甚至可以不指定key(此時,nKeyLength為0)。同時,HashTable也支持append操作,用戶連hash值也不用指定,只需要提供value,此時,Zend就用nNextFreeElement作為hash,之后將nNextFreeElement遞增。
HashTable的這種行為看起來很奇怪,因為這將無法按key訪問value,已經(jīng)完全不是個散列了。理解問題的關鍵在于,PHP數(shù)組就是使用HashTable實現(xiàn)的——關聯(lián)數(shù)組使用正常的k-v映射將元素加入HashTable,其key為用戶指定的字符串;非關聯(lián)數(shù)組則直接使用數(shù)組下標作為hash值,不存在key;而當在一個數(shù)組中混合使用關聯(lián)和非關聯(lián)時,或者使用array_push操作時,就需要用nNextFreeElement了。
再來看value,PHP數(shù)組的value直接使用了zval這個通用結構,pData指向的是zval*,按照上一節(jié)的介紹,這個zval*將直接存儲在pDataPtr里。由于直接使用了zval,數(shù)組的元素可以是任意PHP類型。
數(shù)組的遍歷操作,即foreach、each等,是通過HashTable的雙向鏈表來進行的,pInternalPointer作為游標記錄了當前位置。

1.2.3 變量符號表
除了數(shù)組,HashTable還被用來存儲許多其他數(shù)據(jù),比如,PHP函數(shù)、變量符號、加載的模塊、類成員等。
一個變量符號表就相當于一個關聯(lián)數(shù)組,其key是變量名(可見,使用很長的變量名并不是個好主意),value是zval*。
在任一時刻PHP代碼都可以看見兩個變量符號表——symbol_table和active_symbol_table——前者用于存儲全局變量,稱為全局符號表;后者是個指針,指向當前活動的變量符號表,通常情況下就是全局符號表。但是,當每次進入一個PHP函數(shù)時(此處指的是用戶使用PHP代碼創(chuàng)建的函數(shù)),Zend都會創(chuàng)建函數(shù)局部的變量符號表,并將active_symbol_table指向局部符號表。Zend總是使用active_symbol_table來訪問變量,這樣就實現(xiàn)了局部變量的作用域控制。
但如果在函數(shù)局部訪問標記為global的變量,Zend會進行特殊處理——在active_symbol_table中創(chuàng)建symbol_table中同名變量的引用,如果symbol_table中沒有同名變量則會先創(chuàng)建。

1.3 內(nèi)存和文件
程序擁有的資源一般包括內(nèi)存和文件,對于通常的程序,這些資源是面向進程的,當進程結束后,操作系統(tǒng)或C庫會自動回收那些我們沒有顯式釋放的資源。
但是,PHP程序有其特殊性,它是基于頁面的,一個頁面運行時同樣也會申請內(nèi)存或文件這樣的資源,然而當頁面運行結束后,操作系統(tǒng)或C庫也許不會知道需要進行資源回收。比如,我們將php作為模塊編譯到apache里,并且以prefork或worker模式運行apache。這種情況下apache進程或線程是復用的,php頁面分配的內(nèi)存將永駐內(nèi)存直到出core。
為了解決這種問題,Zend提供了一套內(nèi)存分配API,它們的作用和C中相應函數(shù)一樣,不同的是這些函數(shù)從Zend自己的內(nèi)存池中分配內(nèi)存,并且它們可以實現(xiàn)基于頁面的自動回收。在我們的模塊中,為頁面分配的內(nèi)存應該使用這些API,而不是C例程,否則Zend會在頁面結束時嘗試efree掉我們的內(nèi)存,其結果通常就是crush。
emalloc()
efree()
estrdup()
estrndup()
ecalloc()
erealloc()
另外,Zend還提供了一組形如VCWD_xxx的宏用于替代C庫和操作系統(tǒng)相應的文件API,這些宏能夠支持PHP的虛擬工作目錄,在模塊代碼中應該總是使用它們。宏的具體定義參見PHP源代碼”TSRM/tsrm_virtual_cwd.h”??赡苣銜⒁獾?,所有那些宏中并沒有提供close操作,這是因為close的對象是已打開的資源,不涉及到文件路徑,因此可以直接使用C或操作系統(tǒng)例程;同理,read/write之類的操作也是直接使用C或操作系統(tǒng)的例程。

相關文章

最新評論