C++實(shí)現(xiàn)哈希桶的詳細(xì)教程
閉散列的回顧
在前面的學(xué)習(xí)中我們知道了閉散列的運(yùn)算規(guī)則,當(dāng)兩個(gè)數(shù)據(jù)計(jì)算得到的位置發(fā)生沖突時(shí),它會(huì)自動(dòng)的往后尋找沒(méi)有發(fā)生沖突的位置,比如說(shuō)當(dāng)前數(shù)據(jù)的內(nèi)容如下:
當(dāng)插入的數(shù)據(jù)為33時(shí)計(jì)算的位置為3,可是位置3已經(jīng)被占領(lǐng)了并且4也被占領(lǐng)了,但是位置5沒(méi)有被占領(lǐng)所以插入數(shù)據(jù)33就會(huì)占領(lǐng)位置5,那么這里的圖片就如下:
這就是閉散列的插入原則,并且每個(gè)節(jié)點(diǎn)都有一個(gè)變量用來(lái)表示狀態(tài),這樣在查找就不會(huì)出現(xiàn)漏查的情況,但是這樣的實(shí)現(xiàn)會(huì)存在一個(gè)問(wèn)題,擴(kuò)容是根據(jù)有效數(shù)據(jù)的個(gè)數(shù)和vector容量來(lái)確定的,但是查找的時(shí)候是根據(jù)當(dāng)前元素的狀態(tài)是否為空來(lái)判斷后面還有沒(méi)有要查找的數(shù)據(jù),如果為空的話則說(shuō)明當(dāng)前元素的后面沒(méi)有我們要查找的元素,如果為存在或者被刪除的話就說(shuō)明當(dāng)前元素的后面還有我們要查找的數(shù)據(jù),如果我們不停的插入數(shù)據(jù)并且刪除數(shù)據(jù)的話就會(huì)導(dǎo)致容器中的每個(gè)元素的狀態(tài)都變成了被刪除這樣在查找一個(gè)不存的數(shù)據(jù)時(shí),就會(huì)陷入死循環(huán)的狀態(tài)那么這就是我們之前模擬實(shí)現(xiàn)的一個(gè)缺點(diǎn),那么這里我們就來(lái)看看第二個(gè)解決數(shù)據(jù)不集中的方法:拉鏈法或者叫哈希桶法。
拉鏈法/哈希桶的原理
這個(gè)方法就是每個(gè)位置上都是一個(gè)鏈表,如果有多個(gè)位置發(fā)生沖突了,那么就掛在這個(gè)位置的鏈表上,這樣就不會(huì)導(dǎo)致占領(lǐng)別人的位置,當(dāng)我們要查找的時(shí)候就是先找到插入數(shù)據(jù)的位置,然后再通過(guò)這個(gè)位置的鏈表來(lái)按照順序來(lái)進(jìn)行查找,比如說(shuō)下面的圖片
當(dāng)我們想要插入一個(gè)數(shù)據(jù)13時(shí)就會(huì)先計(jì)算13對(duì)應(yīng)在哈希表上的位置,根據(jù)之前的計(jì)算原則這里得到的位置就是3,所以圖片就變成了下面這樣:
如果再插入數(shù)據(jù)23的話這里計(jì)算的位置依然是3,但是此時(shí)3上已經(jīng)有元素了,所以這時(shí)就會(huì)使用鏈表的頭插將數(shù)據(jù)23插入到13的前面,那么這里的圖片就是下面這樣:
如果再插入數(shù)據(jù)33的話計(jì)算的位置依然是3,所以就會(huì)把33放到3號(hào)位置對(duì)應(yīng)的鏈表的頭部,那么這里的圖片就變成下面這樣:
那么這就是哈希桶的插入規(guī)則,找到對(duì)應(yīng)位置的鏈表將數(shù)據(jù)插入到頭部即可,如果要查找的話也是相同的原理先找到數(shù)據(jù)對(duì)應(yīng)的鏈表然后循環(huán)遍歷這個(gè)鏈表找到出現(xiàn)的數(shù)據(jù)即可,刪除也是相同的道理,先找到數(shù)據(jù)對(duì)應(yīng)的下標(biāo)然后根據(jù)下標(biāo)找到對(duì)應(yīng)的鏈表,最后遍歷鏈表找到要?jiǎng)h除的數(shù)據(jù)進(jìn)行鏈表的刪除即可,那么這就是哈希桶的實(shí)現(xiàn)思路接下來(lái)我們就來(lái)看看這種方法的準(zhǔn)備工作。
準(zhǔn)備工作
哈希的底層是一個(gè)vector的數(shù)組,數(shù)組中的每個(gè)節(jié)點(diǎn)都有一個(gè)pair類型的數(shù)據(jù),其次還有一個(gè)指針指向當(dāng)前鏈表節(jié)點(diǎn)的下一個(gè)節(jié)點(diǎn),所以每個(gè)節(jié)點(diǎn)中有個(gè)一個(gè)pair類型的數(shù)據(jù)和一個(gè)指向節(jié)點(diǎn)的指針,所以這里得創(chuàng)建一個(gè)類來(lái)描述每個(gè)節(jié)點(diǎn),并且類中有一個(gè)構(gòu)造函數(shù)來(lái)初始化節(jié)點(diǎn),這里的構(gòu)造函數(shù)就需要一個(gè)pair類型的參數(shù),在構(gòu)造函數(shù)里面就將指針初始化為nullptr將pair類型的參數(shù)賦值為傳遞過(guò)來(lái)的參數(shù),有因?yàn)檫@里的節(jié)點(diǎn)可能要存儲(chǔ)各種各樣的數(shù)據(jù),所以這里得創(chuàng)建個(gè)模板來(lái)接收各種各樣的參數(shù),并且模板的參數(shù)得是兩個(gè),那么這里的代碼就如下:
template<class K,class V> struct HashNode { HashNode(const pair<K,V>& kv) :_kv(kv) ,_next(nullptr) {} pair<K, V> _kv; HashNode* _next; };
根據(jù)前面的學(xué)習(xí)我們知道要想計(jì)算數(shù)據(jù)對(duì)應(yīng)在哈希表上的位置就得添加對(duì)應(yīng)的仿函數(shù),那么這里的代碼就如下
template<class K> struct HashFunc { size_t operator()(const K& key) { return (size_t)key; } }; template<> struct HashFunc<string> { size_t operator()(const string& s) { size_t res = 0; for (auto& ch : s) { res *= 131; res += ch; } return res; } };
最后就是哈希bucket類的準(zhǔn)備工作,首先這個(gè)類有一個(gè)模板,模板中有三個(gè)參數(shù),前兩個(gè)表示存儲(chǔ)數(shù)據(jù)的類型,最后一個(gè)表示的是仿函數(shù),因?yàn)楣5牡爻鞘莢ector數(shù)組,所以這里得添加一個(gè)vector容器用來(lái)存儲(chǔ)數(shù)據(jù)和一個(gè)整型變量用來(lái)記錄容器中有效字符的個(gè)數(shù)即可,并且vector中的每個(gè)元素都是節(jié)點(diǎn)類型,那么該類的構(gòu)造函數(shù)就將vector容器的resize到10個(gè)元素即可,那么這里的代碼就如下:
template<class K, class V, class Hash = HashFunc<K>> class BucketTable { typedef HashNode<K, V> Node; public: typedef HashNode<K, V> Node; BucketTable() :_n(0) { _tables.resize(10); } private: vector<Node*> _tables; size_t _n; };
看到這里我們的準(zhǔn)備工作就完成了接下來(lái)就要實(shí)現(xiàn)哈希的每個(gè)函數(shù)。
find函數(shù)
find函數(shù)就是先根據(jù)傳遞過(guò)來(lái)參數(shù)找到這個(gè)參數(shù)可能出現(xiàn)的位置,找到了位置就意味著找了一個(gè)鏈表的頭節(jié)點(diǎn),所以這個(gè)時(shí)候就可以通過(guò)循環(huán)遍歷的方式來(lái)一一對(duì)比鏈表中是否含有想要查找的數(shù)據(jù),如果存在的話就返回這個(gè)節(jié)點(diǎn)所在的地址,如果不存在的話就返回一個(gè)空指針,所以該函數(shù)的第一步就創(chuàng)建一個(gè)仿函數(shù)對(duì)象,并計(jì)算數(shù)據(jù)出現(xiàn)的位置:
Node* Find(const K& key) { Hash hf; size_t pos = hf(key) % _tables.size(); Node* cur=_tables[pos] }
cur指向的是鏈表的第一個(gè)元素,所以接下來(lái)就可以使用while循環(huán)一個(gè)一個(gè)的遍歷每個(gè)元素,每次循環(huán)都會(huì)改變cur的指向讓其指向下一個(gè)元素,知道cur本身變?yōu)榭站屯V共檎?,在循環(huán)體的內(nèi)部如果出現(xiàn)了跟查找變量一樣的值就直接返回這個(gè)節(jié)點(diǎn)的地址,如果循環(huán)結(jié)束了也沒(méi)有找到想要的值的話就返回一個(gè)空指針,那么這里的代碼就如下:
Node* Find(const K& key) { Hash hf; size_t pos = hf(key) % _tables.size(); Node* cur = _tables[pos]; while (cur) { if (cur->_kv.first == key) { return cur; } else { cur = cur->_next; } } return nullptr; }
插入函數(shù)
將數(shù)據(jù)插入的鏈表的時(shí)候得先判斷一下要插入的元素當(dāng)前是否已經(jīng)存在,所以這里可以使用find函數(shù)來(lái)進(jìn)行查找,根據(jù)find函數(shù)的返回值來(lái)判斷是否存在,那么這里的代碼就如下:
bool insert(const pair<K, V>& kv) { if (Find(kv.first)) { return false; } }
如果當(dāng)前的元素不存在的話就開(kāi)始插入數(shù)據(jù),這種實(shí)現(xiàn)方法也得根據(jù)傳遞過(guò)來(lái)的元素找到應(yīng)該插入的位置,所以該函數(shù)的第一步就是創(chuàng)建一個(gè)仿函數(shù)對(duì)象然后根據(jù)傳遞過(guò)來(lái)的參數(shù)計(jì)算得出應(yīng)該插入的位置,找到插入位置之后就使用頭插來(lái)插入對(duì)應(yīng)的數(shù)據(jù),這里的頭插就是先讓newnode的_next指向當(dāng)前位置的鏈表,然后修改vector中當(dāng)前位置的指向使其指向newnode,那么這里的代碼就如下:
bool insert(const pair<K, V>& kv) { if (Find(kv.first)) { return false; } Hash hf; size_t pos = hf(kv.first) % _tables.size(); Node* newnode = new HashNode<K,V>(kv); newnode->_next = _tables[pos]; _tables[pos] = newnode; ++_n; return true; }
這里依然得添加負(fù)載因子,官方庫(kù)中可以通過(guò)一些函數(shù)來(lái)得到當(dāng)前容器的負(fù)載因子和最大的負(fù)載因子,如果負(fù)載因子等于1了我們就擴(kuò)容,將其容量變?yōu)橹暗膬杀?,但是擴(kuò)容不能直接把鏈表對(duì)應(yīng)的移動(dòng)到新的容器上去因?yàn)檫@里的映射關(guān)系已經(jīng)改變了比如說(shuō)當(dāng)前容器的容量為10則數(shù)據(jù)18對(duì)應(yīng)的位置就是8上面的鏈表,如果容器發(fā)生了擴(kuò)容使得容量變成了20的話18就對(duì)應(yīng)的不再是8而是18上面的鏈表,所以我們這里解決的方法就是創(chuàng)建一個(gè)新的哈希表,然后遍歷容器中的每個(gè)位置,如果當(dāng)前位置不為空就往這個(gè)位置里面進(jìn)行遍歷對(duì)每個(gè)元素都進(jìn)行插入操作,如果當(dāng)前位置為空的話就跳轉(zhuǎn)到下一個(gè)元素,那么這里的代碼就如下:
bool insert(const pair<K, V>& kv) { if (!Find(kv.first)) { return false; } if (_n / _tables.size() == 1)//平衡因子為1就更新 { vector<Node*> newBH; newBH._tables.resize(_n * 2); for (auto& cur : _tables) { while (cur) { newBH.insert(cur->_kv); cur = cur->_next; } } _tables.swap(newBH._tables); } Hash hf; size_t pos = hf(kv.first) % _tables.size(); Node* newnode = new HashNode<K,V>(kv); newnode->_next = _tables[pos]; _tables[pos] = newnode; ++_n; return true; }
erase函數(shù)
erase函數(shù)也是分為三步來(lái)完成,首先找到節(jié)點(diǎn)對(duì)應(yīng)的鏈表,然后再找鏈表中是否存在該元素,如果不存在的話就返回false,如果存在的話就對(duì)該鏈表的該節(jié)點(diǎn)進(jìn)行刪除,因?yàn)檫@里刪除的時(shí)候得保證鏈表之間的上下鏈接,所以這里創(chuàng)建一個(gè)指向指向被刪除節(jié)點(diǎn)的前一個(gè)節(jié)點(diǎn),以此來(lái)保證刪除前后的鏈接,這里大家要注意的一點(diǎn)就是當(dāng)刪除的節(jié)點(diǎn)是頭節(jié)點(diǎn)時(shí),得改變vector容器中的指針的指向,那么這里的代碼就如下:
bool erase(const K& key) { HashFunc<K> HF; size_t pos = HF(key) % _tables.size(); Node* cur = _tables[pos]; Node* prev = cur; while (cur) { if (cur->_kv.first == key) { if (cur == _tables[pos]) { _tables[pos] = cur->_next; } else { prev->_next = cur->_next; } delete cur; _n--; return true; } else { prev = cur; cur = cur->_next; } } return false; }
代碼測(cè)試
可以通過(guò)下面的代碼來(lái)進(jìn)行相應(yīng)的測(cè)試看看我們上面寫的代碼是否是正確的:
void TestHT1() { BucketTable<int, int> ht; int a[] = { 18, 8, 7, 27, 57, 3, 38, 18 }; for (auto e : a) { ht.insert(make_pair(e, e)); } ht.insert(make_pair(17, 17)); ht.insert(make_pair(5, 5)); if (ht.Find(7)) { cout << "存在" << endl; } else { cout << "不存在" << endl; } ht.erase(7); if (ht.Find(7)) { cout << "存在" << endl; } else { cout << "不存在" << endl; } } int main() { TestHT1(); return 0; }
代碼的運(yùn)行結(jié)果如下:
我們可以再用下面的代碼來(lái)進(jìn)行一下測(cè)試:
void TestHT2() { string arr[] = { "蘋果", "西瓜", "香蕉", "草莓", "蘋果", "西瓜", "蘋果", "蘋果", "西瓜", "蘋果", "香蕉", "蘋果", "香蕉" }; //HashTable<string, int, HashFuncString> countHT; BucketTable<string, int> countHT; for (auto& e : arr) { HashNode<string, int>* ret = countHT.Find(e); if (ret) { ret->_kv.second++; } else { countHT.insert(make_pair(e, 1)); } } }
這段代碼的運(yùn)行結(jié)果如下:
有了這個(gè)游戲之后就可以對(duì)insert函數(shù)進(jìn)行改進(jìn),但是這里先不要急還有一個(gè)地方需要我們改進(jìn)的就是插入數(shù)據(jù)的時(shí)候,上面擴(kuò)容在插入數(shù)據(jù)的時(shí)候是創(chuàng)建一個(gè)哈希桶然后再調(diào)用哈希桶來(lái)插入原來(lái)哈希桶的每個(gè)數(shù)據(jù),如果這么做的話,在新的哈希桶里面又會(huì)不斷地創(chuàng)建地節(jié)點(diǎn),并且在函數(shù)結(jié)束地時(shí)候又會(huì)刪除節(jié)點(diǎn),如果節(jié)點(diǎn)的個(gè)數(shù)非常多的話這就會(huì)導(dǎo)致效率低下,所以我們這里就有一個(gè)改進(jìn)思路就是能不能用已有的節(jié)點(diǎn)來(lái)插入到新創(chuàng)建的哈希表呢?答案是可以的,我們依然是創(chuàng)建一個(gè)新的哈希表然后改變其內(nèi)部的大小,然后遍歷之前的老哈希表找到里面的元素并計(jì)算他在新表上的位置,然后修改其節(jié)點(diǎn)內(nèi)部指針的指向,那么這里的代碼如下:
if (_n / _tables.size() == 1)//平衡因子為1就更新 { /*vector<Node*> newBH;; newBH.resize(_n * 2); for (auto& cur : _tables) { while (cur) { newBH.insert(cur->_kv); cur = cur->_next; } } _tables.swap(newBH._tables);*/ vector<Node*> newBH; newBH._tables.resize(__stl_next_prime(_tables.size())); for (int i = 0; i < _tables.size(); i++) { Node* cur = _tables[i]; while (cur) { Node* next = cur->_next; size_t pos = Hash()(cur->_kv.first); cur->_next = newBH[pos]; newBH[pos] = cur; cur = next; } _tables[i] = nullptr; } }
以上就是C++實(shí)現(xiàn)哈希桶的詳細(xì)教程的詳細(xì)內(nèi)容,更多關(guān)于C++哈希桶的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
c++基礎(chǔ)算法動(dòng)態(tài)DP解決CoinChange問(wèn)題
這篇文章主要為大家介紹了c++基礎(chǔ)算法如何利用動(dòng)態(tài)DP來(lái)解決Coin Change的問(wèn)題示例過(guò)程,有需要的朋友可以借鑒參考下,希望能夠有所幫助2021-10-10C語(yǔ)言格式輸出二進(jìn)制的2種方法總結(jié)
眾所周知C中以八進(jìn)制,十進(jìn)制和十六進(jìn)制都可以通過(guò)%o,%d和%x輕松實(shí)現(xiàn),然而唯獨(dú)沒(méi)有提供二進(jìn)制輸出的快速方式,下面這篇文章主要給大家介紹了關(guān)于C語(yǔ)言格式輸出二進(jìn)制的2種方法,需要的朋友可以參考下2022-08-08C語(yǔ)言中結(jié)構(gòu)體封裝全局變量用法說(shuō)明
這篇文章主要介紹了C語(yǔ)言中結(jié)構(gòu)體封裝全局變量用法說(shuō)明,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2024-08-08深入學(xué)習(xí)C語(yǔ)言中的函數(shù)指針和左右法則
這篇文章主要介紹了深入學(xué)習(xí)C語(yǔ)言中的函數(shù)指針和左右法則,左右法則是一種常用的C指針聲明,需要的朋友可以參考下2015-08-08OpenCV利用對(duì)比度亮度變換實(shí)現(xiàn)水印去除
OpenCV中去除水印最常用的方法是inpaint,通過(guò)圖像修復(fù)的方法來(lái)去除水印。本文將介紹另一種方法:利用對(duì)比度亮度變換去除水印,需要的朋友可以參考一下2021-11-11C++中const、volatile、mutable使用方法小結(jié)
這篇文章主要介紹了C++中const、volatile、mutable使用方法小結(jié),需要的朋友可以參考下2020-01-01Vscode中接入Deepseek的實(shí)現(xiàn)
本文主要介紹了Vscode中接入Deepseek的實(shí)現(xiàn),包括登錄Deepseek官網(wǎng)、申請(qǐng)APIKEY、安裝和配置VSCode插件,具有一定的參考價(jià)值,感興趣的可以了解一下2025-02-02