C語言堆結(jié)構(gòu)處理TopK問題詳解
問題
在一百萬個(gè)數(shù)據(jù)中,求出最大的k個(gè)數(shù)字,怎么效率高。
1. 將一百萬個(gè)數(shù)據(jù)排序,承接上一篇的堆排序,時(shí)間復(fù)雜度為O(N * LogN)。但是顯然這并不是最優(yōu)解。
2. 一百萬個(gè)數(shù)據(jù)放入一個(gè)數(shù)組中,將其視為一個(gè)完全二叉樹,并用向下調(diào)整算法將其調(diào)整為一個(gè)大堆/小堆,然后Top/Popk次,即可求出前K個(gè)最大/最小的數(shù)字,時(shí)間復(fù)雜度為:O(N + K*LogN)
3. 用正確的堆處理TopK算法: 先假設(shè)求最大的K個(gè)數(shù)字,則建立大小為K的小根堆,然后在一百萬-k個(gè)數(shù)據(jù)中,逐個(gè)遍歷,若某個(gè)數(shù)據(jù)比小根堆的堆頂元素大,則替換掉堆頂元素,然后向下調(diào)整,使得這個(gè)堆重新變回一個(gè)小根堆。 時(shí)間復(fù)雜度為:O(K + (N-k)*LogK)
其實(shí)相較于2,3并沒有時(shí)間上的很大提升,但是3在空間復(fù)雜度上有了巨大提升,2的空間為O(N),3為O(K)。 折中思考,3方法是求數(shù)據(jù)量較大的數(shù)據(jù)集合中前K個(gè)最大值/最小值的最佳方法
分析
求K個(gè)最大值,建小堆,是因?yàn)椋舯闅v途中遇到了那K個(gè)數(shù)中的某一個(gè),他一定比堆頂元素大,然后替換進(jìn)去之后,向下調(diào)整,可以使得這個(gè)數(shù)字置于這個(gè)小根堆的底部。從而達(dá)到目的。
代碼實(shí)現(xiàn)
void AdjustUp(int* a, int child) { int parent = (child - 1) / 2; while (child > 0) { if (a[child] > a[parent]) { swap(a[parent], a[child]); child = parent; parent = (child - 1) / 2; } else { break; } } } void AdjustDown(int* a,int size, int parent) // size 是總大小,parent是從哪里開始向下調(diào)整 { int child = parent * 2 + 1; while (child < size) { if (child + 1 < size && a[child + 1] > a[child]) child++; if (a[child] > a[parent]) { swap(a[child], a[parent]); parent = child; child = parent * 2 + 1; } else { break; } } }
void Print_Heap_Topk(int* a, int n, int k) { int* KMaxHeap = new int[k]; // 最大堆存最小的K個(gè)數(shù) for (int i = 0; i < k; ++i) { KMaxHeap[i] = a[i]; } for (int i = (k - 1 - 1) / 2; i >= 0; --i) { AdjustDown(KMaxHeap, k, i); } for (int i = k; i < n; ++i) { if (a[i] < KMaxHeap[0]) KMaxHeap[0] = a[i]; AdjustDown(KMaxHeap, k, 0); } for (int i = 0; i < k; ++i) { cout << KMaxHeap[i] << " "; } cout << endl; } void test_topk() { int n = 10000; int* a = new int[n]; srand(time(0)); for (int i = 0; i < n; ++i) a[i] = rand() % 1000000; a[5] = 1000000 + 1; a[1231] = 1000000 + 2; a[531] = 1000000 + 3; a[5121] = 1000000 + 4; a[120] = 1000000 + 5; a[99] = 1000000 + 6; a[0] = 1000000 + 7; a[76] = 1000000 + 8; a[423] = 1000000 + 9; a[3144] = 1000000 + 10; a[333] = -100; a[999] = -200; a[777] = -500; a[888] = -800; a[111] = -1000; a[798] = -1; a[1111] = -250; a[2222] = -350; a[3333] = -450; a[4444] = -550; Print_Heap_Topk(a, n, 10); } int main() { test_topk(); return 0; }
到此這篇關(guān)于C語言堆結(jié)構(gòu)處理TopK問題詳解的文章就介紹到這了,更多相關(guān)C語言TopK問題內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
makefile如何調(diào)用靜態(tài)庫的方法實(shí)現(xiàn)
這篇文章主要介紹了makefile如何調(diào)用靜態(tài)庫的方法實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-12-12C++學(xué)習(xí)小結(jié)之?dāng)?shù)據(jù)類型及轉(zhuǎn)換方式
本文給大家分享的是本人在學(xué)習(xí)C++過程中的一個(gè)小心得,關(guān)于數(shù)據(jù)類型和轉(zhuǎn)換方式的,這里記錄下來,推薦給菜鳥們,高手大神請直接飄過。2015-07-07