Bitmap海量數(shù)據(jù)快速查找去重代碼示例
題目描述
給你一個(gè)文件,里面包含40億個(gè)整數(shù),寫(xiě)一個(gè)算法找出該文件中不包含的一個(gè)整數(shù), 假設(shè)你有1GB內(nèi)存可用。
如果你只有10MB的內(nèi)存呢?
解題思路
對(duì)于40億個(gè)整數(shù),如果直接用int數(shù)組來(lái)表示的大約要用4010^84B=16GB,超出了內(nèi)存要求,這里
我們可以用bitmap來(lái)解決,bitmap基本思想是一位表示一個(gè)整數(shù),比如我們有6個(gè)數(shù)據(jù):
1
7 3 1 5 6 4
假設(shè)bitmap容量為8,當(dāng)插入7時(shí) bit[7]=1,以此類(lèi)推
bit[3]=1
bit[1]=1
bit[5]=1
……
bit[4]=1
這樣我們查詢(xún)5,只需要查看bit[5]==1側(cè)存在,否則不存在。
這樣一個(gè)位代表一個(gè)數(shù)據(jù),那40一個(gè)數(shù)據(jù)大概要4010^8bit = 0.5GB,滿(mǎn)足內(nèi)存要求。
實(shí)現(xiàn)細(xì)節(jié)
首先我們用int來(lái)表示:int bmap[1+N/32]; //N是總數(shù),N=40億,一個(gè)int32bit
然后我們插入一個(gè)整數(shù)val,要先計(jì)算val位于數(shù)組bmap中的索引:index = val/32;
比如整數(shù)33,index=33/32=1,第33位于數(shù)組中的index=1
比如整數(shù)67,index=67/32=2,位于數(shù)組中index=2
然后在計(jì)算在這個(gè)index中的位置,因?yàn)閿?shù)組中的每個(gè)元素有32位
33,index=1,在1中的位置為33%32=1
67,index=2,在2中的位置為67%32=3
然后就是標(biāo)識(shí)這個(gè)位置為1:
bmap[val/32] |= (1<<(val%32));
33: bmap[1] != (1<<1);//xxxxxx 1 x,紅絲位置被置為1
67: bmap[2] != (1<<3);//xxxx 1 xxx
代碼
void setVal(int val)
{
bmap[val / 32] |= (1 << (val % 32));
//bmap[val>>5] != (val&0x1F);//這個(gè)更快?
}
怎樣檢測(cè)整數(shù)是否存在?
比如我們檢測(cè)33,同樣我們需要計(jì)算index,以及在index元素中的位置
33: index = 1, 在bmap[1]中的位置為 1,只需要檢測(cè)這個(gè)位置是否為1
bmp[1] &(1<<1),這樣是1返回true,否側(cè)返回false
67:bmp[2]&(1<<3)
127:bmp[3]&(1<<31)
代碼:
bool testVal(int val)
{
return bmap[val / 32] & (1 << (val % 32));
//return bmap[val>>5] & (val&0x1F);
}
下面是完整測(cè)試代碼:
const int N = MaxN;
const int BitLen = 32;
int bmap[1 + N / BitLen];
void setVal(int val)
{
bmap[val / BitLen] |= (1 << (val % BitLen));
}
bool testVal(int val)
{
return bmap[val / BitLen] & (1 << (val % BitLen));
}
void funTest()
{
int a[] = { 1, 2, 3, 4, 6, 7};
for (int i = 0; i < 6; ++i)
{
setVal(a[i]);
}
std:: cout << testVal(5) << std:: endl;
return 0;
}
現(xiàn)在我們來(lái)看如果內(nèi)存要求是10MB呢?
這當(dāng)然不能用bitmap來(lái)直接計(jì)算。因?yàn)閺?0億數(shù)據(jù)找出一個(gè)不存在的數(shù)據(jù),我們可以將這么多的數(shù)據(jù)分成許多塊, 比如每一個(gè)塊的大小是1000,那么第一塊保存的就是0到999的數(shù),第2塊保存的就是1000 到1999的數(shù)……
實(shí)際上我們并不保存這些數(shù),而是給每一個(gè)塊設(shè)置一個(gè)計(jì)數(shù)器。 這樣每讀入一個(gè)數(shù),我們就在它所在的塊對(duì)應(yīng)的計(jì)數(shù)器加1。
處理結(jié)束之后, 我們找到一個(gè)塊,它的計(jì)數(shù)器值小于塊大小(1000), 說(shuō)明了這一段里面一定有數(shù)字是文件中所不包含的。然后我們單獨(dú)處理這個(gè)塊即可。接下來(lái)我們就可以用Bit Map算法了。我們?cè)俦闅v一遍數(shù)據(jù), 把落在這個(gè)塊的數(shù)對(duì)應(yīng)的位置1(我們要先把這個(gè)數(shù)歸約到0到blocksize之間)。 最后我們找到這個(gè)塊中第一個(gè)為0的位,其對(duì)應(yīng)的數(shù)就是一個(gè)沒(méi)有出現(xiàn)在該文件中的數(shù)。)
代碼如下(一個(gè)測(cè)試的代碼):
const int N = 1000;
const int BITLEN = 32;
const int BLOCK_SIZE = 100;
int Bucket[1 + N / BLOCK_SIZE] = { 0};
int BitMap[1 + BLOCK_SIZE / BITLEN] = { 0};
void test()
{
//生成測(cè)試數(shù)據(jù)
freopen("test.txt", "w", stdout);
for (int i = 0; i < 1000; ++i)
{
if (i == 127) {
printf("0\n");
continue;
}
printf("%d\n", i);
}
fclose(stdout);
//讀入測(cè)試數(shù)據(jù)
freopen("test.txt", "r", stdin);
int Value;
while (scanf("%d", & Value) != EOF) {
++Bucket[Value / BLOCK_SIZE]; //測(cè)試數(shù)據(jù)分段累計(jì)
}
fclose(stdin);
//找出累計(jì)計(jì)數(shù)小于BLOCK_SIZE的
int Start = -1, i;
for (i = 0; i < 1 + N / BLOCK_SIZE; ++i) {
if (Bucket[i] < BLOCK_SIZE) {
Start = i * BLOCK_SIZE;
break;
}
}
if (i == 1 + N / BLOCK_SIZE || Bucket[N / BLOCK_SIZE] == 0 && i == N / BLOCK_SIZE) return;
int End = Start + BLOCK_SIZE - 1;
//在不滿(mǎn)足的那段用bitmap來(lái)檢測(cè)
freopen("test.txt", "r", stdin);
while (scanf("%d", & Value) != EOF) {
if (Value >= Start && Value <= End)//Value必須滿(mǎn)足在那段
{
int Temp = Value - Start;
BitMap[Temp / BITLEN] |= (1 << (Temp % BITLEN));
}
}
fclose(stdin);
//找出不存在的數(shù)
freopen("re.txt", "w", stdout);
bool Found = false;
for (int i = 0; i < 1 + BLOCK_SIZE / BITLEN; ++i)
{
for (int k = 0; k < BITLEN; ++k)
{
if ((BitMap[i] & (1 << k)) == 0) {
printf("%d ", i * BITLEN + k + Start);
Found = true;
break;
}
}
if (Found) break;
}
fclose(stdout);
}
以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
Flutter項(xiàng)目在 iOS14 啟動(dòng)崩潰的解決方法
這篇文章主要介紹了Flutter項(xiàng)目在 iOS14 啟動(dòng)崩潰的解決方法,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-09-09
android如何添加桌面圖標(biāo)和卸載程序后自動(dòng)刪除圖標(biāo)
android如何添加桌面圖標(biāo)和卸載程序后自動(dòng)刪除桌面圖標(biāo),這是一個(gè)應(yīng)用的安裝與卸載過(guò)程對(duì)桌面圖標(biāo)的操作,下面與大家分享下具體是如何實(shí)現(xiàn)的,感興趣的朋友可以參考下哈2013-06-06
Android仿京東淘寶自動(dòng)無(wú)限循環(huán)輪播控件思路詳解
在A(yíng)pp的開(kāi)發(fā)中,很多的時(shí)候都需要實(shí)現(xiàn)類(lèi)似京東淘寶一樣的自動(dòng)無(wú)限輪播的廣告欄,這里小編寫(xiě)了一個(gè),分享到腳本之家平臺(tái)供大家參考2017-04-04
Android用注解與反射實(shí)現(xiàn)Butterknife功能
Butterknife是一個(gè)在android上實(shí)現(xiàn)ioc(控制反轉(zhuǎn))的一個(gè)庫(kù)。ioc的核心是解耦。解耦的目的是修改耦合對(duì)象時(shí)不影響另外一個(gè)對(duì)象,降低模塊之間的關(guān)聯(lián)。在Spring中ioc更多的是依靠xml的配置。而android上的IOC框架可以不使用xml配置2022-11-11
Android自定義相機(jī)實(shí)現(xiàn)自動(dòng)對(duì)焦和手動(dòng)對(duì)焦
這篇文章主要為大家詳細(xì)介紹了android手動(dòng)實(shí)現(xiàn)相機(jī)自動(dòng)和手動(dòng)對(duì)焦功能,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2016-12-12
android采用FFmpeg實(shí)現(xiàn)音視頻合成與分離
這篇文章主要為大家詳細(xì)介紹了android采用FFmpeg實(shí)現(xiàn)音視頻合成與分離,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-12-12
Android如何創(chuàng)建可拖動(dòng)的圖片控件
這篇文章主要為大家詳細(xì)介紹了Android如何創(chuàng)建可拖動(dòng)的圖片控件,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-03-03
Android自定義Camera實(shí)現(xiàn)拍照功能
這篇文章主要為大家詳細(xì)介紹了Android自定義Camera實(shí)現(xiàn)拍照功能,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-05-05
Android編程開(kāi)發(fā)音樂(lè)播放器實(shí)例
這篇文章主要介紹了Android編程開(kāi)發(fā)音樂(lè)播放器,結(jié)合實(shí)例形式分析了Android音樂(lè)播放器開(kāi)發(fā)所涉及的SeekBar,ListView,廣播接收者(以代碼的形式注冊(cè)Receiver),系統(tǒng)服務(wù),MediaPlayer等技巧,需要的朋友可以參考下2016-01-01

