larbin源碼分析(四)hashTable類對(duì)象的實(shí)現(xiàn)
一 hashTable類對(duì)象
作用:爬蟲將爬取的url存儲(chǔ)在該類對(duì)象中,存儲(chǔ)方式是,url對(duì)象的hashcode,映射到對(duì)應(yīng)的表項(xiàng)中。
其中每一個(gè)url,映射成對(duì)應(yīng)table中的一個(gè)bit,其中表空間大小為 64000000(單位為bit),大小的定義存儲(chǔ)在types.h頭文件中。
爬去到的url需要在hashTable中進(jìn)行一次查找,若是不存在,則進(jìn)行進(jìn)一步遍歷。已經(jīng)存在,則不需要遍歷。
二 成員函數(shù)
HashTable(bool created ) 構(gòu)造函數(shù)
~HashTable() 析構(gòu)函數(shù)
save() ; 將hashTable存儲(chǔ)在文件中。
test(url * U) ;判斷對(duì)應(yīng)的url是否在hashTable 中
set(url * u) ; 將hashTable對(duì)應(yīng)的URL ,設(shè)置稱當(dāng)前的。
testset(url* u) 如果已經(jīng)添加返回true 。若是之前已經(jīng)存在返回false
三 實(shí)現(xiàn)
(1) HashTable(bool created)
當(dāng)created為true的時(shí)候,表示不需要從文件中讀取,直接進(jìn)行初始化,將table區(qū)域全部初始化為0即可。
若created為false的時(shí)候,表示需要從文件hashtable.bak中讀取存儲(chǔ)的數(shù)據(jù),將其存放進(jìn)hashtable類中的table緩沖區(qū)中。
(2) save() 函數(shù)實(shí)現(xiàn)
rename("hashtable.bak", "hashtable.old"); //將hashtable.bak文件存儲(chǔ)在臨時(shí)文件hashtable.old中
int fds = creat("hashtable.bak", 00600); //新創(chuàng)建hashtable.bak文件
if (fds >= 0) {
ecrireBuff(fds, table, hashSize/8); //將hashtable寫入文件
close(fds); //關(guān)閉操作
}
unlink("hashtable.old"); //對(duì)hashtable.old進(jìn)行解鏈操作
(3) bool test(url * U) //判斷url是否在hashtable中
{
int code = U->hashcode() ; //調(diào)用url的hashcode函數(shù)。
int pos = code / 8 ; //每一個(gè)url在hashtable中即為一個(gè)url
int index = 1 << code % 8 ;
return table[pos] & index
}
(4) hashTable::set (url *U) //將對(duì)應(yīng)的一個(gè)URL插入進(jìn)hashtable中
{
int code = U->hashcode() ; //調(diào)用url的hashcode函數(shù)。
int pos = code / 8 ; //每一個(gè)url在hashtable中即為一個(gè)url
int index = 1 << code % 8 ;
table[pos] |= index ;
}
(5) bool hashTable::testSet (url *U) { //若已經(jīng)存在此url則返回false,不存在則完成插入,然后返回true
int code = U->hashcode() ; //調(diào)用url的hashcode函數(shù)。
int pos = code / 8 ; //每一個(gè)url在hashtable中即為一個(gè)url
unsigned int index = 1 << code % 8 ;
int res = table[pos] & index ;
table[pos] |= index ;
return !res ;
}
四 總結(jié)
hashTable 用來存儲(chǔ)爬去下來的url,若是已經(jīng)存在則不進(jìn)行插入。
每一個(gè)url使用一個(gè)bit來進(jìn)行存儲(chǔ)。