網(wǎng)絡(luò)上關(guān)于增量搜集網(wǎng)頁(yè)的資料比較少,可能還不成熟的原因。
偶有所感啊。。。。
獲取url之后,存放在visittable中,并保存本次的指紋信息。
需要根據(jù)它的重要程度,初步估算一個(gè)搜集間隔。
當(dāng)?shù)竭_(dá)下次搜集時(shí)間,則搜集它,這個(gè)時(shí)候,根據(jù)上下兩次的
指紋,判斷是否有網(wǎng)頁(yè)是否有變化,以調(diào)整搜集間隔。
舉例:第一次間隔10天,10天后搜集發(fā)現(xiàn)有變化,則調(diào)整間隔為5天。
5天后搜集發(fā)現(xiàn)無(wú)變化,則調(diào)整間隔為7.5天,以得到一個(gè)差不多的值。
網(wǎng)站的重要程度也是一個(gè)方面,比如專門(mén)搜索mp3的搜索引擎,可以把
根本沒(méi)有mp3的網(wǎng)站列入無(wú)效網(wǎng)站,把mp3較多的網(wǎng)站列為專業(yè)網(wǎng)站,
縮小搜索間隔。
visittable表結(jié)構(gòu):
URLCode |
URL |
nextTime |
interval |
preInterval |
finger |
|
|
|
|
|
|
posted on 2008-05-22 22:23
merlinfang 閱讀(380)
評(píng)論(0) 編輯 收藏 引用 所屬分類:
搜索引擎