最新研究搜索引擎了,做點(diǎn)筆記。
搜索引擎一般分為三個模塊: 網(wǎng)頁搜集、預(yù)處理和查詢服務(wù)。
網(wǎng)頁搜集是事先搜集的,在查詢的時候再去搜集明顯不可能了。而事先搜集又分為定期搜集和增量搜集。定期搜集是個全量的搜集過程,往往更新一次需要很長的時間,基本也不時新了,但是實(shí)現(xiàn)無疑要簡單點(diǎn);增量搜集除第一次是全量的外,后續(xù)做的就是更新了(包括新增網(wǎng)頁,刪除過期的,以及更新),實(shí)現(xiàn)上要復(fù)雜的多。現(xiàn)實(shí)上這兩種也是相輔相成的,如新聞的搜索要及時更新,但某些學(xué)術(shù)網(wǎng)站就很少更新了。
網(wǎng)頁搜集要解決的問題:
(1)各種類型的網(wǎng)頁(html、asp、javascript),各種語種(ascii, utf-8)
(2)網(wǎng)絡(luò)資源的多樣化(文件,圖片,文檔,音頻,視頻 etc.)
(3)搜索策略(深度優(yōu)先,廣度優(yōu)先)
(4)并發(fā)搜集(避免對同一站點(diǎn)同一時刻的大量訪問,不然就變成Dos攻擊了)
(5)避免重復(fù)搜集
記錄未訪問、已訪問URL和網(wǎng)頁內(nèi)容摘要信息
域名與IP的對應(yīng)問題
(6)判斷網(wǎng)頁的重要程度
1) 網(wǎng)頁的入度大,表明被其他網(wǎng)頁引用的次數(shù)多;
2) 某網(wǎng)頁的父網(wǎng)頁入度大;
3) 網(wǎng)頁的鏡像度高,說明網(wǎng)頁內(nèi)容比較熱門,從而顯得重要;
4) 網(wǎng)頁的目錄深度小,易于用戶瀏覽到。
posted on 2008-03-04 21:52
merlinfang 閱讀(617)
評論(2) 編輯 收藏 引用 所屬分類:
搜索引擎