最新研究搜索引擎了,做點筆記。
搜索引擎一般分為三個模塊: 網頁搜集、預處理和查詢服務。
網頁搜集是事先搜集的,在查詢的時候再去搜集明顯不可能了。而事先搜集又分為定期搜集和增量搜集。定期搜集是個全量的搜集過程,往往更新一次需要很長的時間,基本也不時新了,但是實現無疑要簡單點;增量搜集除第一次是全量的外,后續做的就是更新了(包括新增網頁,刪除過期的,以及更新),實現上要復雜的多?,F實上這兩種也是相輔相成的,如新聞的搜索要及時更新,但某些學術網站就很少更新了。
網頁搜集要解決的問題:
(1)各種類型的網頁(html、asp、javascript),各種語種(ascii, utf-8)
(2)網絡資源的多樣化(文件,圖片,文檔,音頻,視頻 etc.)
(3)搜索策略(深度優先,廣度優先)
(4)并發搜集(避免對同一站點同一時刻的大量訪問,不然就變成Dos攻擊了)
(5)避免重復搜集
記錄未訪問、已訪問URL和網頁內容摘要信息
域名與IP的對應問題
(6)判斷網頁的重要程度
1) 網頁的入度大,表明被其他網頁引用的次數多;
2) 某網頁的父網頁入度大;
3) 網頁的鏡像度高,說明網頁內容比較熱門,從而顯得重要;
4) 網頁的目錄深度小,易于用戶瀏覽到。
posted on 2008-03-04 21:52
merlinfang 閱讀(616)
評論(2) 編輯 收藏 引用 所屬分類:
搜索引擎