作者:鄧長壽 趙秉巖
摘要:本文在總結目前的Web搜索引擎現狀的基礎上,分析了目前的Web搜索引擎所面臨的四個主要挑戰,
探討了下一代Web搜索引擎的改進措施和發展方向。
關鍵詞:Web搜索引擎;WWW;動態頁面;XML
Internet的出現,尤其是WWW應用的快速發展,使之已經成為一個巨大的海量信息空間,其間的信息種類
也伴隨著應用領域的拓展而更加豐富。 WWW上每天都有新頁面的產生,現有的頁面在不停地被更新,頁面
與頁面之間的聯系也趨于緊密和復雜。面對如此龐雜的信息資源,如果僅僅采用瀏覽器,獲取有價值的信
息是困難和低效的。Web搜索引擎的出現,為人們從WWW獲取信息發揮了重要的作用,但是,隨著信息量的
急劇增加和基于 WWW的新的應用模式的出現,現有的Web搜索引擎也面臨著新的挑戰。因此,新的計算機
技術和網絡技術不斷地被應用,來滿足人們日益精細的查詢信息的需求。本文在總結Web搜索引擎的現狀
的基礎上,指出其目前所面臨的四個挑戰,提出在下一代Web搜索引擎中可采取的新技術和方法。
1 Web搜索引擎現狀
根據中國互聯網絡信息中心(CNNIC)的統計,搜索引擎的應用頻率僅次于電子郵件,名列第二,是人們
上網時最為重要的應用工具之一。美國斯坦福大學的Arvind Arasu以及張繼成等分別對于目前的Web搜索
引擎的體系結構進行了分析,對于每個組成部分的主要功能及實現的關鍵技術進行了詳細的闡述。從所使
用技術的角度,目前Web搜索引擎可分為三類:關鍵字式Web搜索引擎(Keywords Web Search Engine)、
目錄式的Web搜索引擎(Directory Web Search Engine)、元搜索引擎(Meta Search Engine)。
(1)關鍵字式Web搜索引擎。
關鍵字式Web搜索引擎是Internet上的一種常用的搜索引擎。一般先由搜索機器人(Robot)將網絡信息采
集到一個數據庫,建立文檔集合;再由本地服務器對于所收集的文檔進行分類、索引,以供用戶進行查詢
。這種搜索引擎的內容更新較快,但是由于其一般采用了空間矢量相似模型,其查準率不太高。國外的
Alta Vista和Lycos以及國內的天網等屬于此類。
(2)目錄式的Web搜索引擎。
目錄式的Web搜索引擎先是以人工方式或半自動化的方式收集信息,再由人工將信息分類放置于事先確定
的分類框架中,提供目錄服務。由于人工的參與,其信息準確性和查詢的質量較高。但是人工的介入也帶
來信息更新的不及時與信息量的不充足。如Yahoo和Sohu就屬于此類的搜索引擎。
(3)元搜索引擎。
元搜索引擎(Meta Search Engine)沒有自己的數據庫,是通過將用戶的查詢請求同時向多個其它類型的
搜索引擎提交,將重復的返回結果去除,按相關性重新排序之后,作為自己的結果,返回給用戶。這樣使
得查詢所獲得的結果信息量更大、更全。缺點是不能夠充分發揮所用的其它類型的搜索引擎的功能。一般
來說,用戶需要重新做較多的篩選。 Meta crawler、Profusion、Savvy Search等是元搜索引擎的典型代
表。
2 Web搜索引擎所面臨的挑戰
目前的Web搜索引擎在幫助人們有效查詢信息的過程中已經發揮了巨大的作用,但是面對用戶的多樣化需
求和個性化服務的呼聲以及基于WWW的新的應用模式的出現,Web搜索引擎技術面臨極大的挑戰。
(1)缺乏對于語義查詢的支持,用戶常為大量的與查詢無關的結果所困擾。
人們在利用搜索引擎查詢所需的信息時,常常會獲得大量的查找結果,其中一部分往往與查找者所期望的
差距較大。其原因是大部分的搜索引擎是利用查詢者所輸入的關鍵字與自己的文檔數據庫中的數據僅僅從
字面來進行比較判斷,常常造成大量的答非所問信息的查詢結果提交。一個急需解決的問題是根據用戶僅
有幾個輸入詞,來猜測用戶真正需要查找什么。即實現語義查詢,來正確理解用戶的查詢需求。
(2)基于單數據庫模型的Web搜索引擎,查全率非常有限。
基于單數據庫模型的Web搜索引擎對于小規模的、靜態的、初期的Web信息的查詢是比較有效的。但是,隨
著Web規模的擴大,更加豐富的內容,大量動態信息和需要經授權才能訪問的內容的出現,使得基于單數
據庫模型的Web搜索引擎所收集到信息非常有限,導致目前的搜索引擎的查全率非常有限,造成用戶可能
所需要的大量信息缺失。
(3)缺乏對于Web后臺數據庫中內容查詢的支持,用戶所需的深層次的信息無法獲得。
隨著動態頁面技術的不斷發展,Web上的動態頁面數目不斷增加。可是,目前的Web搜索引擎的查找的對象
僅僅為可訪問的靜態頁面,對于那些用于生成動態頁面內容的后臺數據庫中的內容,卻未加以訪問,致使
用戶所需的大量深層次的信息無法獲得。
(4)基于WWW的新應用模式和新數據類型的出現,對傳統的搜索引擎提出新的挑戰。
在WWW被廣泛應用之前,查詢技術主要有:對于文檔的基于關鍵詞匹配的檢索技術以及對于數據庫中的數
據的結構化查詢。目前的Web搜索引擎基本是以關鍵詞匹配的信息檢索技術為基礎,對于傳統頁面HTML文
檔的查詢發揮了重要的作用,但是隨著XML數據在基于WWW的數字化圖書館和電子商務中的廣泛應用,原有
的基于關鍵詞匹配的檢索技術顯得無法實現復雜應用對于精細查詢的需求。如果將數據庫技術應用于網上
數據的管理和查詢,則可以使查詢基于多個數據源,且查詢可以在更細的粒度上進行。由于網上數據缺乏
統一的固定模式,數據不規則,且經常變動,這造成數據庫技術直接應用于網上數據比較困難。于是研究
這種新類型數據的半結構化數據模型應運而生。XML數據是一種自描述的個結構化數據,它已經成為數據
組織和交換的事實標準。由于其無模式及自描述的特點適宜于描述網上數據。隨著新應用模式不斷出現在
WWW上,無結構的HTML文檔及其相應的信息檢索技術將不再適應下一代更復雜的Web應用。
總之,目前的Web搜索引擎主要采用的技術是在傳統的基于關鍵詞匹配的檢索技術的基礎之上,盡管其對
于用戶在Web上的信息查詢起了一定的作用,但面對數字圖書館和電子商務等新的應用模式的出現和用戶
查詢要求的日益增加,現有的Web搜索引擎已不能很好的滿足用戶的需求。新技術的引入是勢在必行的。
3 下一代Web搜索引擎探討
面對上述的四個挑戰,本文認為下一代Web搜索引擎的發展主要有兩個途徑:一個是對于基于關鍵字匹配
的檢索技術的搜索引擎進一步完善;另一個是將數據庫技術引入對于WWW數據的管理和查詢。
3.1 對于基于關鍵字匹配的檢索技術的搜索引擎進一步完善
為了讓Web搜索引擎更好地為用戶服務,理論界已經進行了一些有益的探索。例如,Ramash在文獻《Link
Prediction and Path Analysis Using Markov Chains. Proceedings of the 9th international
world wide Wed conference 》中提出了基于Markov鏈的鏈接分析技術和Dell在文獻《An efficient
algorithm to rank Web resources. Proceedings of the 9th international world wide Web
conference》提出了一種綜合計算頁面信譽度的計算算法,可以改善Web搜索引擎的查詢結果。本文認為
僅僅提高頁面的信譽度不能從根本上解決查準率和查全率問題。為了提高用戶對于搜索引擎的滿意度,可
以通過擴展搜索引擎對于語義查詢和動態內容查詢的支持、擴展搜索引擎的體系結構來實現提高搜索引擎
的性能。
3.1.1 提高查詢的精確度和充分理解用戶的查詢需求
Web搜索引擎的查詢結果與其對于用戶查詢需求的理解程度密切相關。為了提高查詢的精確度和對于用戶
查詢需求的理解的準確度,在下一代Web搜索引擎中可以采用以下方法來解決。
(1)開發更多的專題型的Web搜索引擎。
傳統的信息檢索系統和通用型的Web搜索引擎是以查詢任意主題為假設條件的。在現實中,部分的查詢是
針對一些較少數量的主題(比如,產品、娛樂和時事等等),若能充分利用這一規律,從Web中獲取信息
來建立一個關于主題的數據庫,再利用結構化查詢技術進行查詢,就可以使查詢返回的結果更加符合用戶
的要求。構建一個專題型的搜索引擎需要解決的問題主要有:確認相關的信息源、對于信息進行抽取和分
類、以及對異源信息的集成。目前此類技術已經應用于一些原型系統和部分商業系統。在將來,基于不同
的機器學習技術的工具的出現,將更進一步優化對于文本的信息進行分類和抽取。未來的專題的Web搜索
引擎將更加普遍,其中,Cora系統與Flipdog.com是專題型的Web搜索引擎的典型代表。
(2)Web搜索引擎查詢的自動路由技術。
由于Web上用戶的數量極大,普通的用戶很難確定哪一個Web搜索引擎更適宜自己。因此,如果根據用戶的
查詢請求,針對某一個特定專題,自動找到(route)的該專題的搜索引擎,那么就有利于提高其查詢效
率。為了實現用戶的查詢請求的自動路由過程,通常需要訪問某個專題的Web搜索引擎的內部數據庫。主
要采用的新技術有兩種:第一,是基于鄰居的身份確認,即從已經存在的Web文檔收集與一個搜索引擎相
關的主題的技術;第二,是查詢擴展技術,主要用來評價查詢與搜索引擎已確認的主題間的關聯程度。目
前已有一個效率較高的自動路由系統Q—pilot實現了這一功能,但其性能仍然有待進一步提高。
(3)Web搜索引擎之間的合作。
由于每一個Web搜索引擎對于Web頁面的搜索覆蓋范圍有限,因此,讓不同的Web搜索引擎協同工作,將會
提高效率。一種可行的方案是利用IP地址來劃分Web空間,在現有的每個Web搜索引擎各自負責一塊Web空
間的基礎上,將所有的Web搜索引擎聯合起來,使Web搜索引擎的覆蓋的范圍加大。Web搜索引擎合作的方
式主要有兩種:一種為主Web搜索引擎在查詢自己本地的頁面倉庫的同時,將查詢請求同時提交給另外相
關的Web搜索引擎,然后,將經過去除重復處理后的結果一并返回給用戶;第二種協作方式為在一個主Web
搜索引擎的Web頁面上鏈接到其他的Web搜索引擎。
(4)充分利用上下文提示,實現個性化的查詢。
當前的Web搜索引擎總是認為查詢請求是彼此孤立的。不同的用戶,相同的查詢請求,查詢結果是完全相
同的。下一代的Web搜索引擎將不斷地利用上下文提示信息,或者是用戶的明確的或含蓄的上下文信息,
實現個性化的查詢。在用戶輸入查詢時,選擇相關的上下文來顯示限制查詢的范圍;根據用戶的訪問的歷
史記錄來自動實現上下文信息;利用用戶注冊信息的方法也可以有效地實現個性化的查詢。
(5)利用本體技術,提高Web搜索引擎的語義處理能力。
本體技術自90年代出現之后,其強大的語義表達和處理能力,使其在人工智能和計算機領域得到了廣泛的
應用。在傳統的信息檢索模型基礎上附加能夠處理語義的“本體”,既增加了處理語義的能力,又保留原
模型中的關鍵部分。關鍵字式搜索引擎提供對文檔內容的全文檢索,但是不提供索引詞的分類結構,所以
也就不支持文檔的分類。目錄式的搜索引擎提供文檔分類結構,但是不提供全文檢索功能。基于本體的
Web信息檢索模型除了具備處理語義的能力以外,還同時具備自動的全文檢索功能和目錄分類結構,將本
體技術引入搜索引擎,可以大大提高搜索引擎的語義處理能力,從而有希望實現用戶僅有的幾個輸入而真
正理解用戶的查詢請求,實現了真正的語義查詢。
3.1.2 體系結構改進
目前的Web搜索引擎是基于單個數據庫上的信息系統,已不能適應大規模、異構、分布式的網上數據特性
,使得信息的采集非常困難,由此也難以構建新一代的Web搜索引擎。現在,基于多個數據庫的體系結構
為Web搜索引擎提供了一個更為堅實的基礎,因為它明顯地體現了Web信息的多個站點、多個數據源的本質
。傳統的基于單個數據庫的Web搜索引擎在多個數據模型當中仍然可以發揮輔助性作用。多數據庫檢索模
型可分為小規模環境和人規模環境。小規模環境適用于單一的組織控制中,包含幾百個文本數據庫;大規
模環境適用于多個組織控制之中,可能包含成千上萬文本數據庫。基于多個數據庫模型可以分為兩類:消
息傳遞模型和中央資源選擇模型。消息傳遞模型是在多數據庫中進行查詢的真正的分布式解決方案。但消
息傳遞模型的增加不必要的信息傳遞和計算、增大了網絡負擔的特性限制了其作為下一代Web搜索引擎的
模型;在其能夠成為下一代分布式Web搜索引擎的基礎之前,仍然有許多問題需要解決。相比之下,中央
資源選擇模型的處理大規模問題、比較高效地提供一致性的查詢結果、以及同時支持異構數據源的集成等
特點使其更有可能成為下一代基于多數據庫平臺的Web搜索引擎的模型。因此,中央資源選擇的多數據庫
模型將極有可能成為下一代的Web搜索引擎的基礎。
3.1.3 增加對于動態頁面的查詢
目前的Web搜索引擎的范圍僅僅為可索引的Web頁面,即那些通過超級鏈接來訪問的頁面,但是忽略了那些
需要授權才能訪問的頁面,特別是那些在后臺數據庫中存儲的內容。許多研究表明Web中的大量信息是動
態的,而且動態內容的產生機制各不相同。例如,有些頁面是服務器根據客戶端的請求產生的,有些是客
戶端利用內嵌于主頁中的代碼來從服務器端獲取動態的信息。隨著產生動態頁面的技術不斷出現(例如
CGI,ASP,PHP。Active X,JavaServlet等),動態內容的產生方法已經非常豐富,但目前的Web搜索引
擎幾乎不對動態內容進行訪問。其原因是動態內容的特殊訪問機制不容易訓練搜索機器人來自動獲取信息
。對此,斯坦福大學的Sriram等給出了一個抽取動態信息的框架的實驗原型HiWE(Hidden Web Exposer)
。HiWE充分利用了動態頁面的產生機制,利用人工輔助的方法解決動態信息的提取。該模型是面向特定任
務的,即針對特定的應用、特定的域和特定用戶(user Profile)。該原型的出現為完善Web搜索引擎的
功能提供了一個有益的思路,在下一代的Web搜索引擎中應該集成類似的技術,從而能夠對于動態的Web頁
面進行有效的查詢。
3.2 將數據庫技術應用于Web搜索引擎
上述的對于基于傳統的信息檢索技術的Web搜索引擎的不斷改善,會提高現有Web搜索引擎的性能,更好地
滿足用戶的查詢需求。但是,由于數字化圖書館和電子商務等新的應用的出現,無結構的HTML文檔及其相
應的信息檢索技術將不再適應WWW數據管理與查詢的需求。將數據庫技術引入WWW數據管理與查詢,顯得尤
為迫切。
文獻《Web查詢技術研究》對于數據庫查詢和基于關鍵詞匹配的信息檢索技術進行了詳細的比較。指出了
兩者的最大的一個區別是數據庫的數據結構更強,比信息檢索的數據包含更多的語義。數據庫適合管理結
構數據,信息檢索技術比較適合處理無結構的數據。本質上,信息檢索技術是使用“近似”的方法為用戶
查詢到相關的信息。具體而言,信息檢索技術與數據庫查詢相比,“近似”在如下三個方面。
(1)近似的檢索條件說明:在數據庫查詢中,包含了用戶所需信息的完全的條件說明;在基于關鍵字的
信息檢索條件說明往往是不完全的,甚至有時用戶不能完全描述條件。
(2)近似匹配:數據庫的查詢基于對條件的完全匹配;而在基于關鍵字的信息檢索中,此類匹配也有意
義,但通常用戶是從部分的匹配結果的選項中,選出最佳的匹配項。
(3)近似結果:基于關鍵詞匹配的信息檢索技術的最終結果傳遞給用戶用于瀏覽,結果是近似匹配得到
的,表征著項之間相關的可能性,所以查詢結果無須也不可能非常精確。用戶可以進一步分析篩選系統返
回的結果,并且信息檢索系統中,匹配的失誤通常并不顯著影響系統性能。而數據庫對失誤更敏感,匹配
的失誤意味著系統的整體失敗。
隨著數據量的增加以及新的引用模式的出現。單一的基于關鍵詞匹配的檢索技術顯得力不從心。因此,引
進數據庫技術,對于Web中的半結構化信息的充分應用,為進一步改善Web搜索引擎的性能,提供了一個全
新的思路。XML為WWW中的數據管理提供了新的數據模型,將促進成熟的數據庫技術引入Web信息處理領域
,把Web變為一個巨大的數據庫,使得將數據庫技術擴展到Web數據管理成為可能。
4 結語
隨著WWW上的數據量的激增以及數字圖書館、電子商務等新應用模式的不斷出現,傳統的基于信息檢索技
術的Web搜索引擎不能滿足用戶的需要。一方面,可以對于傳統的信息檢索技術進一步改進,提高其性能
。例如,將人工智能,本體等技術引入Web搜索引擎,來提高其語義處理能力;對于產生動態內容的后臺
數據庫的訪問,來提高其查全率;擴展傳統的基于單數據庫模型的體系結構,來提高其性能。另一方面,
XML為WWW中的數據管理提供了新的數據模型,把WWW變成一個巨大的數據庫,使數據庫技術擴展到WWW數據
的管理成為可能。總之,下一代web搜索引擎將是基于分布式模型的、采用最新查詢技術和最新的查詢語
言、能夠透明地搜索信息的網絡工具。