為生存而奔跑

:: 首頁 :: 聯(lián)系 :: 聚合

:: 管理

271 Posts :: 0 Stories :: 58 Comments :: 0 Trackbacks

留言簿(5)

我參與的團(tuán)隊(duì)

隨筆分類

隨筆檔案

相冊(cè)

Girl

搜索

積分與排名

積分 - 330187
排名 - 74

閱讀排行榜

評(píng)論排行榜

下一代Web搜索引擎探討

作者：鄧長(zhǎng)壽　　趙秉巖

摘要：本文在總結(jié)目前的Web搜索引擎現(xiàn)狀的基礎(chǔ)上，分析了目前的Web搜索引擎所面臨的四個(gè)主要挑戰(zhàn)，

探討了下一代Web搜索引擎的改進(jìn)措施和發(fā)展方向。

關(guān)鍵詞：Web搜索引擎；WWW；動(dòng)態(tài)頁面；XML

Internet的出現(xiàn)，尤其是WWW應(yīng)用的快速發(fā)展，使之已經(jīng)成為一個(gè)巨大的海量信息空間，其間的信息種類

也伴隨著應(yīng)用領(lǐng)域的拓展而更加豐富。 WWW上每天都有新頁面的產(chǎn)生，現(xiàn)有的頁面在不停地被更新，頁面

與頁面之間的聯(lián)系也趨于緊密和復(fù)雜。面對(duì)如此龐雜的信息資源，如果僅僅采用瀏覽器，獲取有價(jià)值的信

息是困難和低效的。Web搜索引擎的出現(xiàn)，為人們從WWW獲取信息發(fā)揮了重要的作用，但是，隨著信息量的

急劇增加和基于 WWW的新的應(yīng)用模式的出現(xiàn)，現(xiàn)有的Web搜索引擎也面臨著新的挑戰(zhàn)。因此，新的計(jì)算機(jī)

技術(shù)和網(wǎng)絡(luò)技術(shù)不斷地被應(yīng)用，來滿足人們?nèi)找婢?xì)的查詢信息的需求。本文在總結(jié)Web搜索引擎的現(xiàn)狀

的基礎(chǔ)上，指出其目前所面臨的四個(gè)挑戰(zhàn)，提出在下一代Web搜索引擎中可采取的新技術(shù)和方法。

1　Web搜索引擎現(xiàn)狀

根據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心（CNNIC）的統(tǒng)計(jì)，搜索引擎的應(yīng)用頻率僅次于電子郵件，名列第二，是人們

上網(wǎng)時(shí)最為重要的應(yīng)用工具之一。美國(guó)斯坦福大學(xué)的Arvind Arasu以及張繼成等分別對(duì)于目前的Web搜索

引擎的體系結(jié)構(gòu)進(jìn)行了分析，對(duì)于每個(gè)組成部分的主要功能及實(shí)現(xiàn)的關(guān)鍵技術(shù)進(jìn)行了詳細(xì)的闡述。從所使

用技術(shù)的角度，目前Web搜索引擎可分為三類：關(guān)鍵字式Web搜索引擎（Keywords Web Search Engine）、

目錄式的Web搜索引擎（Directory Web Search Engine）、元搜索引擎（Meta Search Engine）。

（1）關(guān)鍵字式Web搜索引擎。

關(guān)鍵字式Web搜索引擎是Internet上的一種常用的搜索引擎。一般先由搜索機(jī)器人（Robot）將網(wǎng)絡(luò)信息采

集到一個(gè)數(shù)據(jù)庫，建立文檔集合；再由本地服務(wù)器對(duì)于所收集的文檔進(jìn)行分類、索引，以供用戶進(jìn)行查詢

。這種搜索引擎的內(nèi)容更新較快，但是由于其一般采用了空間矢量相似模型，其查準(zhǔn)率不太高。國(guó)外的

Alta Vista和Lycos以及國(guó)內(nèi)的天網(wǎng)等屬于此類。

（2）目錄式的Web搜索引擎。

目錄式的Web搜索引擎先是以人工方式或半自動(dòng)化的方式收集信息，再由人工將信息分類放置于事先確定

的分類框架中，提供目錄服務(wù)。由于人工的參與，其信息準(zhǔn)確性和查詢的質(zhì)量較高。但是人工的介入也帶

來信息更新的不及時(shí)與信息量的不充足。如Yahoo和Sohu就屬于此類的搜索引擎。

（3）元搜索引擎。

元搜索引擎（Meta Search Engine）沒有自己的數(shù)據(jù)庫，是通過將用戶的查詢請(qǐng)求同時(shí)向多個(gè)其它類型的

搜索引擎提交，將重復(fù)的返回結(jié)果去除，按相關(guān)性重新排序之后，作為自己的結(jié)果，返回給用戶。這樣使

得查詢所獲得的結(jié)果信息量更大、更全。缺點(diǎn)是不能夠充分發(fā)揮所用的其它類型的搜索引擎的功能。一般

來說，用戶需要重新做較多的篩選。 Meta crawler、Profusion、Savvy Search等是元搜索引擎的典型代

表。

2　Web搜索引擎所面臨的挑戰(zhàn)

目前的Web搜索引擎在幫助人們有效查詢信息的過程中已經(jīng)發(fā)揮了巨大的作用，但是面對(duì)用戶的多樣化需

求和個(gè)性化服務(wù)的呼聲以及基于WWW的新的應(yīng)用模式的出現(xiàn)，Web搜索引擎技術(shù)面臨極大的挑戰(zhàn)。

（1）缺乏對(duì)于語義查詢的支持，用戶常為大量的與查詢無關(guān)的結(jié)果所困擾。

人們?cè)诶盟阉饕娌樵兯璧男畔r(shí)，常常會(huì)獲得大量的查找結(jié)果，其中一部分往往與查找者所期望的

差距較大。其原因是大部分的搜索引擎是利用查詢者所輸入的關(guān)鍵字與自己的文檔數(shù)據(jù)庫中的數(shù)據(jù)僅僅從

字面來進(jìn)行比較判斷，常常造成大量的答非所問信息的查詢結(jié)果提交。一個(gè)急需解決的問題是根據(jù)用戶僅

有幾個(gè)輸入詞，來猜測(cè)用戶真正需要查找什么。即實(shí)現(xiàn)語義查詢，來正確理解用戶的查詢需求。

（2）基于單數(shù)據(jù)庫模型的Web搜索引擎，查全率非常有限。

基于單數(shù)據(jù)庫模型的Web搜索引擎對(duì)于小規(guī)模的、靜態(tài)的、初期的Web信息的查詢是比較有效的。但是，隨

著Web規(guī)模的擴(kuò)大，更加豐富的內(nèi)容，大量動(dòng)態(tài)信息和需要經(jīng)授權(quán)才能訪問的內(nèi)容的出現(xiàn)，使得基于單數(shù)

據(jù)庫模型的Web搜索引擎所收集到信息非常有限，導(dǎo)致目前的搜索引擎的查全率非常有限，造成用戶可能

所需要的大量信息缺失。

（3）缺乏對(duì)于Web后臺(tái)數(shù)據(jù)庫中內(nèi)容查詢的支持，用戶所需的深層次的信息無法獲得。

隨著動(dòng)態(tài)頁面技術(shù)的不斷發(fā)展，Web上的動(dòng)態(tài)頁面數(shù)目不斷增加。可是，目前的Web搜索引擎的查找的對(duì)象

僅僅為可訪問的靜態(tài)頁面，對(duì)于那些用于生成動(dòng)態(tài)頁面內(nèi)容的后臺(tái)數(shù)據(jù)庫中的內(nèi)容，卻未加以訪問，致使

用戶所需的大量深層次的信息無法獲得。

（4）基于WWW的新應(yīng)用模式和新數(shù)據(jù)類型的出現(xiàn)，對(duì)傳統(tǒng)的搜索引擎提出新的挑戰(zhàn)。

在WWW被廣泛應(yīng)用之前，查詢技術(shù)主要有：對(duì)于文檔的基于關(guān)鍵詞匹配的檢索技術(shù)以及對(duì)于數(shù)據(jù)庫中的數(shù)

據(jù)的結(jié)構(gòu)化查詢。目前的Web搜索引擎基本是以關(guān)鍵詞匹配的信息檢索技術(shù)為基礎(chǔ)，對(duì)于傳統(tǒng)頁面HTML文

檔的查詢發(fā)揮了重要的作用，但是隨著XML數(shù)據(jù)在基于WWW的數(shù)字化圖書館和電子商務(wù)中的廣泛應(yīng)用，原有

的基于關(guān)鍵詞匹配的檢索技術(shù)顯得無法實(shí)現(xiàn)復(fù)雜應(yīng)用對(duì)于精細(xì)查詢的需求。如果將數(shù)據(jù)庫技術(shù)應(yīng)用于網(wǎng)上

數(shù)據(jù)的管理和查詢，則可以使查詢基于多個(gè)數(shù)據(jù)源，且查詢可以在更細(xì)的粒度上進(jìn)行。由于網(wǎng)上數(shù)據(jù)缺乏

統(tǒng)一的固定模式，數(shù)據(jù)不規(guī)則，且經(jīng)常變動(dòng)，這造成數(shù)據(jù)庫技術(shù)直接應(yīng)用于網(wǎng)上數(shù)據(jù)比較困難。于是研究

這種新類型數(shù)據(jù)的半結(jié)構(gòu)化數(shù)據(jù)模型應(yīng)運(yùn)而生。XML數(shù)據(jù)是一種自描述的個(gè)結(jié)構(gòu)化數(shù)據(jù)，它已經(jīng)成為數(shù)據(jù)

組織和交換的事實(shí)標(biāo)準(zhǔn)。由于其無模式及自描述的特點(diǎn)適宜于描述網(wǎng)上數(shù)據(jù)。隨著新應(yīng)用模式不斷出現(xiàn)在

WWW上，無結(jié)構(gòu)的HTML文檔及其相應(yīng)的信息檢索技術(shù)將不再適應(yīng)下一代更復(fù)雜的Web應(yīng)用。

總之，目前的Web搜索引擎主要采用的技術(shù)是在傳統(tǒng)的基于關(guān)鍵詞匹配的檢索技術(shù)的基礎(chǔ)之上，盡管其對(duì)

于用戶在Web上的信息查詢起了一定的作用，但面對(duì)數(shù)字圖書館和電子商務(wù)等新的應(yīng)用模式的出現(xiàn)和用戶

查詢要求的日益增加，現(xiàn)有的Web搜索引擎已不能很好的滿足用戶的需求。新技術(shù)的引入是勢(shì)在必行的。

3　下一代Web搜索引擎探討

面對(duì)上述的四個(gè)挑戰(zhàn)，本文認(rèn)為下一代Web搜索引擎的發(fā)展主要有兩個(gè)途徑：一個(gè)是對(duì)于基于關(guān)鍵字匹配

的檢索技術(shù)的搜索引擎進(jìn)一步完善；另一個(gè)是將數(shù)據(jù)庫技術(shù)引入對(duì)于WWW數(shù)據(jù)的管理和查詢。

3.1　對(duì)于基于關(guān)鍵字匹配的檢索技術(shù)的搜索引擎進(jìn)一步完善

為了讓W(xué)eb搜索引擎更好地為用戶服務(wù)，理論界已經(jīng)進(jìn)行了一些有益的探索。例如，Ramash在文獻(xiàn)《Link

Prediction and Path Analysis Using Markov Chains.　Proceedings of the 9th international

world wide Wed conference 》中提出了基于Markov鏈的鏈接分析技術(shù)和Dell在文獻(xiàn)《An efficient

algorithm to rank Web resources.　Proceedings of the 9th international world wide Web

conference》提出了一種綜合計(jì)算頁面信譽(yù)度的計(jì)算算法，可以改善Web搜索引擎的查詢結(jié)果。本文認(rèn)為

僅僅提高頁面的信譽(yù)度不能從根本上解決查準(zhǔn)率和查全率問題。為了提高用戶對(duì)于搜索引擎的滿意度，可

以通過擴(kuò)展搜索引擎對(duì)于語義查詢和動(dòng)態(tài)內(nèi)容查詢的支持、擴(kuò)展搜索引擎的體系結(jié)構(gòu)來實(shí)現(xiàn)提高搜索引擎

的性能。

3.1.1　提高查詢的精確度和充分理解用戶的查詢需求

Web搜索引擎的查詢結(jié)果與其對(duì)于用戶查詢需求的理解程度密切相關(guān)。為了提高查詢的精確度和對(duì)于用戶

查詢需求的理解的準(zhǔn)確度，在下一代Web搜索引擎中可以采用以下方法來解決。

（1）開發(fā)更多的專題型的Web搜索引擎。

傳統(tǒng)的信息檢索系統(tǒng)和通用型的Web搜索引擎是以查詢?nèi)我庵黝}為假設(shè)條件的。在現(xiàn)實(shí)中，部分的查詢是

針對(duì)一些較少數(shù)量的主題（比如，產(chǎn)品、娛樂和時(shí)事等等），若能充分利用這一規(guī)律，從Web中獲取信息

來建立一個(gè)關(guān)于主題的數(shù)據(jù)庫，再利用結(jié)構(gòu)化查詢技術(shù)進(jìn)行查詢，就可以使查詢返回的結(jié)果更加符合用戶

的要求。構(gòu)建一個(gè)專題型的搜索引擎需要解決的問題主要有：確認(rèn)相關(guān)的信息源、對(duì)于信息進(jìn)行抽取和分

類、以及對(duì)異源信息的集成。目前此類技術(shù)已經(jīng)應(yīng)用于一些原型系統(tǒng)和部分商業(yè)系統(tǒng)。在將來，基于不同

的機(jī)器學(xué)習(xí)技術(shù)的工具的出現(xiàn)，將更進(jìn)一步優(yōu)化對(duì)于文本的信息進(jìn)行分類和抽取。未來的專題的Web搜索

引擎將更加普遍，其中，Cora系統(tǒng)與Flipdog.com是專題型的Web搜索引擎的典型代表。

（2）Web搜索引擎查詢的自動(dòng)路由技術(shù)。

由于Web上用戶的數(shù)量極大，普通的用戶很難確定哪一個(gè)Web搜索引擎更適宜自己。因此，如果根據(jù)用戶的

查詢請(qǐng)求，針對(duì)某一個(gè)特定專題，自動(dòng)找到（route）的該專題的搜索引擎，那么就有利于提高其查詢效

率。為了實(shí)現(xiàn)用戶的查詢請(qǐng)求的自動(dòng)路由過程，通常需要訪問某個(gè)專題的Web搜索引擎的內(nèi)部數(shù)據(jù)庫。主

要采用的新技術(shù)有兩種：第一，是基于鄰居的身份確認(rèn)，即從已經(jīng)存在的Web文檔收集與一個(gè)搜索引擎相

關(guān)的主題的技術(shù)；第二，是查詢擴(kuò)展技術(shù)，主要用來評(píng)價(jià)查詢與搜索引擎已確認(rèn)的主題間的關(guān)聯(lián)程度。目

前已有一個(gè)效率較高的自動(dòng)路由系統(tǒng)Q—pilot實(shí)現(xiàn)了這一功能，但其性能仍然有待進(jìn)一步提高。

（3）Web搜索引擎之間的合作。

由于每一個(gè)Web搜索引擎對(duì)于Web頁面的搜索覆蓋范圍有限，因此，讓不同的Web搜索引擎協(xié)同工作，將會(huì)

提高效率。一種可行的方案是利用IP地址來劃分Web空間，在現(xiàn)有的每個(gè)Web搜索引擎各自負(fù)責(zé)一塊Web空

間的基礎(chǔ)上，將所有的Web搜索引擎聯(lián)合起來，使Web搜索引擎的覆蓋的范圍加大。Web搜索引擎合作的方

式主要有兩種：一種為主Web搜索引擎在查詢自己本地的頁面?zhèn)}庫的同時(shí)，將查詢請(qǐng)求同時(shí)提交給另外相

關(guān)的Web搜索引擎，然后，將經(jīng)過去除重復(fù)處理后的結(jié)果一并返回給用戶；第二種協(xié)作方式為在一個(gè)主Web

搜索引擎的Web頁面上鏈接到其他的Web搜索引擎。

（4）充分利用上下文提示，實(shí)現(xiàn)個(gè)性化的查詢。

當(dāng)前的Web搜索引擎總是認(rèn)為查詢請(qǐng)求是彼此孤立的。不同的用戶，相同的查詢請(qǐng)求，查詢結(jié)果是完全相

同的。下一代的Web搜索引擎將不斷地利用上下文提示信息，或者是用戶的明確的或含蓄的上下文信息，

實(shí)現(xiàn)個(gè)性化的查詢。在用戶輸入查詢時(shí)，選擇相關(guān)的上下文來顯示限制查詢的范圍；根據(jù)用戶的訪問的歷

史記錄來自動(dòng)實(shí)現(xiàn)上下文信息；利用用戶注冊(cè)信息的方法也可以有效地實(shí)現(xiàn)個(gè)性化的查詢。

（5）利用本體技術(shù)，提高Web搜索引擎的語義處理能力。

本體技術(shù)自90年代出現(xiàn)之后，其強(qiáng)大的語義表達(dá)和處理能力，使其在人工智能和計(jì)算機(jī)領(lǐng)域得到了廣泛的

應(yīng)用。在傳統(tǒng)的信息檢索模型基礎(chǔ)上附加能夠處理語義的“本體”，既增加了處理語義的能力，又保留原

模型中的關(guān)鍵部分。關(guān)鍵字式搜索引擎提供對(duì)文檔內(nèi)容的全文檢索，但是不提供索引詞的分類結(jié)構(gòu)，所以

也就不支持文檔的分類。目錄式的搜索引擎提供文檔分類結(jié)構(gòu)，但是不提供全文檢索功能。基于本體的

Web信息檢索模型除了具備處理語義的能力以外，還同時(shí)具備自動(dòng)的全文檢索功能和目錄分類結(jié)構(gòu)，將本

體技術(shù)引入搜索引擎，可以大大提高搜索引擎的語義處理能力，從而有希望實(shí)現(xiàn)用戶僅有的幾個(gè)輸入而真

正理解用戶的查詢請(qǐng)求，實(shí)現(xiàn)了真正的語義查詢。

3.1.2　體系結(jié)構(gòu)改進(jìn)

目前的Web搜索引擎是基于單個(gè)數(shù)據(jù)庫上的信息系統(tǒng)，已不能適應(yīng)大規(guī)模、異構(gòu)、分布式的網(wǎng)上數(shù)據(jù)特性

，使得信息的采集非常困難，由此也難以構(gòu)建新一代的Web搜索引擎。現(xiàn)在，基于多個(gè)數(shù)據(jù)庫的體系結(jié)構(gòu)

為Web搜索引擎提供了一個(gè)更為堅(jiān)實(shí)的基礎(chǔ)，因?yàn)樗黠@地體現(xiàn)了Web信息的多個(gè)站點(diǎn)、多個(gè)數(shù)據(jù)源的本質(zhì)

。傳統(tǒng)的基于單個(gè)數(shù)據(jù)庫的Web搜索引擎在多個(gè)數(shù)據(jù)模型當(dāng)中仍然可以發(fā)揮輔助性作用。多數(shù)據(jù)庫檢索模

型可分為小規(guī)模環(huán)境和人規(guī)模環(huán)境。小規(guī)模環(huán)境適用于單一的組織控制中，包含幾百個(gè)文本數(shù)據(jù)庫；大規(guī)

模環(huán)境適用于多個(gè)組織控制之中，可能包含成千上萬文本數(shù)據(jù)庫。基于多個(gè)數(shù)據(jù)庫模型可以分為兩類：消

息傳遞模型和中央資源選擇模型。消息傳遞模型是在多數(shù)據(jù)庫中進(jìn)行查詢的真正的分布式解決方案。但消

息傳遞模型的增加不必要的信息傳遞和計(jì)算、增大了網(wǎng)絡(luò)負(fù)擔(dān)的特性限制了其作為下一代Web搜索引擎的

模型；在其能夠成為下一代分布式Web搜索引擎的基礎(chǔ)之前，仍然有許多問題需要解決。相比之下，中央

資源選擇模型的處理大規(guī)模問題、比較高效地提供一致性的查詢結(jié)果、以及同時(shí)支持異構(gòu)數(shù)據(jù)源的集成等

特點(diǎn)使其更有可能成為下一代基于多數(shù)據(jù)庫平臺(tái)的Web搜索引擎的模型。因此，中央資源選擇的多數(shù)據(jù)庫

模型將極有可能成為下一代的Web搜索引擎的基礎(chǔ)。

3.1.3　增加對(duì)于動(dòng)態(tài)頁面的查詢

目前的Web搜索引擎的范圍僅僅為可索引的Web頁面，即那些通過超級(jí)鏈接來訪問的頁面，但是忽略了那些

需要授權(quán)才能訪問的頁面，特別是那些在后臺(tái)數(shù)據(jù)庫中存儲(chǔ)的內(nèi)容。許多研究表明Web中的大量信息是動(dòng)

態(tài)的，而且動(dòng)態(tài)內(nèi)容的產(chǎn)生機(jī)制各不相同。例如，有些頁面是服務(wù)器根據(jù)客戶端的請(qǐng)求產(chǎn)生的，有些是客

戶端利用內(nèi)嵌于主頁中的代碼來從服務(wù)器端獲取動(dòng)態(tài)的信息。隨著產(chǎn)生動(dòng)態(tài)頁面的技術(shù)不斷出現(xiàn)（例如

CGI，ASP，PHP。Active X，JavaServlet等），動(dòng)態(tài)內(nèi)容的產(chǎn)生方法已經(jīng)非常豐富，但目前的Web搜索引

擎幾乎不對(duì)動(dòng)態(tài)內(nèi)容進(jìn)行訪問。其原因是動(dòng)態(tài)內(nèi)容的特殊訪問機(jī)制不容易訓(xùn)練搜索機(jī)器人來自動(dòng)獲取信息

。對(duì)此，斯坦福大學(xué)的Sriram等給出了一個(gè)抽取動(dòng)態(tài)信息的框架的實(shí)驗(yàn)原型HiWE（Hidden Web Exposer）

。HiWE充分利用了動(dòng)態(tài)頁面的產(chǎn)生機(jī)制，利用人工輔助的方法解決動(dòng)態(tài)信息的提取。該模型是面向特定任

務(wù)的，即針對(duì)特定的應(yīng)用、特定的域和特定用戶（user Profile）。該原型的出現(xiàn)為完善Web搜索引擎的

功能提供了一個(gè)有益的思路，在下一代的Web搜索引擎中應(yīng)該集成類似的技術(shù)，從而能夠?qū)τ趧?dòng)態(tài)的Web頁

面進(jìn)行有效的查詢。

3.2　將數(shù)據(jù)庫技術(shù)應(yīng)用于Web搜索引擎

上述的對(duì)于基于傳統(tǒng)的信息檢索技術(shù)的Web搜索引擎的不斷改善，會(huì)提高現(xiàn)有Web搜索引擎的性能，更好地

滿足用戶的查詢需求。但是，由于數(shù)字化圖書館和電子商務(wù)等新的應(yīng)用的出現(xiàn)，無結(jié)構(gòu)的HTML文檔及其相

應(yīng)的信息檢索技術(shù)將不再適應(yīng)WWW數(shù)據(jù)管理與查詢的需求。將數(shù)據(jù)庫技術(shù)引入WWW數(shù)據(jù)管理與查詢，顯得尤

為迫切。

文獻(xiàn)《Web查詢技術(shù)研究》對(duì)于數(shù)據(jù)庫查詢和基于關(guān)鍵詞匹配的信息檢索技術(shù)進(jìn)行了詳細(xì)的比較。指出了

兩者的最大的一個(gè)區(qū)別是數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu)更強(qiáng)，比信息檢索的數(shù)據(jù)包含更多的語義。數(shù)據(jù)庫適合管理結(jié)

構(gòu)數(shù)據(jù)，信息檢索技術(shù)比較適合處理無結(jié)構(gòu)的數(shù)據(jù)。本質(zhì)上，信息檢索技術(shù)是使用“近似”的方法為用戶

查詢到相關(guān)的信息。具體而言，信息檢索技術(shù)與數(shù)據(jù)庫查詢相比，“近似”在如下三個(gè)方面。

（1）近似的檢索條件說明：在數(shù)據(jù)庫查詢中，包含了用戶所需信息的完全的條件說明；在基于關(guān)鍵字的

信息檢索條件說明往往是不完全的，甚至有時(shí)用戶不能完全描述條件。

（2）近似匹配：數(shù)據(jù)庫的查詢基于對(duì)條件的完全匹配；而在基于關(guān)鍵字的信息檢索中，此類匹配也有意

義，但通常用戶是從部分的匹配結(jié)果的選項(xiàng)中，選出最佳的匹配項(xiàng)。

（3）近似結(jié)果：基于關(guān)鍵詞匹配的信息檢索技術(shù)的最終結(jié)果傳遞給用戶用于瀏覽，結(jié)果是近似匹配得到

的，表征著項(xiàng)之間相關(guān)的可能性，所以查詢結(jié)果無須也不可能非常精確。用戶可以進(jìn)一步分析篩選系統(tǒng)返

回的結(jié)果，并且信息檢索系統(tǒng)中，匹配的失誤通常并不顯著影響系統(tǒng)性能。而數(shù)據(jù)庫對(duì)失誤更敏感，匹配

的失誤意味著系統(tǒng)的整體失敗。

隨著數(shù)據(jù)量的增加以及新的引用模式的出現(xiàn)。單一的基于關(guān)鍵詞匹配的檢索技術(shù)顯得力不從心。因此，引

進(jìn)數(shù)據(jù)庫技術(shù)，對(duì)于Web中的半結(jié)構(gòu)化信息的充分應(yīng)用，為進(jìn)一步改善Web搜索引擎的性能，提供了一個(gè)全

新的思路。XML為WWW中的數(shù)據(jù)管理提供了新的數(shù)據(jù)模型，將促進(jìn)成熟的數(shù)據(jù)庫技術(shù)引入Web信息處理領(lǐng)域

，把Web變?yōu)橐粋€(gè)巨大的數(shù)據(jù)庫，使得將數(shù)據(jù)庫技術(shù)擴(kuò)展到Web數(shù)據(jù)管理成為可能。

4　結(jié)語

隨著WWW上的數(shù)據(jù)量的激增以及數(shù)字圖書館、電子商務(wù)等新應(yīng)用模式的不斷出現(xiàn)，傳統(tǒng)的基于信息檢索技

術(shù)的Web搜索引擎不能滿足用戶的需要。一方面，可以對(duì)于傳統(tǒng)的信息檢索技術(shù)進(jìn)一步改進(jìn)，提高其性能

。例如，將人工智能，本體等技術(shù)引入Web搜索引擎，來提高其語義處理能力；對(duì)于產(chǎn)生動(dòng)態(tài)內(nèi)容的后臺(tái)

數(shù)據(jù)庫的訪問，來提高其查全率；擴(kuò)展傳統(tǒng)的基于單數(shù)據(jù)庫模型的體系結(jié)構(gòu)，來提高其性能。另一方面，

XML為WWW中的數(shù)據(jù)管理提供了新的數(shù)據(jù)模型，把WWW變成一個(gè)巨大的數(shù)據(jù)庫，使數(shù)據(jù)庫技術(shù)擴(kuò)展到WWW數(shù)據(jù)

的管理成為可能。總之，下一代web搜索引擎將是基于分布式模型的、采用最新查詢技術(shù)和最新的查詢語

言、能夠透明地搜索信息的網(wǎng)絡(luò)工具。

posted on 2009-09-25 22:55 baby-fly 閱讀(937) 評(píng)論(0) 編輯收藏引用所屬分類: Information Retrival / Data Mining

只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。
【推薦】100%開源！大型工業(yè)跨平臺(tái)軟件C++源碼提供，建模，組態(tài)！

相關(guān)文章: 轉(zhuǎn)自水木NLP，duckyaya版主總結(jié)的關(guān)于文本分類的若干資源。 NLP常用工具 List of English stop words [Lucene.Net] 基本用法 WordNet-based semantic similarity measurement Java WordNet API Lucene索引中term的頻率【轉(zhuǎn)】Lucene 搜索引擎倒排索引原理 Querying DBpedia 實(shí)戰(zhàn) Lucene，第 1 部分: 初識(shí) Lucene 轉(zhuǎn)自IBM

網(wǎng)站導(dǎo)航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理