• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            為生存而奔跑

               :: 首頁(yè) :: 聯(lián)系 :: 聚合  :: 管理
              271 Posts :: 0 Stories :: 58 Comments :: 0 Trackbacks

            留言簿(5)

            我參與的團(tuán)隊(duì)

            搜索

            •  

            積分與排名

            • 積分 - 326992
            • 排名 - 74

            最新評(píng)論

            閱讀排行榜

            評(píng)論排行榜

            轉(zhuǎn):http://www.ibm.com/developerworks/cn/java/j-lo-lucene1/
            本文首先介紹了Lucene的一些基本概念,然后開發(fā)了一個(gè)應(yīng)用程序演示了利用Lucene建立索引并在該索引上進(jìn)行搜索的過(guò)程。

            Lucene 簡(jiǎn)介

            Lucene 是一個(gè)基于 Java 的全文信息檢索工具包,它不是一個(gè)完整的搜索應(yīng)用程序,而是為你的應(yīng)用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一個(gè)開源項(xiàng)目。也是目前最為流行的基于 Java 開源全文檢索工具包。

            目前已經(jīng)有很多應(yīng)用程序的搜索功能是基于 Lucene 的,比如 Eclipse 的幫助系統(tǒng)的搜索功能。Lucene 能夠?yàn)槲谋绢愋偷臄?shù)據(jù)建立索引,所以你只要能把你要索引的數(shù)據(jù)格式轉(zhuǎn)化的文本的,Lucene 就能對(duì)你的文檔進(jìn)行索引和搜索。比如你要對(duì)一些 HTML 文檔,PDF 文檔進(jìn)行索引的話你就首先需要把 HTML 文檔和 PDF 文檔轉(zhuǎn)化成文本格式的,然后將轉(zhuǎn)化后的內(nèi)容交給 Lucene 進(jìn)行索引,然后把創(chuàng)建好的索引文件保存到磁盤或者內(nèi)存中,最后根據(jù)用戶輸入的查詢條件在索引文件上進(jìn)行查詢。不指定要索引的文檔的格式也使 Lucene 能夠幾乎適用于所有的搜索應(yīng)用程序。

            圖 1 表示了搜索應(yīng)用程序和 Lucene 之間的關(guān)系,也反映了利用 Lucene 構(gòu)建搜索應(yīng)用程序的流程:


            圖1. 搜索應(yīng)用程序和 Lucene 之間的關(guān)系
            圖1. 搜索應(yīng)用程序和 Lucene 之間的關(guān)系 




            回頁(yè)首


            索引和搜索

            索引是現(xiàn)代搜索引擎的核心,建立索引的過(guò)程就是把源數(shù)據(jù)處理成非常方便查詢的索引文件的過(guò)程。為什么索引這么重要呢,試想你現(xiàn)在要在大量的文檔中搜索含有某個(gè)關(guān)鍵詞的文檔,那么如果不建立索引的話你就需要把這些文檔順序的讀入內(nèi)存,然后檢查這個(gè)文章中是不是含有要查找的關(guān)鍵詞,這樣的話就會(huì)耗費(fèi)非常多的時(shí)間,想想搜索引擎可是在毫秒級(jí)的時(shí)間內(nèi)查找出要搜索的結(jié)果的。這就是由于建立了索引的原因,你可以把索引想象成這樣一種數(shù)據(jù)結(jié)構(gòu),他能夠使你快速的隨機(jī)訪問(wèn)存儲(chǔ)在索引中的關(guān)鍵詞,進(jìn)而找到該關(guān)鍵詞所關(guān)聯(lián)的文檔。Lucene 采用的是一種稱為反向索引(inverted index)的機(jī)制。反向索引就是說(shuō)我們維護(hù)了一個(gè)詞/短語(yǔ)表,對(duì)于這個(gè)表中的每個(gè)詞/短語(yǔ),都有一個(gè)鏈表描述了有哪些文檔包含了這個(gè)詞/短語(yǔ)。這樣在用戶輸入查詢條件的時(shí)候,就能非常快的得到搜索結(jié)果。我們將在本系列文章的第二部分詳細(xì)介紹 Lucene 的索引機(jī)制,由于 Lucene 提供了簡(jiǎn)單易用的 API,所以即使讀者剛開始對(duì)全文本進(jìn)行索引的機(jī)制并不太了解,也可以非常容易的使用 Lucene 對(duì)你的文檔實(shí)現(xiàn)索引。

            對(duì)文檔建立好索引后,就可以在這些索引上面進(jìn)行搜索了。搜索引擎首先會(huì)對(duì)搜索的關(guān)鍵詞進(jìn)行解析,然后再在建立好的索引上面進(jìn)行查找,最終返回和用戶輸入的關(guān)鍵詞相關(guān)聯(lián)的文檔。





            回頁(yè)首


            Lucene 軟件包分析

            Lucene 軟件包的發(fā)布形式是一個(gè) JAR 文件,下面我們分析一下這個(gè) JAR 文件里面的主要的 JAVA 包,使讀者對(duì)之有個(gè)初步的了解。

            Package: org.apache.lucene.document

            這個(gè)包提供了一些為封裝要索引的文檔所需要的類,比如 Document, Field。這樣,每一個(gè)文檔最終被封裝成了一個(gè) Document 對(duì)象。

            Package: org.apache.lucene.analysis

            這個(gè)包主要功能是對(duì)文檔進(jìn)行分詞,因?yàn)槲臋n在建立索引之前必須要進(jìn)行分詞,所以這個(gè)包的作用可以看成是為建立索引做準(zhǔn)備工作。

            Package: org.apache.lucene.index

            這個(gè)包提供了一些類來(lái)協(xié)助創(chuàng)建索引以及對(duì)創(chuàng)建好的索引進(jìn)行更新。這里面有兩個(gè)基礎(chǔ)的類:IndexWriter 和 IndexReader,其中 IndexWriter 是用來(lái)創(chuàng)建索引并添加文檔到索引中的,IndexReader 是用來(lái)刪除索引中的文檔的。

            Package: org.apache.lucene.search

            這個(gè)包提供了對(duì)在建立好的索引上進(jìn)行搜索所需要的類。比如 IndexSearcher 和 Hits, IndexSearcher 定義了在指定的索引上進(jìn)行搜索的方法,Hits 用來(lái)保存搜索得到的結(jié)果。





            回頁(yè)首


            一個(gè)簡(jiǎn)單的搜索應(yīng)用程序

            假設(shè)我們的電腦的目錄中含有很多文本文檔,我們需要查找哪些文檔含有某個(gè)關(guān)鍵詞。為了實(shí)現(xiàn)這種功能,我們首先利用 Lucene 對(duì)這個(gè)目錄中的文檔建立索引,然后在建立好的索引中搜索我們所要查找的文檔。通過(guò)這個(gè)例子讀者會(huì)對(duì)如何利用 Lucene 構(gòu)建自己的搜索應(yīng)用程序有個(gè)比較清楚的認(rèn)識(shí)。





            回頁(yè)首


            建立索引

            為了對(duì)文檔進(jìn)行索引,Lucene 提供了五個(gè)基礎(chǔ)的類,他們分別是 Document, Field, IndexWriter, Analyzer, Directory。下面我們分別介紹一下這五個(gè)類的用途:

            Document

            Document 是用來(lái)描述文檔的,這里的文檔可以指一個(gè) HTML 頁(yè)面,一封電子郵件,或者是一個(gè)文本文件。一個(gè) Document 對(duì)象由多個(gè) Field 對(duì)象組成的。可以把一個(gè) Document 對(duì)象想象成數(shù)據(jù)庫(kù)中的一個(gè)記錄,而每個(gè) Field 對(duì)象就是記錄的一個(gè)字段。

            Field

            Field 對(duì)象是用來(lái)描述一個(gè)文檔的某個(gè)屬性的,比如一封電子郵件的標(biāo)題和內(nèi)容可以用兩個(gè) Field 對(duì)象分別描述。

            Analyzer

            在一個(gè)文檔被索引之前,首先需要對(duì)文檔內(nèi)容進(jìn)行分詞處理,這部分工作就是由 Analyzer 來(lái)做的。Analyzer 類是一個(gè)抽象類,它有多個(gè)實(shí)現(xiàn)。針對(duì)不同的語(yǔ)言和應(yīng)用需要選擇適合的 Analyzer。Analyzer 把分詞后的內(nèi)容交給 IndexWriter 來(lái)建立索引。

            IndexWriter

            IndexWriter 是 Lucene 用來(lái)創(chuàng)建索引的一個(gè)核心的類,他的作用是把一個(gè)個(gè)的 Document 對(duì)象加到索引中來(lái)。

            Directory

            這個(gè)類代表了 Lucene 的索引的存儲(chǔ)的位置,這是一個(gè)抽象類,它目前有兩個(gè)實(shí)現(xiàn),第一個(gè)是 FSDirectory,它表示一個(gè)存儲(chǔ)在文件系統(tǒng)中的索引的位置。第二個(gè)是 RAMDirectory,它表示一個(gè)存儲(chǔ)在內(nèi)存當(dāng)中的索引的位置。

            熟悉了建立索引所需要的這些類后,我們就開始對(duì)某個(gè)目錄下面的文本文件建立索引了,清單1給出了對(duì)某個(gè)目錄下的文本文件建立索引的源代碼。


            清單 1. 對(duì)文本文件建立索引
            package TestLucene;
                        import java.io.File;
                        import java.io.FileReader;
                        import java.io.Reader;
                        import java.util.Date;
                        import org.apache.lucene.analysis.Analyzer;
                        import org.apache.lucene.analysis.standard.StandardAnalyzer;
                        import org.apache.lucene.document.Document;
                        import org.apache.lucene.document.Field;
                        import org.apache.lucene.index.IndexWriter;
                        /**
                        * This class demonstrate the process of creating index with Lucene
                        * for text files
                        */
                        public class TxtFileIndexer {
                        public static void main(String[] args) throws Exception{
                        //indexDir is the directory that hosts Lucene's index files
                        File   indexDir = new File("D:\\luceneIndex");
                        //dataDir is the directory that hosts the text files that to be indexed
                        File   dataDir  = new File("D:\\luceneData");
                        Analyzer luceneAnalyzer = new StandardAnalyzer();
                        File[] dataFiles  = dataDir.listFiles();
                        IndexWriter indexWriter = new IndexWriter(indexDir,luceneAnalyzer,true);
                        long startTime = new Date().getTime();
                        for(int i = 0; i < dataFiles.length; i++){
                        if(dataFiles[i].isFile() && dataFiles[i].getName().endsWith(".txt")){
                        System.out.println("Indexing file " + dataFiles[i].getCanonicalPath());
                        Document document = new Document();
                        Reader txtReader = new FileReader(dataFiles[i]);
                        document.add(Field.Text("path",dataFiles[i].getCanonicalPath()));
                        document.add(Field.Text("contents",txtReader));
                        indexWriter.addDocument(document);
                        }
                        }
                        indexWriter.optimize();
                        indexWriter.close();
                        long endTime = new Date().getTime();
                        System.out.println("It takes " + (endTime - startTime)
                        + " milliseconds to create index for the files in directory "
                        + dataDir.getPath());
                        }
                        }
                        

            在清單1中,我們注意到類 IndexWriter 的構(gòu)造函數(shù)需要三個(gè)參數(shù),第一個(gè)參數(shù)指定了所創(chuàng)建的索引要存放的位置,他可以是一個(gè) File 對(duì)象,也可以是一個(gè) FSDirectory 對(duì)象或者 RAMDirectory 對(duì)象。第二個(gè)參數(shù)指定了 Analyzer 類的一個(gè)實(shí)現(xiàn),也就是指定這個(gè)索引是用哪個(gè)分詞器對(duì)文擋內(nèi)容進(jìn)行分詞。第三個(gè)參數(shù)是一個(gè)布爾型的變量,如果為 true 的話就代表創(chuàng)建一個(gè)新的索引,為 false 的話就代表在原來(lái)索引的基礎(chǔ)上進(jìn)行操作。接著程序遍歷了目錄下面的所有文本文檔,并為每一個(gè)文本文檔創(chuàng)建了一個(gè) Document 對(duì)象。然后把文本文檔的兩個(gè)屬性:路徑和內(nèi)容加入到了兩個(gè) Field 對(duì)象中,接著在把這兩個(gè) Field 對(duì)象加入到 Document 對(duì)象中,最后把這個(gè)文檔用 IndexWriter 類的 add 方法加入到索引中去。這樣我們便完成了索引的創(chuàng)建。接下來(lái)我們進(jìn)入在建立好的索引上進(jìn)行搜索的部分。





            回頁(yè)首


            搜索文檔

            利用Lucene進(jìn)行搜索就像建立索引一樣也是非常方便的。在上面一部分中,我們已經(jīng)為一個(gè)目錄下的文本文檔建立好了索引,現(xiàn)在我們就要在這個(gè)索引上進(jìn)行搜索以找到包含某個(gè)關(guān)鍵詞或短語(yǔ)的文檔。Lucene提供了幾個(gè)基礎(chǔ)的類來(lái)完成這個(gè)過(guò)程,它們分別是呢IndexSearcher, Term, Query, TermQuery, Hits. 下面我們分別介紹這幾個(gè)類的功能。

            Query

            這是一個(gè)抽象類,他有多個(gè)實(shí)現(xiàn),比如TermQuery, BooleanQuery, PrefixQuery. 這個(gè)類的目的是把用戶輸入的查詢字符串封裝成Lucene能夠識(shí)別的Query。

            Term

            Term是搜索的基本單位,一個(gè)Term對(duì)象有兩個(gè)String類型的域組成。生成一個(gè)Term對(duì)象可以有如下一條語(yǔ)句來(lái)完成:Term term = new Term(“fieldName”,”queryWord”); 其中第一個(gè)參數(shù)代表了要在文檔的哪一個(gè)Field上進(jìn)行查找,第二個(gè)參數(shù)代表了要查詢的關(guān)鍵詞。

            TermQuery

            TermQuery是抽象類Query的一個(gè)子類,它同時(shí)也是Lucene支持的最為基本的一個(gè)查詢類。生成一個(gè)TermQuery對(duì)象由如下語(yǔ)句完成: TermQuery termQuery = new TermQuery(new Term(“fieldName”,”queryWord”)); 它的構(gòu)造函數(shù)只接受一個(gè)參數(shù),那就是一個(gè)Term對(duì)象。

            IndexSearcher

            IndexSearcher是用來(lái)在建立好的索引上進(jìn)行搜索的。它只能以只讀的方式打開一個(gè)索引,所以可以有多個(gè)IndexSearcher的實(shí)例在一個(gè)索引上進(jìn)行操作。

            Hits

            Hits是用來(lái)保存搜索的結(jié)果的。

            介紹完這些搜索所必須的類之后,我們就開始在之前所建立的索引上進(jìn)行搜索了,清單2給出了完成搜索功能所需要的代碼。


            清單2 :在建立好的索引上進(jìn)行搜索
            package TestLucene;
                        import java.io.File;
                        import org.apache.lucene.document.Document;
                        import org.apache.lucene.index.Term;
                        import org.apache.lucene.search.Hits;
                        import org.apache.lucene.search.IndexSearcher;
                        import org.apache.lucene.search.TermQuery;
                        import org.apache.lucene.store.FSDirectory;
                        /**
                        * This class is used to demonstrate the
                        * process of searching on an existing
                        * Lucene index
                        *
                        */
                        public class TxtFileSearcher {
                        public static void main(String[] args) throws Exception{
                        String queryStr = "lucene";
                        //This is the directory that hosts the Lucene index
                        File indexDir = new File("D:\\luceneIndex");
                        FSDirectory directory = FSDirectory.getDirectory(indexDir,false);
                        IndexSearcher searcher = new IndexSearcher(directory);
                        if(!indexDir.exists()){
                        System.out.println("The Lucene index is not exist");
                        return;
                        }
                        Term term = new Term("contents",queryStr.toLowerCase());
                        TermQuery luceneQuery = new TermQuery(term);
                        Hits hits = searcher.search(luceneQuery);
                        for(int i = 0; i < hits.length(); i++){
                        Document document = hits.doc(i);
                        System.out.println("File: " + document.get("path"));
                        }
                        }
                        }
                        

            在清單2中,類IndexSearcher的構(gòu)造函數(shù)接受一個(gè)類型為Directory的對(duì)象,Directory是一個(gè)抽象類,它目前有兩個(gè)子類:FSDirctory和RAMDirectory. 我們的程序中傳入了一個(gè)FSDirctory對(duì)象作為其參數(shù),代表了一個(gè)存儲(chǔ)在磁盤上的索引的位置。構(gòu)造函數(shù)執(zhí)行完成后,代表了這個(gè)IndexSearcher以只讀的方式打開了一個(gè)索引。然后我們程序構(gòu)造了一個(gè)Term對(duì)象,通過(guò)這個(gè)Term對(duì)象,我們指定了要在文檔的內(nèi)容中搜索包含關(guān)鍵詞”lucene”的文檔。接著利用這個(gè)Term對(duì)象構(gòu)造出TermQuery對(duì)象并把這個(gè)TermQuery對(duì)象傳入到IndexSearcher的search方法中進(jìn)行查詢,返回的結(jié)果保存在Hits對(duì)象中。最后我們用了一個(gè)循環(huán)語(yǔ)句把搜索到的文檔的路徑都打印了出來(lái)。 好了,我們的搜索應(yīng)用程序已經(jīng)開發(fā)完畢,怎么樣,利用Lucene開發(fā)搜索應(yīng)用程序是不是很簡(jiǎn)單。





            回頁(yè)首


            總結(jié)

            本文首先介紹了 Lucene 的一些基本概念,然后開發(fā)了一個(gè)應(yīng)用程序演示了利用 Lucene 建立索引并在該索引上進(jìn)行搜索的過(guò)程。希望本文能夠?yàn)閷W(xué)習(xí) Lucene 的讀者提供幫助。



            關(guān)于作者

            周登朋,軟件工程師,上海交通大學(xué)研究生,對(duì) Java 技術(shù)以及信息檢索技術(shù)很感興趣。您可以通過(guò) zhoudengpeng@yahoo.com.cn 與他聯(lián)系。

            posted on 2010-01-05 09:41 baby-fly 閱讀(325) 評(píng)論(0)  編輯 收藏 引用 所屬分類: Information Retrival / Data Mining
            久久综合偷偷噜噜噜色| 日韩人妻无码精品久久免费一 | 久久91精品国产91久| 九九久久99综合一区二区| 久久久久亚洲精品无码蜜桃| 久久无码中文字幕东京热| 亚洲精品久久久www| 蜜桃麻豆www久久国产精品| 久久国产成人精品国产成人亚洲| 亚洲综合婷婷久久| 精品久久久久久无码中文野结衣 | 77777亚洲午夜久久多喷| 亚洲综合熟女久久久30p| 中文无码久久精品| 欧美黑人又粗又大久久久| 亚洲色婷婷综合久久| 久久夜色精品国产网站| 久久精品人人做人人爽电影蜜月| 久久偷看各类wc女厕嘘嘘| 99久久久国产精品免费无卡顿| 久久婷婷五月综合97色| 久久综合给合久久狠狠狠97色69| 精品永久久福利一区二区| 久久国产精品99精品国产987| 久久精品草草草| 久久国产精品波多野结衣AV| 伊人伊成久久人综合网777| 欧美久久久久久精选9999| 亚洲欧洲精品成人久久奇米网| 99久久精品国产一区二区| 久久精品无码午夜福利理论片| 99久久精品无码一区二区毛片 | 99久久国产综合精品成人影院 | 一本久久综合亚洲鲁鲁五月天| 亚洲精品高清一二区久久| 亚洲AV无码久久精品狠狠爱浪潮 | 国产精品免费福利久久| 久久激情五月丁香伊人| 久久久久久久97| 久久99中文字幕久久| 亚洲国产成人久久笫一页|