青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

為生存而奔跑

   :: 首頁 :: 聯系 :: 聚合  :: 管理
  271 Posts :: 0 Stories :: 58 Comments :: 0 Trackbacks

留言簿(5)

我參與的團隊

搜索

  •  

積分與排名

  • 積分 - 331734
  • 排名 - 74

最新評論

閱讀排行榜

評論排行榜

轉:http://www.ibm.com/developerworks/cn/java/j-lo-lucene1/
本文首先介紹了Lucene的一些基本概念,然后開發了一個應用程序演示了利用Lucene建立索引并在該索引上進行搜索的過程。

Lucene 簡介

Lucene 是一個基于 Java 的全文信息檢索工具包,它不是一個完整的搜索應用程序,而是為你的應用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一個開源項目。也是目前最為流行的基于 Java 開源全文檢索工具包。

目前已經有很多應用程序的搜索功能是基于 Lucene 的,比如 Eclipse 的幫助系統的搜索功能。Lucene 能夠為文本類型的數據建立索引,所以你只要能把你要索引的數據格式轉化的文本的,Lucene 就能對你的文檔進行索引和搜索。比如你要對一些 HTML 文檔,PDF 文檔進行索引的話你就首先需要把 HTML 文檔和 PDF 文檔轉化成文本格式的,然后將轉化后的內容交給 Lucene 進行索引,然后把創建好的索引文件保存到磁盤或者內存中,最后根據用戶輸入的查詢條件在索引文件上進行查詢。不指定要索引的文檔的格式也使 Lucene 能夠幾乎適用于所有的搜索應用程序。

圖 1 表示了搜索應用程序和 Lucene 之間的關系,也反映了利用 Lucene 構建搜索應用程序的流程:


圖1. 搜索應用程序和 Lucene 之間的關系
圖1. 搜索應用程序和 Lucene 之間的關系 




回頁首


索引和搜索

索引是現代搜索引擎的核心,建立索引的過程就是把源數據處理成非常方便查詢的索引文件的過程。為什么索引這么重要呢,試想你現在要在大量的文檔中搜索含有某個關鍵詞的文檔,那么如果不建立索引的話你就需要把這些文檔順序的讀入內存,然后檢查這個文章中是不是含有要查找的關鍵詞,這樣的話就會耗費非常多的時間,想想搜索引擎可是在毫秒級的時間內查找出要搜索的結果的。這就是由于建立了索引的原因,你可以把索引想象成這樣一種數據結構,他能夠使你快速的隨機訪問存儲在索引中的關鍵詞,進而找到該關鍵詞所關聯的文檔。Lucene 采用的是一種稱為反向索引(inverted index)的機制。反向索引就是說我們維護了一個詞/短語表,對于這個表中的每個詞/短語,都有一個鏈表描述了有哪些文檔包含了這個詞/短語。這樣在用戶輸入查詢條件的時候,就能非常快的得到搜索結果。我們將在本系列文章的第二部分詳細介紹 Lucene 的索引機制,由于 Lucene 提供了簡單易用的 API,所以即使讀者剛開始對全文本進行索引的機制并不太了解,也可以非常容易的使用 Lucene 對你的文檔實現索引。

對文檔建立好索引后,就可以在這些索引上面進行搜索了。搜索引擎首先會對搜索的關鍵詞進行解析,然后再在建立好的索引上面進行查找,最終返回和用戶輸入的關鍵詞相關聯的文檔。





回頁首


Lucene 軟件包分析

Lucene 軟件包的發布形式是一個 JAR 文件,下面我們分析一下這個 JAR 文件里面的主要的 JAVA 包,使讀者對之有個初步的了解。

Package: org.apache.lucene.document

這個包提供了一些為封裝要索引的文檔所需要的類,比如 Document, Field。這樣,每一個文檔最終被封裝成了一個 Document 對象。

Package: org.apache.lucene.analysis

這個包主要功能是對文檔進行分詞,因為文檔在建立索引之前必須要進行分詞,所以這個包的作用可以看成是為建立索引做準備工作。

Package: org.apache.lucene.index

這個包提供了一些類來協助創建索引以及對創建好的索引進行更新。這里面有兩個基礎的類:IndexWriter 和 IndexReader,其中 IndexWriter 是用來創建索引并添加文檔到索引中的,IndexReader 是用來刪除索引中的文檔的。

Package: org.apache.lucene.search

這個包提供了對在建立好的索引上進行搜索所需要的類。比如 IndexSearcher 和 Hits, IndexSearcher 定義了在指定的索引上進行搜索的方法,Hits 用來保存搜索得到的結果。





回頁首


一個簡單的搜索應用程序

假設我們的電腦的目錄中含有很多文本文檔,我們需要查找哪些文檔含有某個關鍵詞。為了實現這種功能,我們首先利用 Lucene 對這個目錄中的文檔建立索引,然后在建立好的索引中搜索我們所要查找的文檔。通過這個例子讀者會對如何利用 Lucene 構建自己的搜索應用程序有個比較清楚的認識。





回頁首


建立索引

為了對文檔進行索引,Lucene 提供了五個基礎的類,他們分別是 Document, Field, IndexWriter, Analyzer, Directory。下面我們分別介紹一下這五個類的用途:

Document

Document 是用來描述文檔的,這里的文檔可以指一個 HTML 頁面,一封電子郵件,或者是一個文本文件。一個 Document 對象由多個 Field 對象組成的。可以把一個 Document 對象想象成數據庫中的一個記錄,而每個 Field 對象就是記錄的一個字段。

Field

Field 對象是用來描述一個文檔的某個屬性的,比如一封電子郵件的標題和內容可以用兩個 Field 對象分別描述。

Analyzer

在一個文檔被索引之前,首先需要對文檔內容進行分詞處理,這部分工作就是由 Analyzer 來做的。Analyzer 類是一個抽象類,它有多個實現。針對不同的語言和應用需要選擇適合的 Analyzer。Analyzer 把分詞后的內容交給 IndexWriter 來建立索引。

IndexWriter

IndexWriter 是 Lucene 用來創建索引的一個核心的類,他的作用是把一個個的 Document 對象加到索引中來。

Directory

這個類代表了 Lucene 的索引的存儲的位置,這是一個抽象類,它目前有兩個實現,第一個是 FSDirectory,它表示一個存儲在文件系統中的索引的位置。第二個是 RAMDirectory,它表示一個存儲在內存當中的索引的位置。

熟悉了建立索引所需要的這些類后,我們就開始對某個目錄下面的文本文件建立索引了,清單1給出了對某個目錄下的文本文件建立索引的源代碼。


清單 1. 對文本文件建立索引
package TestLucene;
            import java.io.File;
            import java.io.FileReader;
            import java.io.Reader;
            import java.util.Date;
            import org.apache.lucene.analysis.Analyzer;
            import org.apache.lucene.analysis.standard.StandardAnalyzer;
            import org.apache.lucene.document.Document;
            import org.apache.lucene.document.Field;
            import org.apache.lucene.index.IndexWriter;
            /**
            * This class demonstrate the process of creating index with Lucene
            * for text files
            */
            public class TxtFileIndexer {
            public static void main(String[] args) throws Exception{
            //indexDir is the directory that hosts Lucene's index files
            File   indexDir = new File("D:\\luceneIndex");
            //dataDir is the directory that hosts the text files that to be indexed
            File   dataDir  = new File("D:\\luceneData");
            Analyzer luceneAnalyzer = new StandardAnalyzer();
            File[] dataFiles  = dataDir.listFiles();
            IndexWriter indexWriter = new IndexWriter(indexDir,luceneAnalyzer,true);
            long startTime = new Date().getTime();
            for(int i = 0; i < dataFiles.length; i++){
            if(dataFiles[i].isFile() && dataFiles[i].getName().endsWith(".txt")){
            System.out.println("Indexing file " + dataFiles[i].getCanonicalPath());
            Document document = new Document();
            Reader txtReader = new FileReader(dataFiles[i]);
            document.add(Field.Text("path",dataFiles[i].getCanonicalPath()));
            document.add(Field.Text("contents",txtReader));
            indexWriter.addDocument(document);
            }
            }
            indexWriter.optimize();
            indexWriter.close();
            long endTime = new Date().getTime();
            System.out.println("It takes " + (endTime - startTime)
            + " milliseconds to create index for the files in directory "
            + dataDir.getPath());
            }
            }
            

在清單1中,我們注意到類 IndexWriter 的構造函數需要三個參數,第一個參數指定了所創建的索引要存放的位置,他可以是一個 File 對象,也可以是一個 FSDirectory 對象或者 RAMDirectory 對象。第二個參數指定了 Analyzer 類的一個實現,也就是指定這個索引是用哪個分詞器對文擋內容進行分詞。第三個參數是一個布爾型的變量,如果為 true 的話就代表創建一個新的索引,為 false 的話就代表在原來索引的基礎上進行操作。接著程序遍歷了目錄下面的所有文本文檔,并為每一個文本文檔創建了一個 Document 對象。然后把文本文檔的兩個屬性:路徑和內容加入到了兩個 Field 對象中,接著在把這兩個 Field 對象加入到 Document 對象中,最后把這個文檔用 IndexWriter 類的 add 方法加入到索引中去。這樣我們便完成了索引的創建。接下來我們進入在建立好的索引上進行搜索的部分。





回頁首


搜索文檔

利用Lucene進行搜索就像建立索引一樣也是非常方便的。在上面一部分中,我們已經為一個目錄下的文本文檔建立好了索引,現在我們就要在這個索引上進行搜索以找到包含某個關鍵詞或短語的文檔。Lucene提供了幾個基礎的類來完成這個過程,它們分別是呢IndexSearcher, Term, Query, TermQuery, Hits. 下面我們分別介紹這幾個類的功能。

Query

這是一個抽象類,他有多個實現,比如TermQuery, BooleanQuery, PrefixQuery. 這個類的目的是把用戶輸入的查詢字符串封裝成Lucene能夠識別的Query。

Term

Term是搜索的基本單位,一個Term對象有兩個String類型的域組成。生成一個Term對象可以有如下一條語句來完成:Term term = new Term(“fieldName”,”queryWord”); 其中第一個參數代表了要在文檔的哪一個Field上進行查找,第二個參數代表了要查詢的關鍵詞。

TermQuery

TermQuery是抽象類Query的一個子類,它同時也是Lucene支持的最為基本的一個查詢類。生成一個TermQuery對象由如下語句完成: TermQuery termQuery = new TermQuery(new Term(“fieldName”,”queryWord”)); 它的構造函數只接受一個參數,那就是一個Term對象。

IndexSearcher

IndexSearcher是用來在建立好的索引上進行搜索的。它只能以只讀的方式打開一個索引,所以可以有多個IndexSearcher的實例在一個索引上進行操作。

Hits

Hits是用來保存搜索的結果的。

介紹完這些搜索所必須的類之后,我們就開始在之前所建立的索引上進行搜索了,清單2給出了完成搜索功能所需要的代碼。


清單2 :在建立好的索引上進行搜索
package TestLucene;
            import java.io.File;
            import org.apache.lucene.document.Document;
            import org.apache.lucene.index.Term;
            import org.apache.lucene.search.Hits;
            import org.apache.lucene.search.IndexSearcher;
            import org.apache.lucene.search.TermQuery;
            import org.apache.lucene.store.FSDirectory;
            /**
            * This class is used to demonstrate the
            * process of searching on an existing
            * Lucene index
            *
            */
            public class TxtFileSearcher {
            public static void main(String[] args) throws Exception{
            String queryStr = "lucene";
            //This is the directory that hosts the Lucene index
            File indexDir = new File("D:\\luceneIndex");
            FSDirectory directory = FSDirectory.getDirectory(indexDir,false);
            IndexSearcher searcher = new IndexSearcher(directory);
            if(!indexDir.exists()){
            System.out.println("The Lucene index is not exist");
            return;
            }
            Term term = new Term("contents",queryStr.toLowerCase());
            TermQuery luceneQuery = new TermQuery(term);
            Hits hits = searcher.search(luceneQuery);
            for(int i = 0; i < hits.length(); i++){
            Document document = hits.doc(i);
            System.out.println("File: " + document.get("path"));
            }
            }
            }
            

在清單2中,類IndexSearcher的構造函數接受一個類型為Directory的對象,Directory是一個抽象類,它目前有兩個子類:FSDirctory和RAMDirectory. 我們的程序中傳入了一個FSDirctory對象作為其參數,代表了一個存儲在磁盤上的索引的位置。構造函數執行完成后,代表了這個IndexSearcher以只讀的方式打開了一個索引。然后我們程序構造了一個Term對象,通過這個Term對象,我們指定了要在文檔的內容中搜索包含關鍵詞”lucene”的文檔。接著利用這個Term對象構造出TermQuery對象并把這個TermQuery對象傳入到IndexSearcher的search方法中進行查詢,返回的結果保存在Hits對象中。最后我們用了一個循環語句把搜索到的文檔的路徑都打印了出來。 好了,我們的搜索應用程序已經開發完畢,怎么樣,利用Lucene開發搜索應用程序是不是很簡單。





回頁首


總結

本文首先介紹了 Lucene 的一些基本概念,然后開發了一個應用程序演示了利用 Lucene 建立索引并在該索引上進行搜索的過程。希望本文能夠為學習 Lucene 的讀者提供幫助。



關于作者

周登朋,軟件工程師,上海交通大學研究生,對 Java 技術以及信息檢索技術很感興趣。您可以通過 zhoudengpeng@yahoo.com.cn 與他聯系。

posted on 2010-01-05 09:41 baby-fly 閱讀(345) 評論(0)  編輯 收藏 引用 所屬分類: Information Retrival / Data Mining
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            亚洲国产中文字幕在线观看| 狠狠久久亚洲欧美专区| 99re6热在线精品视频播放速度| 狂野欧美激情性xxxx欧美| 久久久国产精品亚洲一区| 欧美一区二区三区四区在线观看地址| 亚洲中无吗在线| 久久se精品一区精品二区| 久久亚洲私人国产精品va| 久久成人免费日本黄色| 久久全球大尺度高清视频| 免费国产自线拍一欧美视频| 免费成人黄色| 亚洲高清在线观看一区| 日韩一级视频免费观看在线| 在线综合亚洲| 久久久久一区| 国产精品高潮在线| 狠狠色伊人亚洲综合网站色| 亚洲美女毛片| 久久久国产午夜精品| 亚洲精品久久久久久久久久久| 亚洲欧美一区二区精品久久久| 美女精品视频一区| 国产亚洲一二三区| 亚洲视频一区在线| 欧美v日韩v国产v| 亚洲欧美一区二区三区在线| 欧美承认网站| 黄色成人av网站| 午夜亚洲精品| 亚洲免费高清视频| 久久久久国产精品www| 欧美体内she精视频| 樱桃国产成人精品视频| 午夜亚洲一区| 99国产精品视频免费观看| 卡通动漫国产精品| 国产视频观看一区| 亚洲在线一区二区三区| 亚洲国产成人精品久久| 欧美制服第一页| 国产精品爽爽爽| 亚洲午夜久久久久久尤物| 亚洲国产精品va在看黑人| 午夜亚洲福利| 国产精品色婷婷久久58| 99re亚洲国产精品| 亚洲国产成人porn| 免费亚洲视频| 亚洲精品免费一区二区三区| 麻豆亚洲精品| 久久另类ts人妖一区二区| 国产一区二区三区四区在线观看| 午夜精品国产更新| 亚洲一区日韩在线| 国产精品久久久久9999吃药| 亚洲一区二区三区激情| 99这里有精品| 欧美日韩性生活视频| 一区二区电影免费在线观看| 亚洲国产欧美一区二区三区同亚洲| 久久蜜桃精品| 亚洲第一页中文字幕| 欧美成人有码| 欧美激情成人在线视频| 一区二区三区av| 亚洲欧美日韩中文在线制服| 亚洲一区二区三区成人在线视频精品| 亚洲国产精品www| 美女精品视频一区| 99re视频这里只有精品| 99re这里只有精品6| 国产精品盗摄久久久| 香蕉乱码成人久久天堂爱免费 | 欧美成人高清视频| 久热精品视频在线| 一本色道久久综合一区| 亚洲视频精品在线| 国内精品久久久久久| 欧美www视频在线观看| 欧美日韩精品一区二区三区| 亚洲欧美综合精品久久成人| 欧美在线播放高清精品| 在线观看欧美精品| 亚洲精品资源美女情侣酒店| 国产精品video| 久久久久久久久久久久久久一区| 免费日本视频一区| 午夜精品视频在线观看一区二区 | 亚洲国产你懂的| 国产精品magnet| 久久尤物视频| 欧美日韩裸体免费视频| 久久国产天堂福利天堂| 美女主播精品视频一二三四| 亚洲男同1069视频| 久久夜色精品亚洲噜噜国产mv| 一区二区日韩| 久久久蜜桃精品| 亚洲午夜久久久| 乱人伦精品视频在线观看| 亚洲字幕一区二区| 女生裸体视频一区二区三区| 欧美一级欧美一级在线播放| 嫩草成人www欧美| 久久激情五月丁香伊人| 欧美日韩精品免费观看视频完整| 久久综合狠狠综合久久综合88| 欧美日韩123| 六十路精品视频| 国产精品免费一区豆花| 亚洲美女在线视频| 最新成人在线| 久久久久久午夜| 久久成人精品无人区| 国产精品xxxxx| 亚洲黄色三级| 亚洲激情六月丁香| 久久亚洲国产精品日日av夜夜| 欧美中文字幕在线| 国产精品久久国产精品99gif| 亚洲国产精品视频| 在线精品亚洲| 久久久噜噜噜| 久久综合久久88| 欧美激情一区二区三区四区 | 久久全球大尺度高清视频| 亚洲亚洲精品在线观看| 久久综合激情| 毛片一区二区| 亚洲国产精品成人久久综合一区| 久久av一区二区| 欧美影院成人| 国产欧美日韩伦理| 亚洲男女自偷自拍| 亚洲综合色网站| 国产精品一区二区欧美| 亚洲欧美日韩国产| 欧美一区二视频在线免费观看| 国产精品hd| 午夜激情久久久| 久久婷婷麻豆| 亚洲高清视频一区二区| 另类酷文…触手系列精品集v1小说| 免费观看日韩| 亚洲精品视频在线看| 欧美日韩视频专区在线播放 | 一本久久青青| 国产精品v欧美精品v日韩| 亚洲一区二区免费| 久久久99爱| 亚洲国产日韩一区| 欧美三区在线| 欧美亚洲免费电影| 久久综合色播五月| 99国产精品久久久久久久久久| 欧美日韩综合在线免费观看| 亚洲欧美日本精品| 免费观看欧美在线视频的网站| 亚洲精品人人| 国产精品区二区三区日本| 久久er精品视频| 亚洲精品免费电影| 欧美伊久线香蕉线新在线| 尤物九九久久国产精品的特点| 另类天堂av| 亚洲一区免费看| 欧美韩国一区| 欧美亚洲视频在线观看| 最新国产精品拍自在线播放| 欧美午夜精品伦理| 久久露脸国产精品| 一本久道久久久| 免费在线播放第一区高清av| 在线亚洲电影| 依依成人综合视频| 国产精品九九| 欧美理论片在线观看| 亚洲欧美日韩国产精品| 亚洲黄网站在线观看| 久久激情中文| 亚洲免费影院| 日韩午夜剧场| 亚洲第一区色| 国产区日韩欧美| 欧美久久成人| 久色成人在线| 久久精品综合网| 亚洲一区二区三区涩| 亚洲电影免费观看高清完整版在线观看 | 国产精品中文字幕欧美| 免费亚洲电影在线| 欧美一区二区三区啪啪| 99视频一区二区| 欧美99在线视频观看| 欧美一区二区在线播放| 亚洲专区一区| 亚洲夜间福利| 亚洲视频导航|