Javen-Studio 咖啡小屋

http://javenstudio.org - C++ Java 分布式搜索引擎
Naven's Research Laboratory - Thinking of Life, Imagination of Future

C++博客 :: 首頁 :: 新隨筆 :: 聯系 :: 聚合

:: 管理 ::

24 隨筆 :: 57 文章 :: 170 評論 :: 4 Trackbacks

<

2006年3月

>

日

一

二

三

四

五

六

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

6

7

8

常用鏈接

留言簿(42)

文章檔案

1 什么是索引

為了使用Lucene來索引數據，首先你得把它轉換成一個純文本（plain-text）tokens的數據流（stream），并通過它創建出Document對象，其包含的Fields成員容納這些文本數據。一旦你準備好些Document對象，你就可以調用IndexWriter類的addDocument(Document)方法來傳遞這些對象到Lucene并寫入索引中。當你做這些的時候，Lucene首先分析（analyzer）這些數據來使得它們更適合索引。詳見《Lucene In Action》

下面先了解一下索引結構的一些術語。

1.1 索引數據結構介紹

1.1.1 術語定義

Lucene中基本的概念（fundamental concepts）是index、Document、Field和term。

ú 一條索引（index）包含（contains）了一連串（a sequence of）文檔（documents）。

ú 一個文檔（document）是由一連串fields組成。

ú 一個field是由一連串命名了（a named sequence of）的terms組成。

ú 一個term是一個string（字符串）。

相同的字符串（same string）但是在兩個不同的fields中被認為（considered）是不同的term。因此（thus）term被描述為（represent as）一對字符串（a pair of strings），第一個string取名（naming）為該field的名字，第二個string取名為包含在該field中的文本（text within the field）。

1.1.2 倒排索引（inverted indexing）

索引（index）存儲terms的統計數據（statistics about terms），為了使得基于term的檢索（term-based search）效率更高（more efficient）。Lucene的索引分成（fall into）被廣為熟悉的（known as）索引種類（family of indexex）叫做倒排索引（inverted index）。這是因為它可以列舉（list），對一個term來說，所有包含它的文檔（documents that contain it）。這與自然關聯規則（natural relationship）是相反，即由documents列舉它所包含的terms。

1.1.3 Fields的種類

在Lucene中，fields可以被存儲（stored），在這種情況（in which case）下它們的文本被逐字地（literally）以一種非倒排的方式（in non-inverted manner）存儲進index中。那些被倒排的fields（that are inverted）稱為（called）被索引（indexed）。一個field可以都被存儲（stored）并且被索引（indexed）。

一個field的文本可以被分解為（be tokenized into）terms以便被索引（indexed），或者field的文本可以被逐字地使用為（used literally as）一個term來被索引（be indexed）。大多數fields被分解（be tokenized），但是有時候對某種唯一性（certain identifier）的field來逐字地索引（be indexed literally）又是非常有用的，如url。

1.1.4 片斷（segments）

Lucene的索引可以由多個復合的子索引（multiple sub-indexes）或者片斷（segments）組成（be composed of）。每一個segment都是一個完全獨立的索引（fully independent index），它能夠被分離地進行檢索（be searched seperately）。索引按如下方式進行演化（evolve）：

1. 為新添加的文檔（newly added documents）創建新的片斷（segments）。

2. 合并已存在的片斷（merging existing segments）。

檢索可以涉及（involve）多個復合（multiple）的segments，并且/或者多個復合（multiple）的indexes。每一個index潛在地（potentially）包含（composed of）一套（a set of）segments。

1.1.5 文檔編號（document numbers）

在內部（internally），Lucene通過一個整數的（interger）文檔編號（document number）來表示文檔。第一篇被添加到索引中的文檔編號為0（be numbered zero），每一篇隨后（subsequent）被添加的document獲得一個比前一篇更大的數字（a number one greater than the previous）。

需要注意的是一篇文檔的編號（document’s number）可以更改，所以在Lucene之外（outside of）存儲這些編號時需要特別小心（caution should be taken）。詳細地說（in particular），編號在如下的情況（following situations）可以更改：

ú 存儲在每個segment中的編號僅僅是在所在的segment中是唯一的（unique），在它能夠被使用在（be used in）一個更大的上下文（a larger context）中前必須被轉變（converted）。標準的技術（standard technique）是給每一個segment分配（allocate）一個范圍的值（a range of values），基于該segment所使用的編號的范圍（the range of numbers）。為了將一篇文檔的編號從一個segment轉變為一個擴展的值（an external value），該片斷的基礎的文檔編號（base document number）被添加（is added）。為了將一個擴展的值（external value）轉變回一個segment的特定的值（specific value），該segment將該擴展的值所在的范圍標識出來（be indentified），并且該segment的基礎值（base value）將被減少（substracted）。例如，兩個包含5篇文檔的segments可能會被合并（combined），所以第一個segment有一個基礎的值（base value）為0，第二個segment則為5。在第二個segment中的第3篇文檔（document three from the second segment）將有一個擴展的值為8。

ú 當文檔被刪除的時候，在編號序列中（in the numbering）將產生（created）間隔段（gaps）。這些最后（eventually）在索引通過合并演進時（index evolves through merging）將會被清除（removed）。當segments被合并后（merged），已刪除的文檔將會被丟棄（dropped），一個剛被合并的（freshly-merged）segment因此在它的編號序列中（in its numbering）不再有間隔段（gaps）。

1.1.6 索引結構概述

每一個片斷的索引（segment index）管理（maintains）如下的數據：

ú Fields名稱：這包含了（contains）在索引中使用的一系列fields的名稱（the set of field names）。

ú 已存儲的field的值：它包含了，對每篇文檔來說，一個屬性-值數據對（attribute-value pairs）的清單（a list of），其中屬性即為field的名字。這些被用來存儲關于文檔的備用信息（auxiliary information），比如它的標題（title）、url、或者一個訪問一個數據庫（database）的唯一標識（identifier）。這套存儲的fields就是那些在檢索時對每一個命中的（hits）文檔所返回的（returned）信息。這些是通過文檔編號（document number）來做為key得到的。

ú Term字典（dictionary）：一個包含（contains）所有terms的字典，被使用在所有文檔中所有被索引的fields中。它還包含了該term所在的文檔的數目（the number of documents which contains the term），并且指向了（pointer to）term的頻率（frequency）和接近度（proximity）的數據（data）。

ú Term頻率數據（frequency data）：對字典中的每一個term來說，所有包含該term（contains the term）的文檔的編號（numbers of all documents），以及該term出現在該文檔中的頻率（frequency）。

ú Term接近度數據（proximity data）：對字典中的每一個term來說，該term出現在（occur）每一篇文檔中的位置（positions）。

ú 調整因子（normalization factors）：對每一篇文檔的每一個field來說，為一個存儲的值（a value is stored）用來加入到（multiply into）命中該field的分數（score for hits on that field）中。

ú Term向量（vectors）：對每一篇文檔的每一個field來說，term向量（有時候被稱做文檔向量）可以被存儲。一個term向量由term文本和term的頻率（frequency）組成（consists of）。怎么添加term向量到你的索引中請參考Field類的構造方法（constructors）。

ú 刪除的文檔（deleted documents）：一個可選的（optional）文件標示（indicating）哪一篇文檔被刪除。

關于這些項的詳細信息在隨后的章節（subsequent sections）中逐一介紹。

posted on 2007-05-13 03:20 Javen-Studio 閱讀(953) 評論(0) 編輯收藏引用

只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品