Javen-Studio 咖啡小屋

http://javenstudio.org - C++ Java 分布式搜索引擎
Naven's Research Laboratory - Thinking of Life, Imagination of Future

C++博客 :: 首頁 :: 新隨筆 :: 聯系 :: 聚合

:: 管理 ::

24 隨筆 :: 57 文章 :: 170 評論 :: 4 Trackbacks

<

2025年11月

>

日

一

二

三

四

五

六

26

27

28

29

30

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

1

2

3

4

5

6

常用鏈接

留言簿(42)

文章檔案

1 什么是索引

為了使用Lucene來索引數據，首先你得把它轉換成一個純文本（plain-text）tokens的數據流（stream），并通過它創建出Document對象，其包含的Fields成員容納這些文本數據。一旦你準備好些Document對象，你就可以調用IndexWriter類的addDocument(Document)方法來傳遞這些對象到Lucene并寫入索引中。當你做這些的時候，Lucene首先分析（analyzer）這些數據來使得它們更適合索引。詳見《Lucene In Action》

下面先了解一下索引結構的一些術語。

1.1 索引數據結構介紹

1.1.1 術語定義

Lucene中基本的概念（fundamental concepts）是index、Document、Field和term。

1 一條索引（index）包含（contains）了一連串（a sequence of）文檔（documents）。

2 一個文檔（document）是由一連串fields組成。

3 一個field是由一連串命名了（a named sequence of）的terms組成。

4 一個term是一個string（字符串）。

相同的字符串（same string）但是在兩個不同的fields中被認為（considered）是不同的term。因此（thus）term被描述為（represent as）一對字符串（a pair of strings），第一個string取名（naming）為該field的名字，第二個string取名為包含在該field中的文本（text within the field）。

1.1.2 倒排索引（inverted indexing）

索引（index）存儲terms的統計數據（statistics about terms），為了使得基于term的檢索（term-based search）效率更高（more efficient）。Lucene的索引分成（fall into）被廣為熟悉的（known as）索引種類（family of indexex）叫做倒排索引（inverted index）。這是因為它可以列舉（list），對一個term來說，所有包含它的文檔（documents that contain it）。這與自然關聯規則（natural relationship）是相反，即由documents列舉它所包含的terms。

1.1.3 Fields的種類

在Lucene中，fields可以被存儲（stored），在這種情況（in which case）下它們的文本被逐字地（literally）以一種非倒排的方式（in non-inverted manner）存儲進index中。那些被倒排的fields（that are inverted）稱為（called）被索引（indexed）。一個field可以都被存儲（stored）并且被索引（indexed）。

一個field的文本可以被分解為（be tokenized into）terms以便被索引（indexed），或者field的文本可以被逐字地使用為（used literally as）一個term來被索引（be indexed）。大多數fields被分解（be tokenized），但是有時候對某種唯一性（certain identifier）的field來逐字地索引（be indexed literally）又是非常有用的，如url。

1.1.4 片斷（segments）

Lucene的索引可以由多個復合的子索引（multiple sub-indexes）或者片斷（segments）組成（be composed of）。每一個segment都是一個完全獨立的索引（fully independent index），它能夠被分離地進行檢索（be searched seperately）。索引按如下方式進行演化（evolve）：

1. 為新添加的文檔（newly added documents）創建新的片斷（segments）。

2. 合并已存在的片斷（merging existing segments）。

檢索可以涉及（involve）多個復合（multiple）的segments，并且/或者多個復合（multiple）的indexes。每一個index潛在地（potentially）包含（composed of）一套（a set of）segments。

1.1.5 文檔編號（document numbers）

在內部（internally），Lucene通過一個整數的（interger）文檔編號（document number）來表示文檔。第一篇被添加到索引中的文檔編號為0（be numbered zero），每一篇隨后（subsequent）被添加的document獲得一個比前一篇更大的數字（a number one greater than the previous）。

需要注意的是一篇文檔的編號（document’s number）可以更改，所以在Lucene之外（outside of）存儲這些編號時需要特別小心（caution should be taken）。詳細地說（in particular），編號在如下的情況（following situations）可以更改：

1 存儲在每個segment中的編號僅僅是在所在的segment中是唯一的（unique），在它能夠被使用在（be used in）一個更大的上下文（a larger context）中前必須被轉變（converted）。標準的技術（standard technique）是給每一個segment分配（allocate）一個范圍的值（a range of values），基于該segment所使用的編號的范圍（the range of numbers）。為了將一篇文檔的編號從一個segment轉變為一個擴展的值（an external value），該片斷的基礎的文檔編號（base document number）被添加（is added）。為了將一個擴展的值（external value）轉變回一個segment的特定的值（specific value），該segment將該擴展的值所在的范圍標識出來（be indentified），并且該segment的基礎值（base value）將被減少（substracted）。例如，兩個包含5篇文檔的segments可能會被合并（combined），所以第一個segment有一個基礎的值（base value）為0，第二個segment則為5。在第二個segment中的第3篇文檔（document three from the second segment）將有一個擴展的值為8。

2 當文檔被刪除的時候，在編號序列中（in the numbering）將產生（created）間隔段（gaps）。這些最后（eventually）在索引通過合并演進時（index evolves through merging）將會被清除（removed）。當segments被合并后（merged），已刪除的文檔將會被丟棄（dropped），一個剛被合并的（freshly-merged）segment因此在它的編號序列中（in its numbering）不再有間隔段（gaps）。

1.1.6 索引結構概述

每一個片斷的索引（segment index）管理（maintains）如下的數據：

1 Fields名稱：這包含了（contains）在索引中使用的一系列fields的名稱（the set of field names）。

2 已存儲的field的值：它包含了，對每篇文檔來說，一個屬性-值數據對（attribute-value pairs）的清單（a list of），其中屬性即為field的名字。這些被用來存儲關于文檔的備用信息（auxiliary information），比如它的標題（title）、url、或者一個訪問一個數據庫（database）的唯一標識（identifier）。這套存儲的fields就是那些在檢索時對每一個命中的（hits）文檔所返回的（returned）信息。這些是通過文檔編號（document number）來做為key得到的。

3 Term字典（dictionary）：一個包含（contains）所有terms的字典，被使用在所有文檔中所有被索引的fields中。它還包含了該term所在的文檔的數目（the number of documents which contains the term），并且指向了（pointer to）term的頻率（frequency）和接近度（proximity）的數據（data）。

4 Term頻率數據（frequency data）：對字典中的每一個term來說，所有包含該term（contains the term）的文檔的編號（numbers of all documents），以及該term出現在該文檔中的頻率（frequency）。

5 Term接近度數據（proximity data）：對字典中的每一個term來說，該term出現在（occur）每一篇文檔中的位置（positions）。

6 調整因子（normalization factors）：對每一篇文檔的每一個field來說，為一個存儲的值（a value is stored）用來加入到（multiply into）命中該field的分數（score for hits on that field）中。

7 Term向量（vectors）：對每一篇文檔的每一個field來說，term向量（有時候被稱做文檔向量）可以被存儲。一個term向量由term文本和term的頻率（frequency）組成（consists of）。怎么添加term向量到你的索引中請參考Field類的構造方法（constructors）。

8 刪除的文檔（deleted documents）：一個可選的（optional）文件標示（indicating）哪一篇文檔被刪除。

關于這些項的詳細信息在隨后的章節（subsequent sections）中逐一介紹。

1.1.7 索引文件中定義的數據類型

數據類型

所占字節長度（字節）

說明

Byte

1

基本數據類型，其他數據類型以此為基礎定義

UInt32

4

32位無符號整數，高位優先

UInt64

8

64位無符號整數，高位優先

VInt

不定，最少1字節

動態長度整數，每字節的最高位表明還剩多少字節，每字節的低七位表明整數的值，高位優先。可以認為值可以為無限大。其示例如下

值	字節1	字節2	字節3
0	00000000
1	00000001
2	00000010
127	01111111
128	10000000	00000001
129	10000001	00000001
130	10000010	00000001
16383	10000000	10000000	00000001
16384	10000001	10000000	00000001
16385	10000010	10000000	00000001

Chars

不定，最少1字節

采用UTF-8編碼^[20]的Unicode字符序列

String

不定，最少2字節

由VInt和Chars組成的字符串類型，VInt表示Chars的長度，Chars則表示了String的值

1.1.8 每個索引所包含的文件

本節介紹的文件存在于每個索引中（exist one-per-index），下圖描述索引中的文件及組成結構：

1.1.8.1 Segments文件

索引中活動（active）的Segments被存儲在segment info文件中，segments_N，在索引中可能會包含一個或多個segments_N文件。然而，最大一代的那個文件（the one with largest generation）是活動的片斷文件（這時更舊的segments_N文件依然存在（are present）是因為它們暫時（temporarily）還不能被刪除，或者，一個writer正在處理提交請求（in the process of committing），或者一個用戶定義的（custom）IndexDeletionPolicy正被使用）。這個文件按照名稱列舉每一個片斷（lists each segment by name），詳細描述分離的標準（seperate norm）和要刪除的文件（deletion files），并且還包含了每一個片斷的大小。

對2.1版本來說，還有一個文件segments.gen。這個文件包含了該索引中當前生成的代（current generation）（segments_N中的_N）。這個文件僅用于一個后退處理（fallback）以防止（in case）當前代（current generation）不能被準確地（accurately）通過單獨地目錄文件列舉（by directory listing alone）來確定（determened）（由于某些NFS客戶端因為基于時間的目錄（time-based directory）的緩存終止（cache expiration）而引起）。這個文件簡單地包含了一個int32的版本頭（version header）（SegmentInfos.FORMAT_LOCKLESS=-2），遵照代的記錄（followed by the generation recorded）規則，對int64來說會寫兩次（write twice）。

版本	Segments包含的項	數目	類型	描述
2.1之前版本	Format	1	Int32	在Lucene1.4中為-1，而在Lucene 2.1中為-3（SegmentsInfos.FORMAT_SINGLE_NORM_FILE）
	Version	1	Int64	統計在刪除和添加文檔時，索引被更改了多少次。
	NameCounter	1	Int32	用于為新的片斷文件生成新的名字。
	SegCount	1	Int32	片斷的數目
	SegName	SegCount	String	片斷的名字，用于所有構成片斷索引的文件的文件名前綴。
	SegSize	SegCount	Int32	包含在片斷索引中的文檔的數目。
2.1及之后版本	Format	1	Int32	同上
	Version	1	Int64	同上
	NameCounter	1	Int32	同上
	SegCount	1	Int32	同上
	SegName	SegCount	String	同上
	SegSize	SegCount	Int32	同上
	DelGen	SegCount	Int64	為分離的刪除文件的代的數目（generation count of the separate deletes file），如果值為-1，表示沒有分離的刪除文件。如果值為0，表示這是一個2.1版本之前的片斷，這時你必須檢查文件是否存在_X.del這樣的文件。任意大于0的值，表示有分離的刪除文件，文件名為_X_N.del。
	HasSingleNormFile	SegCount	Int8	該值如果為1，表示Norm域（field）被寫為一個單一連接的文件（single joined file）中（擴展名為.nrm），如果值為0，表示每一個field的norms被存儲為分離的.fN文件中，參考下面的“標準化因素（Normalization Factors）”
	NumField	SegCount	Int32	表示NormGen數組的大小，如果為-1表示沒有NormGen被存儲。
	NormGen	SegCount * NumField	Int64	記錄分離的標準文件（separate norm file）的代（generation），如果值為-1，表示沒有normGens被存儲，并且當片斷文件是2.1之前版本生成的時，它們全部被假設為0（assumed to be 0）。而當片斷文件是2.1及更高版本生成的時，它們全部被假設為-1。這時這個代（generation）的意義與上面DelGen的意義一樣。
	IsCompoundFile	SegCount	Int8	記錄是否該片斷文件被寫為一個復合的文件，如果值為-1表示它不是一個復合文件（compound file），如果為1則為一個復合文件。另外如果值為0，表示我們需要檢查文件系統是否存在_X.cfs。

1.1.8.2 Lock文件

寫鎖（write lock）文件名為“write.lock”，它缺省存儲在索引目錄中。如果鎖目錄（lock directory）與索引目錄不一致，寫鎖將被命名為“XXXX-write.lock”，其中“XXXX”是一個唯一的前綴（unique prefix），來源于（derived from）索引目錄的全路徑（full path）。當這個寫鎖出現時，一個writer當前正在修改索引（添加或者清除文檔）。這個寫鎖確保在一個時刻只有一個writer修改索引。

需要注意的是在2.1版本之前（prior to），Lucene還使用一個commit lock，這個鎖在2.1版本里被刪除了。

1.1.8.3 Deletable文件

在Lucene 2.1版本之前，有一個“deletable”文件，包含了那些需要被刪除文檔的詳細資料。在2.1版本后，一個writer會動態地（dynamically）計算哪些文件需要刪除，因此，沒有文件被寫入文件系統。

posted on 2007-06-13 01:37 Javen-Studio 閱讀(1065) 評論(0) 編輯收藏引用

只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品