• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            Javen-Studio 咖啡小屋

            http://javenstudio.org - C++ Java 分布式 搜索引擎
            Naven's Research Laboratory - Thinking of Life, Imagination of Future

              C++博客 :: 首頁(yè) :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理 ::
              24 隨筆 :: 57 文章 :: 170 評(píng)論 :: 4 Trackbacks
             

            1           什么是索引

            為了使用Lucene來(lái)索引數(shù)據(jù),首先你得把它轉(zhuǎn)換成一個(gè)純文本(plain-texttokens的數(shù)據(jù)流(stream),并通過(guò)它創(chuàng)建出Document對(duì)象,其包含的Fields成員容納這些文本數(shù)據(jù)。一旦你準(zhǔn)備好些Document對(duì)象,你就可以調(diào)用IndexWriter類(lèi)的addDocument(Document)方法來(lái)傳遞這些對(duì)象到Lucene并寫(xiě)入索引中。當(dāng)你做這些的時(shí)候,Lucene首先分析(analyzer)這些數(shù)據(jù)來(lái)使得它們更適合索引。詳見(jiàn)《Lucene In Action

             

             

            下面先了解一下索引結(jié)構(gòu)的一些術(shù)語(yǔ)。

            1.1       索引數(shù)據(jù)結(jié)構(gòu)介紹

            1.1.1    術(shù)語(yǔ)定義

            Lucene中基本的概念(fundamental concepts)是indexDocumentFieldterm

            1            一條索引(index)包含(contains)了一連串(a sequence of)文檔(documents)。

            2            一個(gè)文檔(document)是由一連串fields組成。

            3            一個(gè)field是由一連串命名了(a named sequence of)的terms組成。

            4            一個(gè)term是一個(gè)string(字符串)。

            相同的字符串(same string)但是在兩個(gè)不同的fields中被認(rèn)為(considered)是不同的term。因此(thusterm被描述為(represent as)一對(duì)字符串(a pair of strings),第一個(gè)string取名(naming)為該field的名字,第二個(gè)string取名為包含在該field中的文本(text within the field)。

            1.1.2    倒排索引(inverted indexing

            索引(index)存儲(chǔ)terms的統(tǒng)計(jì)數(shù)據(jù)(statistics about terms),為了使得基于term的檢索(term-based search)效率更高(more efficient)。Lucene的索引分成(fall into)被廣為熟悉的(known as)索引種類(lèi)(family of indexex)叫做倒排索引(inverted index)。這是因?yàn)樗梢粤信e(list),對(duì)一個(gè)term來(lái)說(shuō),所有包含它的文檔(documents that contain it)。這與自然關(guān)聯(lián)規(guī)則(natural relationship)是相反,即由documents列舉它所包含的terms

            1.1.3    Fields的種類(lèi)

            Lucene中,fields可以被存儲(chǔ)(stored),在這種情況(in which case)下它們的文本被逐字地(literally)以一種非倒排的方式(in non-inverted manner)存儲(chǔ)進(jìn)index中。那些被倒排的fieldsthat are inverted)稱(chēng)為(called)被索引(indexed)。一個(gè)field可以都被存儲(chǔ)(stored)并且被索引(indexed)。

            一個(gè)field的文本可以被分解為(be tokenized intoterms以便被索引(indexed),或者field的文本可以被逐字地使用為(used literally as)一個(gè)term來(lái)被索引(be indexed)。大多數(shù)fields被分解(be tokenized),但是有時(shí)候?qū)δ撤N唯一性(certain identifier)的field來(lái)逐字地索引(be indexed literally)又是非常有用的,如url

            1.1.4    片斷(segments

            Lucene的索引可以由多個(gè)復(fù)合的子索引(multiple sub-indexes)或者片斷(segments)組成(be composed of)。每一個(gè)segment都是一個(gè)完全獨(dú)立的索引(fully independent index),它能夠被分離地進(jìn)行檢索(be searched seperately)。索引按如下方式進(jìn)行演化(evolve):

            1.          為新添加的文檔(newly added documents)創(chuàng)建新的片斷(segments)。

            2.          合并已存在的片斷(merging existing segments)。

            檢索可以涉及(involve)多個(gè)復(fù)合(multiple)的segments,并且/或者多個(gè)復(fù)合(multiple)的indexes。每一個(gè)index潛在地(potentially)包含(composed of)一套(a set ofsegments

            1.1.5    文檔編號(hào)(document numbers

            在內(nèi)部(internally),Lucene通過(guò)一個(gè)整數(shù)的(interger)文檔編號(hào)(document number)來(lái)表示文檔。第一篇被添加到索引中的文檔編號(hào)為0be numbered zero),每一篇隨后(subsequent)被添加的document獲得一個(gè)比前一篇更大的數(shù)字(a number one greater than the previous)。

            需要注意的是一篇文檔的編號(hào)(document’s number)可以更改,所以在Lucene之外(outside of)存儲(chǔ)這些編號(hào)時(shí)需要特別小心(caution should be taken)。詳細(xì)地說(shuō)(in particular),編號(hào)在如下的情況(following situations)可以更改:

            1            存儲(chǔ)在每個(gè)segment中的編號(hào)僅僅是在所在的segment中是唯一的(unique),在它能夠被使用在(be used in)一個(gè)更大的上下文(a larger context)中前必須被轉(zhuǎn)變(converted)。標(biāo)準(zhǔn)的技術(shù)(standard technique)是給每一個(gè)segment分配(allocate)一個(gè)范圍的值(a range of values),基于該segment所使用的編號(hào)的范圍(the range of numbers)。為了將一篇文檔的編號(hào)從一個(gè)segment轉(zhuǎn)變?yōu)橐粋€(gè)擴(kuò)展的值(an external value),該片斷的基礎(chǔ)的文檔編號(hào)(base document number)被添加(is added)。為了將一個(gè)擴(kuò)展的值(external value)轉(zhuǎn)變回一個(gè)segment的特定的值(specific value),該segment將該擴(kuò)展的值所在的范圍標(biāo)識(shí)出來(lái)(be indentified),并且該segment的基礎(chǔ)值(base value)將被減少(substracted)。例如,兩個(gè)包含5篇文檔的segments可能會(huì)被合并(combined),所以第一個(gè)segment有一個(gè)基礎(chǔ)的值(base value)為0,第二個(gè)segment則為5。在第二個(gè)segment中的第3篇文檔(document three from the second segment)將有一個(gè)擴(kuò)展的值為8

            2            當(dāng)文檔被刪除的時(shí)候,在編號(hào)序列中(in the numbering)將產(chǎn)生(created)間隔段(gaps)。這些最后(eventually)在索引通過(guò)合并演進(jìn)時(shí)(index evolves through merging)將會(huì)被清除(removed)。當(dāng)segments被合并后(merged),已刪除的文檔將會(huì)被丟棄(dropped),一個(gè)剛被合并的(freshly-mergedsegment因此在它的編號(hào)序列中(in its numbering)不再有間隔段(gaps)。

             

            1.1.6    索引結(jié)構(gòu)概述

            每一個(gè)片斷的索引(segment index)管理(maintains)如下的數(shù)據(jù):

            1            Fields名稱(chēng):這包含了(contains)在索引中使用的一系列fields的名稱(chēng)(the set of field names)。

            2            已存儲(chǔ)的field的值:它包含了,對(duì)每篇文檔來(lái)說(shuō),一個(gè)屬性-值數(shù)據(jù)對(duì)(attribute-value pairs)的清單(a list of),其中屬性即為field的名字。這些被用來(lái)存儲(chǔ)關(guān)于文檔的備用信息(auxiliary information),比如它的標(biāo)題(title)、url、或者一個(gè)訪(fǎng)問(wèn)一個(gè)數(shù)據(jù)庫(kù)(database)的唯一標(biāo)識(shí)(identifier)。這套存儲(chǔ)的fields就是那些在檢索時(shí)對(duì)每一個(gè)命中的(hits)文檔所返回的(returned)信息。這些是通過(guò)文檔編號(hào)(document number)來(lái)做為key得到的。

            3            Term字典(dictionary):一個(gè)包含(contains)所有terms的字典,被使用在所有文檔中所有被索引的fields中。它還包含了該term所在的文檔的數(shù)目(the number of documents which contains the term),并且指向了(pointer toterm的頻率(frequency)和接近度(proximity)的數(shù)據(jù)(data)。

            4            Term頻率數(shù)據(jù)(frequency data):對(duì)字典中的每一個(gè)term來(lái)說(shuō),所有包含該termcontains the term)的文檔的編號(hào)(numbers of all documents),以及該term出現(xiàn)在該文檔中的頻率(frequency)。

            5            Term接近度數(shù)據(jù)(proximity data):對(duì)字典中的每一個(gè)term來(lái)說(shuō),該term出現(xiàn)在(occur)每一篇文檔中的位置(positions)。

            6            調(diào)整因子(normalization factors):對(duì)每一篇文檔的每一個(gè)field來(lái)說(shuō),為一個(gè)存儲(chǔ)的值(a value is stored)用來(lái)加入到(multiply into)命中該field的分?jǐn)?shù)(score for hits on that field)中。

            7            Term向量(vectors):對(duì)每一篇文檔的每一個(gè)field來(lái)說(shuō),term向量(有時(shí)候被稱(chēng)做文檔向量)可以被存儲(chǔ)。一個(gè)term向量由term文本和term的頻率(frequency)組成(consists of)。怎么添加term向量到你的索引中請(qǐng)參考Field類(lèi)的構(gòu)造方法(constructors)。

            8            刪除的文檔(deleted documents):一個(gè)可選的(optional)文件標(biāo)示(indicating)哪一篇文檔被刪除。

             

            關(guān)于這些項(xiàng)的詳細(xì)信息在隨后的章節(jié)(subsequent sections)中逐一介紹。

            1.1.7    索引文件中定義的數(shù)據(jù)類(lèi)型

            數(shù)據(jù)類(lèi)型

            所占字節(jié)長(zhǎng)度(字節(jié))

            說(shuō)明

            Byte

            1

            基本數(shù)據(jù)類(lèi)型,其他數(shù)據(jù)類(lèi)型以此為基礎(chǔ)定義

            UInt32

            4

            32位無(wú)符號(hào)整數(shù),高位優(yōu)先

            UInt64

            8

            64位無(wú)符號(hào)整數(shù),高位優(yōu)先

            VInt

            不定,最少1字節(jié)

            動(dòng)態(tài)長(zhǎng)度整數(shù),每字節(jié)的最高位表明還剩多少字節(jié),每字節(jié)的低七位表明整數(shù)的值,高位優(yōu)先。可以認(rèn)為值可以為無(wú)限大。其示例如下

            字節(jié)1

            字節(jié)2

            字節(jié)3

            0

            00000000

             

             

            1

            00000001

             

             

            2

            00000010

             

             

            127

            01111111

             

             

            128

            10000000

            00000001

             

            129

            10000001

            00000001

             

            130

            10000010

            00000001

             

            16383

            10000000

            10000000

            00000001

            16384

            10000001

            10000000

            00000001

            16385

            10000010

            10000000

            00000001

             

            Chars

            不定,最少1字節(jié)

            采用UTF-8編碼[20]Unicode字符序列

            String

            不定,最少2字節(jié)

            VIntChars組成的字符串類(lèi)型,VInt表示Chars的長(zhǎng)度,Chars則表示了String的值

             

            1.1.8    每個(gè)索引所包含的文件

            本節(jié)介紹的文件存在于每個(gè)索引中(exist one-per-index),下圖描述索引中的文件及組成結(jié)構(gòu):

             

            1.1.8.1 Segments文件

            索引中活動(dòng)(active)的Segments被存儲(chǔ)在segment info文件中,segments_N,在索引中可能會(huì)包含一個(gè)或多個(gè)segments_N文件。然而,最大一代的那個(gè)文件(the one with largest generation)是活動(dòng)的片斷文件(這時(shí)更舊的segments_N文件依然存在(are present)是因?yàn)樗鼈儠簳r(shí)(temporarily)還不能被刪除,或者,一個(gè)writer正在處理提交請(qǐng)求(in the process of committing),或者一個(gè)用戶(hù)定義的(customIndexDeletionPolicy正被使用)。這個(gè)文件按照名稱(chēng)列舉每一個(gè)片斷(lists each segment by name),詳細(xì)描述分離的標(biāo)準(zhǔn)(seperate norm)和要?jiǎng)h除的文件(deletion files),并且還包含了每一個(gè)片斷的大小。

            對(duì)2.1版本來(lái)說(shuō),還有一個(gè)文件segments.gen。這個(gè)文件包含了該索引中當(dāng)前生成的代(current generation)(segments_N中的_N)。這個(gè)文件僅用于一個(gè)后退處理(fallback)以防止(in case)當(dāng)前代(current generation)不能被準(zhǔn)確地(accurately)通過(guò)單獨(dú)地目錄文件列舉(by directory listing alone)來(lái)確定(determened)(由于某些NFS客戶(hù)端因?yàn)榛跁r(shí)間的目錄(time-based directory)的緩存終止(cache expiration)而引起)。這個(gè)文件簡(jiǎn)單地包含了一個(gè)int32的版本頭(version header)(SegmentInfos.FORMAT_LOCKLESS=-2),遵照代的記錄(followed by the generation recorded)規(guī)則,對(duì)int64來(lái)說(shuō)會(huì)寫(xiě)兩次(write twice)。

             

            版本

            Segments包含的項(xiàng)

            數(shù)目

            類(lèi)型

            描述

            2.1之前版本

            Format

            1

            Int32

            Lucene1.4中為-1,而在Lucene 2.1中為-3SegmentsInfos.FORMAT_SINGLE_NORM_FILE

            Version

            1

            Int64

            統(tǒng)計(jì)在刪除和添加文檔時(shí),索引被更改了多少次。

            NameCounter

            1

            Int32

            用于為新的片斷文件生成新的名字。

            SegCount

            1

            Int32

            片斷的數(shù)目

            SegName

            SegCount

            String

            片斷的名字,用于所有構(gòu)成片斷索引的文件的文件名前綴。

            SegSize

            SegCount

            Int32

            包含在片斷索引中的文檔的數(shù)目。

            2.1及之后版本

            Format

            1

            Int32

            同上

            Version

            1

            Int64

            同上

            NameCounter

            1

            Int32

            同上

            SegCount

            1

            Int32

            同上

            SegName

            SegCount

            String

            同上

            SegSize

            SegCount

            Int32

            同上

            DelGen

            SegCount

            Int64

            為分離的刪除文件的代的數(shù)目(generation count of the separate deletes file),如果值為-1,表示沒(méi)有分離的刪除文件。如果值為0,表示這是一個(gè)2.1版本之前的片斷,這時(shí)你必須檢查文件是否存在_X.del這樣的文件。任意大于0的值,表示有分離的刪除文件,文件名為_X_N.del

            HasSingleNormFile

            SegCount

            Int8

            該值如果為1,表示Norm域(field)被寫(xiě)為一個(gè)單一連接的文件(single joined file)中(擴(kuò)展名為.nrm),如果值為0,表示每一個(gè)fieldnorms被存儲(chǔ)為分離的.fN文件中,參考下面的“標(biāo)準(zhǔn)化因素(Normalization Factors)”

            NumField

            SegCount

            Int32

            表示NormGen數(shù)組的大小,如果為-1表示沒(méi)有NormGen被存儲(chǔ)。

            NormGen

            SegCount * NumField

            Int64

            記錄分離的標(biāo)準(zhǔn)文件(separate norm file)的代(generation),如果值為-1,表示沒(méi)有normGens被存儲(chǔ),并且當(dāng)片斷文件是2.1之前版本生成的時(shí),它們?nèi)勘患僭O(shè)為0assumed to be 0)。而當(dāng)片斷文件是2.1及更高版本生成的時(shí),它們?nèi)勘患僭O(shè)為-1。這時(shí)這個(gè)代(generation)的意義與上面DelGen的意義一樣。

            IsCompoundFile

            SegCount

            Int8

            記錄是否該片斷文件被寫(xiě)為一個(gè)復(fù)合的文件,如果值為-1表示它不是一個(gè)復(fù)合文件(compound file),如果為1則為一個(gè)復(fù)合文件。另外如果值為0,表示我們需要檢查文件系統(tǒng)是否存在_X.cfs

             

            1.1.8.2 Lock文件

            寫(xiě)鎖(write lock)文件名為“write.lock”,它缺省存儲(chǔ)在索引目錄中。如果鎖目錄(lock directory)與索引目錄不一致,寫(xiě)鎖將被命名為“XXXX-write.lock”,其中“XXXX”是一個(gè)唯一的前綴(unique prefix),來(lái)源于(derived from)索引目錄的全路徑(full path)。當(dāng)這個(gè)寫(xiě)鎖出現(xiàn)時(shí),一個(gè)writer當(dāng)前正在修改索引(添加或者清除文檔)。這個(gè)寫(xiě)鎖確保在一個(gè)時(shí)刻只有一個(gè)writer修改索引。

            需要注意的是在2.1版本之前(prior to),Lucene還使用一個(gè)commit lock,這個(gè)鎖在2.1版本里被刪除了。

            1.1.8.3 Deletable文件

            Lucene 2.1版本之前,有一個(gè)“deletable”文件,包含了那些需要被刪除文檔的詳細(xì)資料。在2.1版本后,一個(gè)writer會(huì)動(dòng)態(tài)地(dynamically)計(jì)算哪些文件需要?jiǎng)h除,因此,沒(méi)有文件被寫(xiě)入文件系統(tǒng)。

            posted on 2007-06-13 01:37 Javen-Studio 閱讀(1049) 評(píng)論(0)  編輯 收藏 引用

            只有注冊(cè)用戶(hù)登錄后才能發(fā)表評(píng)論。
            網(wǎng)站導(dǎo)航: 博客園   IT新聞   BlogJava   博問(wèn)   Chat2DB   管理


            亚洲精品99久久久久中文字幕| 久久国产精品99精品国产987| 久久久久久久久久久| 日本人妻丰满熟妇久久久久久| 97久久香蕉国产线看观看| 久久精品国产黑森林| av色综合久久天堂av色综合在 | 久久精品一本到99热免费| 日产精品99久久久久久| 国产一区二区精品久久凹凸| 久久这里只有精品首页| 久久精品国产亚洲av麻豆色欲| 久久99精品久久久久久噜噜| 国内精品伊人久久久久777| 亚洲国产二区三区久久| 怡红院日本一道日本久久 | 久久精品中文字幕一区| 人妻精品久久久久中文字幕69| 国产精品美女久久久网AV| 久久久久免费精品国产| 狠色狠色狠狠色综合久久| 久久青青草视频| 99久久人人爽亚洲精品美女| 国内精品伊人久久久影院| 丁香狠狠色婷婷久久综合| 欧美激情精品久久久久久| 99久久久精品| 久久久这里有精品| 大香网伊人久久综合网2020| 久久这里只有精品18| 久久久久久免费视频| 精品久久久久久国产牛牛app | 精品久久久久久久久久中文字幕| 日产精品久久久久久久性色| 香蕉久久夜色精品国产2020| 国产一区二区三精品久久久无广告 | 亚洲午夜久久久| 精品无码久久久久久久动漫 | 99久久无色码中文字幕人妻| 欧美与黑人午夜性猛交久久久| 国产精久久一区二区三区|