青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

Javen-Studio 咖啡小屋

http://javenstudio.org - C++ Java 分布式 搜索引擎
Naven's Research Laboratory - Thinking of Life, Imagination of Future

  C++博客 :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理 ::
  24 隨筆 :: 57 文章 :: 170 評論 :: 4 Trackbacks

1           什么是索引

為了使用Lucene來索引數據,首先你得把它轉換成一個純文本(plain-texttokens的數據流(stream),并通過它創建出Document對象,其包含的Fields成員容納這些文本數據。一旦你準備好些Document對象,你就可以調用IndexWriter類的addDocument(Document)方法來傳遞這些對象到Lucene并寫入索引中。當你做這些的時候,Lucene首先分析(analyzer)這些數據來使得它們更適合索引。詳見《Lucene In Action

 

 

下面先了解一下索引結構的一些術語。

1.1       索引數據結構介紹

1.1.1    術語定義

Lucene中基本的概念(fundamental concepts)是indexDocumentFieldterm

ú            一條索引(index)包含(contains)了一連串(a sequence of)文檔(documents)。

ú            一個文檔(document)是由一連串fields組成。

ú            一個field是由一連串命名了(a named sequence of)的terms組成。

ú            一個term是一個string(字符串)。

相同的字符串(same string)但是在兩個不同的fields中被認為(considered)是不同的term。因此(thusterm被描述為(represent as)一對字符串(a pair of strings),第一個string取名(naming)為該field的名字,第二個string取名為包含在該field中的文本(text within the field)。

1.1.2    倒排索引(inverted indexing

索引(index)存儲terms的統計數據(statistics about terms),為了使得基于term的檢索(term-based search)效率更高(more efficient)。Lucene的索引分成(fall into)被廣為熟悉的(known as)索引種類(family of indexex)叫做倒排索引(inverted index)。這是因為它可以列舉(list),對一個term來說,所有包含它的文檔(documents that contain it)。這與自然關聯規則(natural relationship)是相反,即由documents列舉它所包含的terms

1.1.3    Fields的種類

Lucene中,fields可以被存儲(stored),在這種情況(in which case)下它們的文本被逐字地(literally)以一種非倒排的方式(in non-inverted manner)存儲進index中。那些被倒排的fieldsthat are inverted)稱為(called)被索引(indexed)。一個field可以都被存儲(stored)并且被索引(indexed)。

一個field的文本可以被分解為(be tokenized intoterms以便被索引(indexed),或者field的文本可以被逐字地使用為(used literally as)一個term來被索引(be indexed)。大多數fields被分解(be tokenized),但是有時候對某種唯一性(certain identifier)的field來逐字地索引(be indexed literally)又是非常有用的,如url

1.1.4    片斷(segments

Lucene的索引可以由多個復合的子索引(multiple sub-indexes)或者片斷(segments)組成(be composed of)。每一個segment都是一個完全獨立的索引(fully independent index),它能夠被分離地進行檢索(be searched seperately)。索引按如下方式進行演化(evolve):

1.          為新添加的文檔(newly added documents)創建新的片斷(segments)。

2.          合并已存在的片斷(merging existing segments)。

檢索可以涉及(involve)多個復合(multiple)的segments,并且/或者多個復合(multiple)的indexes。每一個index潛在地(potentially)包含(composed of)一套(a set ofsegments

1.1.5    文檔編號(document numbers

在內部(internally),Lucene通過一個整數的(interger)文檔編號(document number)來表示文檔。第一篇被添加到索引中的文檔編號為0be numbered zero),每一篇隨后(subsequent)被添加的document獲得一個比前一篇更大的數字(a number one greater than the previous)。

需要注意的是一篇文檔的編號(document’s number)可以更改,所以在Lucene之外(outside of)存儲這些編號時需要特別小心(caution should be taken)。詳細地說(in particular),編號在如下的情況(following situations)可以更改:

ú            存儲在每個segment中的編號僅僅是在所在的segment中是唯一的(unique),在它能夠被使用在(be used in)一個更大的上下文(a larger context)中前必須被轉變(converted)。標準的技術(standard technique)是給每一個segment分配(allocate)一個范圍的值(a range of values),基于該segment所使用的編號的范圍(the range of numbers)。為了將一篇文檔的編號從一個segment轉變為一個擴展的值(an external value),該片斷的基礎的文檔編號(base document number)被添加(is added)。為了將一個擴展的值(external value)轉變回一個segment的特定的值(specific value),該segment將該擴展的值所在的范圍標識出來(be indentified),并且該segment的基礎值(base value)將被減少(substracted)。例如,兩個包含5篇文檔的segments可能會被合并(combined),所以第一個segment有一個基礎的值(base value)為0,第二個segment則為5。在第二個segment中的第3篇文檔(document three from the second segment)將有一個擴展的值為8

ú            當文檔被刪除的時候,在編號序列中(in the numbering)將產生(created)間隔段(gaps)。這些最后(eventually)在索引通過合并演進時(index evolves through merging)將會被清除(removed)。當segments被合并后(merged),已刪除的文檔將會被丟棄(dropped),一個剛被合并的(freshly-mergedsegment因此在它的編號序列中(in its numbering)不再有間隔段(gaps)。

 

1.1.6    索引結構概述

每一個片斷的索引(segment index)管理(maintains)如下的數據:

ú            Fields名稱:這包含了(contains)在索引中使用的一系列fields的名稱(the set of field names)。

ú            已存儲的field的值:它包含了,對每篇文檔來說,一個屬性-值數據對(attribute-value pairs)的清單(a list of),其中屬性即為field的名字。這些被用來存儲關于文檔的備用信息(auxiliary information),比如它的標題(title)、url、或者一個訪問一個數據庫(database)的唯一標識(identifier)。這套存儲的fields就是那些在檢索時對每一個命中的(hits)文檔所返回的(returned)信息。這些是通過文檔編號(document number)來做為key得到的。

ú            Term字典(dictionary):一個包含(contains)所有terms的字典,被使用在所有文檔中所有被索引的fields中。它還包含了該term所在的文檔的數目(the number of documents which contains the term),并且指向了(pointer toterm的頻率(frequency)和接近度(proximity)的數據(data)。

ú            Term頻率數據(frequency data):對字典中的每一個term來說,所有包含該termcontains the term)的文檔的編號(numbers of all documents),以及該term出現在該文檔中的頻率(frequency)。

ú            Term接近度數據(proximity data):對字典中的每一個term來說,該term出現在(occur)每一篇文檔中的位置(positions)。

ú            調整因子(normalization factors):對每一篇文檔的每一個field來說,為一個存儲的值(a value is stored)用來加入到(multiply into)命中該field的分數(score for hits on that field)中。

ú            Term向量(vectors):對每一篇文檔的每一個field來說,term向量(有時候被稱做文檔向量)可以被存儲。一個term向量由term文本和term的頻率(frequency)組成(consists of)。怎么添加term向量到你的索引中請參考Field類的構造方法(constructors)。

ú            刪除的文檔(deleted documents):一個可選的(optional)文件標示(indicating)哪一篇文檔被刪除。

 

關于這些項的詳細信息在隨后的章節(subsequent sections)中逐一介紹。

 

posted on 2007-05-13 03:20 Javen-Studio 閱讀(953) 評論(0)  編輯 收藏 引用

只有注冊用戶登錄后才能發表評論。
網站導航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            久久久亚洲精品一区二区三区| 亚洲欧美视频一区| 久久久免费精品视频| 亚洲图片欧美一区| 最新成人av在线| 国产一级久久| 国产精品免费一区豆花| 欧美激情成人在线| 久久麻豆一区二区| 欧美亚洲一区三区| 亚洲一区欧美一区| 一区二区精品国产| 亚洲久色影视| 亚洲激情视频在线播放| 免费亚洲一区| 久久综合色天天久久综合图片| 欧美专区在线播放| 午夜视频一区二区| 亚洲欧美日韩综合一区| 亚洲深夜福利| 宅男精品视频| 亚洲视频在线观看网站| 亚洲免费观看| 99热在线精品观看| 日韩视频在线观看免费| 亚洲精品美女在线观看播放| 在线播放亚洲| 亚洲第一网站免费视频| 亚洲东热激情| 亚洲国产天堂网精品网站| 亚洲国产精品久久久久| 在线欧美不卡| 亚洲国产视频一区| 亚洲伦理中文字幕| 99热精品在线| 亚洲宅男天堂在线观看无病毒| 亚洲视频一起| 午夜久久美女| 欧美专区一区二区三区| 久久一区二区三区超碰国产精品| 蜜桃av一区二区| 你懂的网址国产 欧美| 欧美第一黄色网| 亚洲国产精品女人久久久| 亚洲人成人一区二区在线观看 | 久久精品国产清高在天天线| 欧美在线日韩精品| 久久综合一区二区| 欧美精品尤物在线| 国产精品草莓在线免费观看| 国产日韩精品一区| 在线观看日韩国产| 日韩五码在线| 香蕉亚洲视频| 女同性一区二区三区人了人一| 欧美激情国产精品| 一本色道久久加勒比精品| 亚洲你懂的在线视频| 久久乐国产精品| 欧美精品1区2区| 国产精品―色哟哟| 影音国产精品| 在线亚洲自拍| 久久男人av资源网站| 亚洲电影免费在线| 亚洲图片在线观看| 久久亚洲国产成人| 欧美日韩一区二区三区高清| 国产亚洲美州欧州综合国| 亚洲国产午夜| 亚洲一区日韩在线| 免费国产一区二区| 一本在线高清不卡dvd| 久久精品视频在线播放| 欧美日韩精品二区第二页| 国产精品日本| 亚洲精品乱码久久久久久按摩观| 亚洲欧美制服另类日韩| 蘑菇福利视频一区播放| 亚洲午夜女主播在线直播| 久久夜色精品国产| 国产麻豆9l精品三级站| 亚洲精品一区二区网址| 久久九九电影| 日韩一本二本av| 久久综合影音| 国产亚洲aⅴaaaaaa毛片| 亚洲理论电影网| 久久综合国产精品| 亚洲在线成人精品| 欧美人体xx| 在线电影国产精品| 欧美主播一区二区三区美女 久久精品人| 亚洲第一在线综合网站| 欧美在线观看网站| 国产精品午夜电影| 一区二区三区精品视频在线观看| 男女精品视频| 久久精品av麻豆的观看方式| 欧美午夜www高清视频| 亚洲福利视频二区| 久久午夜影视| 欧美一区不卡| 国产精品色一区二区三区| 一区二区三区高清在线观看| 欧美激情视频一区二区三区在线播放 | 欧美成人免费小视频| 羞羞视频在线观看欧美| 欧美亚一区二区| a4yy欧美一区二区三区| 欧美激情亚洲国产| 久久久久久久综合狠狠综合| 国产日韩欧美一区二区| 亚洲欧美日本国产专区一区| 日韩视频中文| 欧美日韩国内| 在线一区二区三区四区五区| 最新中文字幕亚洲| 欧美激情亚洲一区| 亚洲美女性视频| 亚洲黄色免费电影| 欧美二区在线看| 亚洲乱码国产乱码精品精98午夜| 欧美激情精品久久久久久免费印度| 久久裸体视频| 最新国产精品拍自在线播放| 欧美1区2区| 女人天堂亚洲aⅴ在线观看| 亚洲国产91色在线| 亚洲第一主播视频| 欧美人成网站| 亚洲一区二区在| 亚洲专区在线| 国产午夜精品福利| 久久香蕉国产线看观看av| 久久久另类综合| 亚洲黄色一区二区三区| 亚洲国产精品嫩草影院| 欧美片第1页综合| 亚洲一区国产一区| 午夜精品一区二区三区电影天堂 | 亚洲美女av在线播放| 亚洲精品亚洲人成人网| 欧美日韩美女一区二区| 亚洲欧美日韩成人高清在线一区| 亚洲网站在线| 国内精品视频一区| 欧美激情亚洲自拍| 亚洲国内高清视频| 久久亚洲春色中文字幕| 亚洲伦理在线观看| 欧美视频中文字幕| 欧美中文日韩| 老牛影视一区二区三区| 一本久道综合久久精品| 亚洲天堂av综合网| 国产综合欧美在线看| 蜜臀久久99精品久久久画质超高清| 免费短视频成人日韩| 亚洲一区二区三区777| 亚洲欧美日韩国产综合| 精品动漫一区二区| 亚洲美女在线国产| 国产日韩欧美在线看| 亚洲第一黄网| 国产精品视屏| 欧美二区在线观看| 国产精品国产馆在线真实露脸| 久久久久久九九九九| 欧美精品一区二区蜜臀亚洲| 欧美在线观看天堂一区二区三区 | 欧美精品自拍| 欧美资源在线观看| 欧美国产欧美亚州国产日韩mv天天看完整| 亚洲调教视频在线观看| 久久精品国产精品亚洲综合| 亚洲精选成人| 久久国产欧美精品| 中文一区二区在线观看| 久久精品国产第一区二区三区最新章节 | 亚洲精品国产拍免费91在线| 国产伦精品一区二区| 亚洲国产精品va在线看黑人| 国产欧美精品日韩精品| 亚洲国产一区二区三区高清| 国产欧美精品一区二区色综合 | 欧美在线观看网址综合| 一本一本久久a久久精品牛牛影视| 欧美在线国产精品| 亚洲影院高清在线| 欧美a级理论片| 久久乐国产精品| 国产精品丝袜91| 亚洲日韩欧美视频| 伊大人香蕉综合8在线视| 亚洲综合色自拍一区| 一区二区精品在线| 欧美jizz19性欧美| 免费欧美日韩| 韩国av一区二区三区|