青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

為生存而奔跑

   :: 首頁 :: 聯系 :: 聚合  :: 管理
  271 Posts :: 0 Stories :: 58 Comments :: 0 Trackbacks

留言簿(5)

我參與的團隊

搜索

  •  

積分與排名

  • 積分 - 332303
  • 排名 - 74

最新評論

閱讀排行榜

評論排行榜

 用Lucene建立索引時,需要指定索引的TermVector.YES. 

            Document document = new Document();
            document.Add(
new Field("word", pageText, Field.Store.NO, Field.Index.TOKENIZED, Field.TermVector.YES));
            document.Add(
new Field("concept",pageTitle,Field.Store.YES,Field.Index.NO));
            indexWriter.AddDocument(document);


建立索引后,如下代碼可以遍歷索引中所有的term,并且得到該term在每個文檔中的頻率

           IndexReader reader = IndexReader.Open(indexDir);
            TermEnum termEnum 
= reader.Terms();
            
while (termEnum.Next())
            {
                Console.WriteLine(termEnum.Term());
                Console.WriteLine(
"DocFreq="+termEnum.DocFreq());

                TermDocs termDocs 
= reader.TermDocs(termEnum.Term());
                
while (termDocs.Next())
                {
                    Console.WriteLine(
"DocNo:   "+termDocs.Doc()+"  Freq:   "+termDocs.Freq());
                }
            }




轉自http://lqgao.spaces.live.com/blog/cns!3BB36966ED98D3E5!408.entry?_c11_blogpart_blogpart=blogview&_c=blogpart#permalink

Lucene源碼分析(1) -- 如何讀取Lucene索引數據

終于清楚如何用讀Lucene的索引 :-)。本文要介紹一下如何利用IndexReader獲取信息。為什么要讀索引呢?因為我需要實現這些功能:
(1) 統(tǒng)計term在整個collection中的文檔頻度(document frequency, DF);
(2) 統(tǒng)計term在整個collection中出現的詞次(term frequency in whole collection);
(3) 統(tǒng)計term在某個文檔中出現的頻度(term frequency, TF);
(4) 列出term在某文檔中出現的位置(position);
(5) 整個collection中文檔的個數;
 
那么為什么要用到這些數據呢?這些數據是實現TR(Text Retrieval,文本檢索)的必備的“原料”,而且是經過加工的。在檢索之前,只有原始文本(raw data);經過索引器(indexer)的處理之后,原始文本變成了一個一個的term(或者token),然后被indexer紀錄下來所在的位置、出現的次數。有了這些數據,應用一些模型,就可以實現搜索引擎實現的功能——文本檢索。
 
聰明的讀者您可能會說,這看起來似乎很好做,不過就是計數(count)么。不錯,就是計數,或者說是統(tǒng)計。但是看似簡單的過程,如果加上空間(內存容量)的限制,就顯得不那么簡單了。假設如果每篇文檔有100個term,每個term需要存儲10字節(jié)信息,存1,000,000篇文檔需要 10x100x10^6=10^9=2^30字節(jié),也就是1GB。雖然現在1G內存不算什么,可是總不能把1GB的數據時時刻刻都放入內存吧。那么放入硬盤好了,現在需要用數據的時候,再把1GB數據從硬盤搬到內存。OK,可以先去沖杯咖啡,回來在繼續(xù)下面的操作。這是1,000,000的文檔,如果更多一點呢,現在沒有任何輔助數據結構的方式,會導致很差的效率。
 
Lucene的索引會把數據分成段,并且在需要的時候才讀,不需要的時候就讓數據乖乖地呆在硬盤上。Lucene本身是一個優(yōu)秀的索引引擎,能夠提供有效的索引和檢索機制。文本的目的是,介紹如用利用Lucene的API,如何從已經建好的索引的數據中讀取需要的信息。至于Lucene如何使用,我會在后續(xù)的文章中逐漸介紹。
 
我們一步一步來看。這里建設已經有實現建好索引,存放在index目錄下。好,要讀索引,總得先生成一個讀索引器(即Lucene中IndexReader的實例)。好,寫下面的程序(程序為C#程序,本文使用DotLucene)。
 IndexReader reader;
問題出來了,IndexReader是一個abstract類,不能實例化。那好,換派生類試試看。找到IndexReader的兩個孩子——SegmentReader和MultiReader。用哪個呢?無論是哪個都需要一大堆參數(我是頗費了周折才搞清楚它們的用途,后面再解釋),似乎想用Lucene的索引數據不是那么容易啊。通過跟蹤代碼和查閱文檔,我終于找到使用IndexReader的鑰匙。原來IndexReader有一個“工廠模式”的static interface——IndexReader.Open。定義如下:
#0001  public static IndexReader Open(System.String path)
#0002  public static IndexReader Open(System.IO.FileInfo path)
#0003  public static IndexReader Open(Directory directory)
#0004  private static IndexReader Open(Directory directory, bool closeDirectory)
其中有三個是public的接口,可供調用。打開一個索引,就是這么簡單:
#0001  IndexReader reader = IndexReader.Open(index);
實際上,這個打開索引經歷了這樣的一個過程:
#0001  SegmentInfos infos = new SegmentInfos();
#0002  Directory directory = FSDirectory.GetDirectory(index, false);
#0003  infos.Read(directory);
#0004  bool closeDirectory = false;
#0005  if (infos.Count == 1)
#0006  {
#0007   // index is optimized
#0008   return new SegmentReader(infos, infos.Info(0), closeDirectory);
#0009  }
#0010  else
#0011  {
#0012   IndexReader[] readers = new IndexReader[infos.Count];
#0013   for (int i = 0; i < infos.Count; i++)
#0014    readers[i] = new SegmentReader(infos.Info(i));
#0015   return new MultiReader(directory, infos, closeDirectory, readers);
#0016  }
首先要讀入索引的段信息(segment information, #0001~#0003),然后看一下有幾個段:如果只有一個,那么可能是優(yōu)化過的,直接讀取這一個段就可以(#0008);否則需要一次讀入各個段(#0013~#0014),然后再拼成一個MultiReader(#0015)。打開索引文件的過程就是這樣。
 
接下來我們要看看如何讀取信息了。用下面這段代碼來說明。
#0001  public static void PrintIndex(IndexReader reader)
#0002  {
#0003      //顯示有多少個document
#0004      System.Console.WriteLine(reader + "\tNumDocs = " + reader.NumDocs());
#0005      for (int i = 0; i < reader.NumDocs(); i++)
#0006      {
#0007          System.Console.WriteLine(reader.Document(i));
#0008      }
#0009 
#0010      //枚舉term,獲得<document, term freq, position* >信息
#0011      TermEnum termEnum = reader.Terms();
#0012      while (termEnum.Next())
#0013      {
#0014          System.Console.Write(termEnum.Term());
#0015          System.Console.WriteLine("\tDocFreq=" + termEnum.DocFreq());
#0016 
#0017          TermPositions termPositions = reader.TermPositions(termEnum.Term());
#0018          int i = 0;
#0019          int j = 0;
#0020          while (termPositions.Next())
#0021          {
#0022              System.Console.WriteLine((i++) + "->" + " DocNo:" + termPositions.Doc() + ", Freq:" + termPositions.Freq());
#0023              for (j = 0; j < termPositions.Freq(); j++)
#0024                  System.Console.Write("[" + termPositions.NextPosition() + "]");
#0025              System.Console.WriteLine();
#0026          }
#0027 
#0028          //直接獲取 <term freq, document> 的信息
#0029          TermDocs termDocs = reader.TermDocs(termEnum.Term());
#0030          while (termDocs.Next())
#0031          {
#0032              System.Console.WriteLine((i++) + "->" + " DocNo:" + termDocs.Doc() + ", Freq:" + termDocs.Freq());
#0033          }
#0034      }
#0035 
#0036      // FieldInfos fieldInfos = reader.fieldInfos;
#0037      // FieldInfo pathFieldInfo = fieldInfos.FieldInfo("path");
#0038 
#0039      //顯示 term frequency vector
#0040      for (int i = 0; i < reader.NumDocs(); i++)
#0041      {
#0042          //對contents的token之后的term存于了TermFreqVector
#0043          TermFreqVector termFreqVector = reader.GetTermFreqVector(i, "contents");
#0044 
#0045          if (termFreqVector == null)
#0046          {
#0047              System.Console.WriteLine("termFreqVector is null.");
#0048              continue;
#0049          }
#0050 
#0051          String fieldName = termFreqVector.GetField();
#0052          String[] terms = termFreqVector.GetTerms();
#0053          int[] frequences = termFreqVector.GetTermFrequencies();
#0054 
#0055          System.Console.Write("FieldName:" + fieldName);
#0056          for (int j = 0; j < terms.Length; j++)
#0057          {
#0058              System.Console.Write("[" + terms[j] + ":" + frequences[j] + "]");
#0059          }
#0060          System.Console.WriteLine();
#0061      }
#0062      System.Console.WriteLine();
#0063  }
#0004 計算document的個數
#0012~#0034 枚舉collection中所有的term
其中#0017~#0026 枚舉每個term在出現的document中的所有位置(第幾個詞,從1開始計數);#0029~#0033 計算每個term出現在哪些文檔和相應的出現頻度(即DF和TF)。
#0036~#0037在reader是SegmentReader類型的情況下有效。
#0040~#0061可以快速的讀取某篇文檔中出現的term和相應的頻度。但是這部分需要在建索引時,設置storeTermVector為true。比如
 doc.Add(Field.Text("contents", reader, true));
其中的第三項即是。默認為false。
 
有了這些數據,就可以統(tǒng)計我需要的數據了。以后我會介紹如何建立索引,如何應用Lucene。
posted on 2010-03-08 15:31 baby-fly 閱讀(4531) 評論(0)  編輯 收藏 引用 所屬分類: Information Retrival / Data Mining
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            91久久精品国产91性色tv| 99国产精品久久久久久久久久| 亚洲一级二级在线| 国产精品劲爆视频| 欧美在线免费观看视频| 亚洲女优在线| 一区二区三区我不卡| 欧美国产日韩一二三区| 欧美激情第1页| 亚洲一本视频| 欧美一区激情| 亚洲国产精品第一区二区三区| 亚洲电影成人| 欧美日韩在线不卡一区| 欧美在线综合视频| 免费成人激情视频| 亚洲综合第一| 久久国产直播| 一二三四社区欧美黄| 午夜一级在线看亚洲| 1024亚洲| 亚洲性感激情| 亚洲国产精品国自产拍av秋霞| 亚洲人成网站在线观看播放| 国产精品三级久久久久久电影| 麻豆av福利av久久av| 欧美日韩美女| 欧美成人影音| 国产精品丝袜久久久久久app| 久久亚洲色图| 国产精品久久久久aaaa九色| 久久综合99re88久久爱| 欧美午夜美女看片| 欧美成人精品一区| 国产欧美日韩一区二区三区| 最近看过的日韩成人| 国产精品久久久久7777婷婷| 欧美第一黄网免费网站| 国产精品社区| 亚洲乱码视频| 亚洲国产专区| 久久福利影视| 亚洲欧美日韩直播| 欧美极品在线视频| 免费一级欧美片在线观看| 国产精品永久入口久久久| 亚洲国内精品在线| 亚洲国产成人久久| 久久国产婷婷国产香蕉| 欧美一区二区三区视频在线| 欧美日韩精品一区二区三区| 欧美99久久| 国产一区二区三区无遮挡| 亚洲一区二区少妇| 亚洲视频一区在线| 欧美久久久久| 日韩视频永久免费观看| 亚洲国产小视频在线观看| 久久女同互慰一区二区三区| 久久久久一区二区三区四区| 国产视频不卡| 午夜精品久久久久久久久 | 国产综合色在线| 亚洲五月婷婷| 午夜久久久久久| 国产精品成人播放| 亚洲无玛一区| 校园春色综合网| 国产精品午夜视频| 亚洲欧美卡通另类91av| 亚洲欧美中日韩| 国产美女精品一区二区三区| 亚洲一区二区日本| 久久狠狠久久综合桃花| 国产视频一区在线观看| 欧美在线播放| 蘑菇福利视频一区播放| 亚洲精品老司机| 欧美日韩国内| 亚洲综合欧美| 久久综合99re88久久爱| 亚洲国产你懂的| 欧美日韩一本到| 亚洲一级黄色片| 久久这里只精品最新地址| 影音先锋久久资源网| 免费不卡中文字幕视频| 日韩一区二区精品| 久久爱91午夜羞羞| 亚洲国产美国国产综合一区二区| 欧美sm重口味系列视频在线观看| 亚洲伦理中文字幕| 欧美一区午夜精品| 亚洲国产欧美一区| 国产精品久久久久久亚洲调教 | 欧美一区永久视频免费观看| 美女日韩在线中文字幕| 一本久久精品一区二区| 国产精品视频免费观看| 久久一区中文字幕| 中文在线不卡| 欧美高清视频| 性欧美1819性猛交| 亚洲黄色精品| 国产日韩精品一区| 欧美区二区三区| 欧美亚洲一区二区在线观看| 最新成人av在线| 久久成人资源| 亚洲视频免费在线| 在线国产精品一区| 国产精品亚洲аv天堂网| 免费日韩av| 欧美伊人久久| 一区二区三区国产在线观看| 欧美电影资源| 久久人人97超碰精品888| 亚洲一区二区四区| 亚洲精选久久| 在线观看91久久久久久| 国产精品一区二区黑丝| 欧美日韩国产首页在线观看| 老鸭窝91久久精品色噜噜导演| 午夜久久影院| 亚洲一二三区在线| 日韩视频一区二区三区在线播放| 免费欧美在线视频| 久久婷婷蜜乳一本欲蜜臀| 午夜精品一区二区三区在线播放 | 国内精品视频一区| 国产精品一区在线观看| 欧美三日本三级少妇三2023| 欧美成人首页| 欧美大片免费| 嫩草影视亚洲| 免费成人性网站| 久久免费视频在线观看| 久久成人精品| 久久精品三级| 久久久噜噜噜久久中文字免| 欧美尤物巨大精品爽| 午夜影院日韩| 久久精品成人| 久久久久一区二区三区| 久久久久**毛片大全| 欧美在线网站| 久久久久九九九九| 久久婷婷国产综合精品青草| 久久久综合视频| 麻豆91精品| 欧美国产第一页| 欧美日本一区二区高清播放视频| 欧美理论电影网| 欧美日韩一区二区在线观看| 欧美性淫爽ww久久久久无| 国产精品分类| 国产婷婷色一区二区三区| 国内精品久久久久久久影视麻豆| 国产亚洲欧美日韩精品| 伊人狠狠色j香婷婷综合| 亚洲黑丝在线| 亚洲色在线视频| 性欧美大战久久久久久久久| 久久久另类综合| 欧美激情国产高清| 夜夜嗨一区二区| 欧美怡红院视频| 欧美jizz19hd性欧美| 欧美偷拍另类| 国产资源精品在线观看| 亚洲精品婷婷| 午夜精品视频一区| 欧美成人高清视频| 在线视频中文亚洲| 久久精品人人做人人爽| 欧美日韩成人网| 狠狠干综合网| 中国成人在线视频| 久久久久久噜噜噜久久久精品| 亚洲二区三区四区| 亚洲欧美另类中文字幕| 免费国产自线拍一欧美视频| 国产精品www网站| 亚洲电影第1页| 欧美在线日韩| 亚洲麻豆一区| 久久夜色精品国产| 国产精品久久久对白| 亚洲欧洲免费视频| 久久av一区二区| 亚洲精品久久久久久下一站 | 亚洲一区二区三区视频播放| 卡一卡二国产精品| 国产日韩一区二区三区在线播放| 亚洲精品久久久久久久久久久久| 欧美一区二区三区四区视频| 亚洲精品中文在线| 美日韩精品视频| 国内自拍视频一区二区三区| 亚洲女性裸体视频|