青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

  C++博客 :: 首頁 :: 新隨筆 ::  ::  :: 管理
1. 常見的中文分詞器有:極易分詞的(MMAnalyzer) 、"庖丁分詞"分詞器(PaodingAnalzyer)、IKAnalyzer 等等。其中 MMAnalyzer 和 PaodingAnalzyer 不支持 lucene3.0及以后版本。

   使用方式都類似,在構(gòu)建分詞器時(shí)

     Analyzer analyzer 
= new [My]Analyzer(); 

     

2. 這里只示例 IKAnalyzer,目前只有它支持Lucene3.0 以后的版本。 

   首先需要導(dǎo)入 IKAnalyzer3.
2.0Stable.jar 包

 

3. 示例代碼

     view plaincopy to clipboardprint
?
public class AnalyzerTest {   
       @Test  
       
public void test() throws Exception {   
              String text 
= "An IndexWriter creates and maintains an index.";   
              
/* 標(biāo)準(zhǔn)分詞器:?jiǎn)巫臃衷~ */  
              Analyzer analyzer 
= new StandardAnalyzer(Version.LUCENE_30);   
              testAnalyzer(analyzer, text);   
    
              String text2 
= "測(cè)試中文環(huán)境下的信息檢索";   
              testAnalyzer(
new IKAnalyzer(), text2); // 使用IKAnalyzer,詞庫分詞   
       }
   
    
       
/**  
        * 使用指定的分詞器對(duì)指定的文本進(jìn)行分詞,并打印結(jié)果  
        *  
        * 
@param analyzer  
        * 
@param text  
        * 
@throws Exception  
        
*/
  
       
private void testAnalyzer(Analyzer analyzer, String text) throws Exception {   
              System.out.println(
"當(dāng)前使用的分詞器:" + analyzer.getClass());   
    
              TokenStream tokenStream 
= analyzer.tokenStream("content"new StringReader(text));   
              tokenStream.addAttribute(TermAttribute.
class);   
    
              
while (tokenStream.incrementToken()) {   
                     TermAttribute termAttribute 
= tokenStream.getAttribute(TermAttribute.class);   
                     System.out.println(termAttribute.term());   
              }
   
       }
   
}
   
   
public class AnalyzerTest {
       @Test
       
public void test() throws Exception {
              String text 
= "An IndexWriter creates and maintains an index.";
              
/* 標(biāo)準(zhǔn)分詞器:?jiǎn)巫臃衷~ */
              Analyzer analyzer 
= new StandardAnalyzer(Version.LUCENE_30);
              testAnalyzer(analyzer, text);
 
              String text2 
= "測(cè)試中文環(huán)境下的信息檢索";
              testAnalyzer(
new IKAnalyzer(), text2); // 使用IKAnalyzer,詞庫分詞
       }

 
       
/**
        * 使用指定的分詞器對(duì)指定的文本進(jìn)行分詞,并打印結(jié)果
        *
        * 
@param analyzer
        * 
@param text
        * 
@throws Exception
        
*/

       
private void testAnalyzer(Analyzer analyzer, String text) throws Exception {
              System.out.println(
"當(dāng)前使用的分詞器:" + analyzer.getClass());
 
              TokenStream tokenStream 
= analyzer.tokenStream("content"new StringReader(text));
              tokenStream.addAttribute(TermAttribute.
class);
 
              
while (tokenStream.incrementToken()) {
                     TermAttribute termAttribute 
= tokenStream.getAttribute(TermAttribute.class);
                     System.out.println(termAttribute.term());
              }

       }

}

  

3. 如何擴(kuò)展詞庫:很多情況下,我們可能需要定制自己的詞庫,例如 XXX 公司,我們希望這能被分詞器識(shí)別,并拆分成一個(gè)詞。

   IKAnalyzer 可以很方便的實(shí)現(xiàn)我們的這種需求。

   新建 IKAnalyzer.cfg.xml

     view plaincopy to clipboardprint
?
<?xml version="1.0" encoding="UTF-8"?>  
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">    
<properties>    
       
<!-- 1,文件要是 UTF-8 編碼。2,一行寫一個(gè)詞 -->  
       
<!--用戶可以在這里配置自己的擴(kuò)展字典-->  
       
<entry key="ext_dict">/mydict.dic</entry>  
</properties>  
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd"> 
<properties> 
       
<!-- 1,文件要是 UTF-8 編碼。2,一行寫一個(gè)詞 -->
       
<!--用戶可以在這里配置自己的擴(kuò)展字典-->
       
<entry key="ext_dict">/mydict.dic</entry>
</properties> 

       

       解析:

               
<entry key="ext_dict">/mydict.dic</entry> 擴(kuò)展了一個(gè)自己的詞典,名字叫 mydict.dic

               因此我們要建一個(gè)文本文件,名為:mydict.dic  (此處使用的 .dic 并非必須)

               在這個(gè)文本文件里寫入:

                    北京XXXX科技有限公司

               這樣就添加了一個(gè)詞匯。

               如果要添加多個(gè),則新起一行:

                    詞匯一

                    詞匯二

                    詞匯三

                    

               需要注意的是,這個(gè)文件一定要使用 UTF
-8編碼

 

4. 停用詞:

    有些詞在文本中出現(xiàn)的頻率非常高,但是對(duì)文本所攜帶的信息基本不產(chǎn)生影響,例如英文的
"a、an、the、of",或中文的"的、了、著",以及各種標(biāo)點(diǎn)符號(hào)等,這樣的詞稱為停用詞(stop word)。

    文本經(jīng)過分詞之后,停用詞通常被過濾掉,不會(huì)被進(jìn)行索引。在檢索的時(shí)候,用戶的查詢中如果含有停用詞,檢索系統(tǒng)也會(huì)將其過濾掉(因?yàn)橛脩糨斎氲牟樵冏址惨M(jìn)行分詞處理)。

    排除停用詞可以加快建立索引的速度,減小索引庫文件的大小。

    IKAnalyzer 中自定義停用詞也非常方便,和配置 
"擴(kuò)展詞庫" 操作類型,只需要在 IKAnalyzer.cfg.xml 加入如下配置:

       
<entry key="ext_stopwords">/ext_stopword.dic</entry> 

       同樣這個(gè)配置也指向了一個(gè)文本文件 
/ext_stopword.dic (后綴名任意),格式如下:

           也

          了

          仍

          從

          



本文來自CSDN博客,轉(zhuǎn)載請(qǐng)標(biāo)明出處:http:
//blog.csdn.net/wenlin56/archive/2010/12/13/6074124.aspx

Feedback

# re: Lucene入門級(jí)筆記五 -- 分詞器,使用中文分詞器,擴(kuò)展詞庫,停用詞  回復(fù)  更多評(píng)論   

2016-07-05 20:08 by 回家看回家看
54544554
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            久久久久久久久久久久久女国产乱| 亚洲人在线视频| 中日韩美女免费视频网站在线观看| 国产主播喷水一区二区| 欧美日韩国产精品一区二区亚洲| 久久精品国亚洲| 亚洲欧美日韩国产一区二区三区 | 亚洲欧美另类国产| 亚洲国产另类久久精品| 久久亚洲私人国产精品va| 亚洲欧美日韩精品| 中文久久精品| 99re66热这里只有精品4| 在线观看视频一区二区| 国产一区二三区| 国产偷自视频区视频一区二区| 国产精品电影在线观看| 欧美激情久久久久| 欧美好骚综合网| 免费在线国产精品| 免费久久精品视频| 美女精品在线| 美女成人午夜| 欧美成人亚洲| 欧美高清一区二区| 欧美电影免费观看| 欧美激情免费观看| 欧美精品18| 欧美母乳在线| 欧美日韩午夜剧场| 欧美性淫爽ww久久久久无| 欧美色综合天天久久综合精品| 欧美欧美午夜aⅴ在线观看| 欧美精品情趣视频| 欧美日韩激情小视频| 欧美日韩精品久久| 欧美视频三区在线播放| 国产精品护士白丝一区av| 国产精品女主播在线观看| 国产精品区一区二区三区| 国产欧美精品国产国产专区| 国产伦精品一区| 国产中文一区二区| 亚洲高清不卡在线| 日韩系列在线| 亚洲专区国产精品| 欧美一级午夜免费电影| 久久视频国产精品免费视频在线| 久久夜色精品国产| 欧美大片免费看| 亚洲狼人精品一区二区三区| 99re热精品| 午夜天堂精品久久久久| 久久精品在线视频| 欧美韩国日本一区| 国产精品v欧美精品∨日韩| 国产精品网站在线观看| 伊人久久综合97精品| 亚洲人成在线播放| 亚洲欧美激情视频| 麻豆乱码国产一区二区三区| 亚洲国产婷婷香蕉久久久久久99 | 亚洲国产三级在线| 亚洲神马久久| 久久久久久久一区二区三区| 欧美激情bt| 国产婷婷色一区二区三区在线| 伊人成综合网伊人222| 日韩午夜电影av| 久久精品国产999大香线蕉| 欧美高清在线视频| 亚洲一区二区三区777| 久久亚洲精品一区| 国产精品红桃| 亚洲欧洲综合另类| 久久国产夜色精品鲁鲁99| 亚洲电影在线| 性欧美超级视频| 欧美日本精品| 影音先锋日韩精品| 亚洲综合色丁香婷婷六月图片| 久热综合在线亚洲精品| 一区二区av在线| 久久亚洲精品一区| 国产伦精品一区二区三区免费| 亚洲区第一页| 久久精品视频网| 99国产欧美久久久精品| 久久综合久久久久88| 国产精品区一区二区三| 日韩一区二区久久| 美女国产一区| 亚洲欧洲av一区二区三区久久| 欧美黄污视频| 在线欧美小视频| 欧美中文字幕在线观看| 9l国产精品久久久久麻豆| 猫咪成人在线观看| 国产一区二区三区高清| 亚洲欧美影音先锋| 夜夜嗨av一区二区三区四区| 卡一卡二国产精品| 国产综合在线视频| 久久xxxx| 亚洲女性喷水在线观看一区| 欧美日韩一区二区视频在线| 亚洲精选视频免费看| 免费看av成人| 久久久91精品国产一区二区三区| 国产欧美日韩亚洲一区二区三区| 中文无字幕一区二区三区| 亚洲激情在线观看视频免费| 老**午夜毛片一区二区三区| 怡红院精品视频| 久久久一二三| 欧美在线视频a| 国产日韩一区二区三区在线| 亚洲欧美日韩精品久久久久| 一区二区高清在线| 欧美手机在线| 亚洲欧美一区在线| 亚洲午夜一二三区视频| 国产精品电影在线观看| 亚洲午夜高清视频| 亚洲最新在线视频| 欧美性事免费在线观看| 亚洲欧美视频| 亚洲欧美日本伦理| 国产欧美一区二区精品婷婷| 欧美一区二区精品| 欧美一站二站| 在线观看av不卡| 欧美国产欧美亚洲国产日韩mv天天看完整 | 国产精品五区| 欧美一区二区在线播放| 午夜精品免费| 一区二区三区在线视频免费观看 | 欧美精品1区2区3区| 一本色道久久88综合日韩精品 | 国产欧美91| 久久精品国产亚洲精品| 久久久久久久久久码影片| 91久久国产自产拍夜夜嗨| 亚洲第一久久影院| 欧美另类综合| 午夜在线视频观看日韩17c| 午夜欧美理论片| 怡红院精品视频在线观看极品| 欧美激情亚洲| 国产精品a级| 久久人体大胆视频| 欧美国产免费| 亚洲欧美另类中文字幕| 久久爱www| 亚洲精品免费在线观看| 一二美女精品欧洲| 国产尤物精品| 欧美激情一区二区三区成人| 欧美日本乱大交xxxxx| 性欧美video另类hd性玩具| 久久精品麻豆| 一本色道久久综合亚洲精品小说| 亚洲一区二区三区成人在线视频精品| 国产一区二区三区久久久久久久久 | 国产精品久久久久久久浪潮网站| 久久久久久久一区二区三区| 久久综合激情| 亚洲欧美日韩在线不卡| 久久久久免费观看| 一区二区毛片| 久久久久久夜| 亚洲天堂av在线免费| 久久精品91久久久久久再现| 日韩视频三区| 欧美中文在线视频| 在线视频日本亚洲性| 久久精品官网| 亚洲一区在线免费观看| 久久久久久色| 性久久久久久| 欧美日韩大陆在线| 麻豆av一区二区三区| 国产精品jizz在线观看美国 | 一区二区三区欧美| 亚洲大胆人体在线| 亚洲制服丝袜在线| 亚洲免费成人| 久久er精品视频| 亚洲综合99| 欧美高清日韩| 欧美va天堂va视频va在线| 国产精品日日做人人爱| 亚洲激情第一页| 亚洲第一偷拍| 欧美一级免费视频| 亚洲免费视频网站| 欧美日韩精品免费观看视频| 蜜桃久久精品一区二区| 国产一区二区高清视频| 亚洲视频中文|