青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

  C++博客 :: 首頁 :: 新隨筆 ::  ::  :: 管理
1. 常見的中文分詞器有:極易分詞的(MMAnalyzer) 、"庖丁分詞"分詞器(PaodingAnalzyer)、IKAnalyzer 等等。其中 MMAnalyzer 和 PaodingAnalzyer 不支持 lucene3.0及以后版本。

   使用方式都類似,在構建分詞器時

     Analyzer analyzer 
= new [My]Analyzer(); 

     

2. 這里只示例 IKAnalyzer,目前只有它支持Lucene3.0 以后的版本。 

   首先需要導入 IKAnalyzer3.
2.0Stable.jar 包

 

3. 示例代碼

     view plaincopy to clipboardprint
?
public class AnalyzerTest {   
       @Test  
       
public void test() throws Exception {   
              String text 
= "An IndexWriter creates and maintains an index.";   
              
/* 標準分詞器:單子分詞 */  
              Analyzer analyzer 
= new StandardAnalyzer(Version.LUCENE_30);   
              testAnalyzer(analyzer, text);   
    
              String text2 
= "測試中文環境下的信息檢索";   
              testAnalyzer(
new IKAnalyzer(), text2); // 使用IKAnalyzer,詞庫分詞   
       }
   
    
       
/**  
        * 使用指定的分詞器對指定的文本進行分詞,并打印結果  
        *  
        * 
@param analyzer  
        * 
@param text  
        * 
@throws Exception  
        
*/
  
       
private void testAnalyzer(Analyzer analyzer, String text) throws Exception {   
              System.out.println(
"當前使用的分詞器:" + analyzer.getClass());   
    
              TokenStream tokenStream 
= analyzer.tokenStream("content"new StringReader(text));   
              tokenStream.addAttribute(TermAttribute.
class);   
    
              
while (tokenStream.incrementToken()) {   
                     TermAttribute termAttribute 
= tokenStream.getAttribute(TermAttribute.class);   
                     System.out.println(termAttribute.term());   
              }
   
       }
   
}
   
   
public class AnalyzerTest {
       @Test
       
public void test() throws Exception {
              String text 
= "An IndexWriter creates and maintains an index.";
              
/* 標準分詞器:單子分詞 */
              Analyzer analyzer 
= new StandardAnalyzer(Version.LUCENE_30);
              testAnalyzer(analyzer, text);
 
              String text2 
= "測試中文環境下的信息檢索";
              testAnalyzer(
new IKAnalyzer(), text2); // 使用IKAnalyzer,詞庫分詞
       }

 
       
/**
        * 使用指定的分詞器對指定的文本進行分詞,并打印結果
        *
        * 
@param analyzer
        * 
@param text
        * 
@throws Exception
        
*/

       
private void testAnalyzer(Analyzer analyzer, String text) throws Exception {
              System.out.println(
"當前使用的分詞器:" + analyzer.getClass());
 
              TokenStream tokenStream 
= analyzer.tokenStream("content"new StringReader(text));
              tokenStream.addAttribute(TermAttribute.
class);
 
              
while (tokenStream.incrementToken()) {
                     TermAttribute termAttribute 
= tokenStream.getAttribute(TermAttribute.class);
                     System.out.println(termAttribute.term());
              }

       }

}

  

3. 如何擴展詞庫:很多情況下,我們可能需要定制自己的詞庫,例如 XXX 公司,我們希望這能被分詞器識別,并拆分成一個詞。

   IKAnalyzer 可以很方便的實現我們的這種需求。

   新建 IKAnalyzer.cfg.xml

     view plaincopy to clipboardprint
?
<?xml version="1.0" encoding="UTF-8"?>  
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">    
<properties>    
       
<!-- 1,文件要是 UTF-8 編碼。2,一行寫一個詞 -->  
       
<!--用戶可以在這里配置自己的擴展字典-->  
       
<entry key="ext_dict">/mydict.dic</entry>  
</properties>  
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd"> 
<properties> 
       
<!-- 1,文件要是 UTF-8 編碼。2,一行寫一個詞 -->
       
<!--用戶可以在這里配置自己的擴展字典-->
       
<entry key="ext_dict">/mydict.dic</entry>
</properties> 

       

       解析:

               
<entry key="ext_dict">/mydict.dic</entry> 擴展了一個自己的詞典,名字叫 mydict.dic

               因此我們要建一個文本文件,名為:mydict.dic  (此處使用的 .dic 并非必須)

               在這個文本文件里寫入:

                    北京XXXX科技有限公司

               這樣就添加了一個詞匯。

               如果要添加多個,則新起一行:

                    詞匯一

                    詞匯二

                    詞匯三

                    

               需要注意的是,這個文件一定要使用 UTF
-8編碼

 

4. 停用詞:

    有些詞在文本中出現的頻率非常高,但是對文本所攜帶的信息基本不產生影響,例如英文的
"a、an、the、of",或中文的"的、了、著",以及各種標點符號等,這樣的詞稱為停用詞(stop word)。

    文本經過分詞之后,停用詞通常被過濾掉,不會被進行索引。在檢索的時候,用戶的查詢中如果含有停用詞,檢索系統也會將其過濾掉(因為用戶輸入的查詢字符串也要進行分詞處理)。

    排除停用詞可以加快建立索引的速度,減小索引庫文件的大小。

    IKAnalyzer 中自定義停用詞也非常方便,和配置 
"擴展詞庫" 操作類型,只需要在 IKAnalyzer.cfg.xml 加入如下配置:

       
<entry key="ext_stopwords">/ext_stopword.dic</entry> 

       同樣這個配置也指向了一個文本文件 
/ext_stopword.dic (后綴名任意),格式如下:

           也

          了

          仍

          從

          



本文來自CSDN博客,轉載請標明出處:http:
//blog.csdn.net/wenlin56/archive/2010/12/13/6074124.aspx

Feedback

# re: Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞  回復  更多評論   

2016-07-05 20:08 by 回家看回家看
54544554
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            国产一区二区日韩| 一本一本久久a久久精品综合麻豆 一本一本久久a久久精品牛牛影视 | 国产精品视频一区二区三区| 国产精品成人久久久久| 国产精品国产三级国产aⅴ入口| 亚洲视频播放| 欧美一级一区| 蜜桃av一区二区在线观看| 欧美高清视频一区二区| 中文久久精品| 女同性一区二区三区人了人一| 欧美精品久久久久久久| 国产亚洲va综合人人澡精品| 一区二区三区国产在线观看| 久久久久www| 亚洲美女网站| 久久久国际精品| 欧美日韩在线直播| 伊人久久婷婷色综合98网| 亚洲最新视频在线| 欧美成人精品福利| 欧美一区二区三区四区高清 | 9久re热视频在线精品| 亚洲欧美中文另类| 欧美日韩成人网| 好吊成人免视频| 午夜欧美不卡精品aaaaa| 亚洲激情网站免费观看| 亚洲一区欧美一区| 欧美国产日韩在线观看| 久久久精品免费视频| 99精品国产在热久久下载| 欧美成人69| 国产精品国产馆在线真实露脸| 久久天天躁夜夜躁狠狠躁2022| 亚洲一区二区三区乱码aⅴ蜜桃女| 欧美激情在线狂野欧美精品| 欧美一级二区| 欧美精品粉嫩高潮一区二区 | 夜夜嗨av一区二区三区网页| 午夜精品在线观看| 久久久青草婷婷精品综合日韩| 国产日韩综合| 亚洲伦理久久| 欧美午夜精品理论片a级大开眼界| 亚洲精品日韩在线观看| 欧美成人一区二区三区在线观看| 国产精品第一区| 亚洲福利视频专区| 美女黄网久久| 亚洲精品美女久久7777777| 欧美一区国产一区| 亚洲欧美不卡| 亚洲欧美日韩中文视频| 一区二区三区国产在线| 欧美久久99| 亚洲欧美日韩一区二区在线| 欧美波霸影院| 亚洲图片在区色| 欧美激情视频一区二区三区免费| 狼人天天伊人久久| 欧美精品福利视频| 亚洲第一成人在线| 亚洲国产婷婷| 日韩视频精品在线观看| 亚洲国产精品成人va在线观看| 亚洲三级网站| 国产综合香蕉五月婷在线| 美日韩精品免费| 一区在线观看| 亚洲一区二区三区精品在线| 亚洲影院色在线观看免费| 欧美日本国产一区| 一区二区欧美在线观看| 亚洲图片自拍偷拍| 国产精品萝li| 亚洲福利国产| 99热精品在线| 国产精品久久久久av免费| 亚洲在线中文字幕| 日韩天堂在线视频| 欧美日韩日本网| 久久精品欧美日韩| 欧美日韩亚洲国产精品| 一区二区日韩| 香蕉久久夜色| 在线成人h网| 欧美精品在线免费播放| 在线综合欧美| 久久久久久噜噜噜久久久精品 | 亚洲影视中文字幕| 久久精品三级| 亚洲日韩成人| 国产精品视频男人的天堂| 欧美一区二区视频免费观看| 免费观看亚洲视频大全| 日韩视频免费| 嫩草成人www欧美| 一个色综合av| 蜜桃精品久久久久久久免费影院| 亚洲精品一线二线三线无人区| 欧美三级韩国三级日本三斤| 先锋影音国产精品| 亚洲国产女人aaa毛片在线| 精品动漫av| 欧美日韩一区在线观看视频| 亚洲欧美中日韩| 亚洲成人自拍视频| 亚洲成色精品| 久久久人人人| 一区二区三区四区五区在线| 久久天堂精品| 亚洲欧美日韩高清| 亚洲日本欧美日韩高观看| 国产色产综合色产在线视频| 欧美大片网址| 久久久精品网| 亚洲综合视频网| 亚洲美女在线一区| 欧美成人影音| 久久天天躁狠狠躁夜夜爽蜜月| av成人激情| 亚洲国产欧美久久| 国产一区二区黄| 欧美日韩一区二区三区免费看| 久久久久青草大香线综合精品| 在线亚洲一区| 亚洲免费激情| 亚洲免费高清| 91久久精品www人人做人人爽 | 亚洲精品在线免费观看视频| 国产又爽又黄的激情精品视频| 欧美三区在线观看| 欧美成人中文字幕在线| 久久久之久亚州精品露出| 午夜免费久久久久| 中文欧美在线视频| 一个色综合导航| 亚洲精品日韩欧美| 亚洲免费av电影| 亚洲欧洲在线看| 亚洲欧洲日韩女同| 亚洲欧洲日夜超级视频| 91久久国产综合久久| 亚洲国产一区二区三区a毛片| 欧美sm视频| 欧美国产一区视频在线观看| 免费成人黄色av| 欧美成人在线免费视频| 欧美大成色www永久网站婷| 欧美大片免费久久精品三p | 亚洲欧洲精品一区二区精品久久久| 欧美激情综合色综合啪啪| 巨乳诱惑日韩免费av| 亚洲婷婷综合色高清在线| 久久亚洲电影| 牛牛影视久久网| 欧美激情一区二区三区不卡| 亚洲国产另类 国产精品国产免费| 亚洲国产另类久久精品| 亚洲美女精品久久| 亚洲深夜影院| 欧美一区二区视频在线| 久久一区国产| 欧美尤物一区| 亚洲午夜电影| 午夜在线一区二区| 久久久精品欧美丰满| 免费在线观看日韩欧美| 欧美日一区二区三区在线观看国产免| 欧美午夜视频在线观看| 国产精品一区亚洲| 欧美日韩综合在线免费观看| 国产精品日韩欧美一区二区| 好吊视频一区二区三区四区 | 欧美日韩国内自拍| 国产精品久久久久久久久搜平片 | 国产视频一区二区在线观看| 精品av久久707| 一区二区三区高清在线| 久久精品视频在线| 亚洲国产精品va在看黑人| 亚洲在线视频| 欧美成人一区二区在线| 国产欧美一区二区白浆黑人| 欧美视频日韩视频| 国语精品中文字幕| 99re6热只有精品免费观看| 先锋资源久久| 亚洲欧洲在线看| 久久久久免费| 国产精品丝袜白浆摸在线| 亚洲国产欧美日韩精品| 性色一区二区| 亚洲大片av| 久久精品国产欧美亚洲人人爽| 亚洲一区二区三区高清不卡| 美女在线一区二区| 国产亚洲精品久久久久久| 日韩午夜激情av|