青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

<cite id="zmylr"></cite>

<label id="zmylr"><dl id="zmylr"></dl></label>

登山之道

C++博客 :: 首頁 :: 新隨筆 :: :: :: 管理

Lucene入門級筆記五 -- 分詞器，使用中文分詞器，擴展詞庫，停用詞

Posted on 2011-04-17 19:25 Kevin_Zhang 閱讀(3516) 評論(1) 編輯收藏引用所屬分類: 搜索引擎

1. 常見的中文分詞器有：極易分詞的(MMAnalyzer) 、"庖丁分詞"分詞器(PaodingAnalzyer)、IKAnalyzer 等等。其中 MMAnalyzer 和 PaodingAnalzyer 不支持 lucene3.0及以后版本。

使用方式都類似，在構(gòu)建分詞器時

Analyzer analyzer = new [My]Analyzer();

2. 這里只示例 IKAnalyzer，目前只有它支持Lucene3.0 以后的版本。

首先需要導(dǎo)入 IKAnalyzer3.2.0Stable.jar 包

3. 示例代碼

view plaincopy to clipboardprint?

public class AnalyzerTest {

@Test

public void test() throws Exception {

String text = "An IndexWriter creates and maintains an index.";

/* 標(biāo)準(zhǔn)分詞器：單子分詞 */

Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_30);

testAnalyzer(analyzer, text);

String text2 = "測試中文環(huán)境下的信息檢索";

testAnalyzer(new IKAnalyzer(), text2); // 使用IKAnalyzer，詞庫分詞

}

/**

* 使用指定的分詞器對指定的文本進(jìn)行分詞，并打印結(jié)果

*

* @param analyzer

* @param text

* @throws Exception

*/

private void testAnalyzer(Analyzer analyzer, String text) throws Exception {

System.out.println("當(dāng)前使用的分詞器：" + analyzer.getClass());

TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(text));

tokenStream.addAttribute(TermAttribute.class);

while (tokenStream.incrementToken()) {

TermAttribute termAttribute = tokenStream.getAttribute(TermAttribute.class);

System.out.println(termAttribute.term());

}

}

}

public class AnalyzerTest {

@Test

public void test() throws Exception {

String text = "An IndexWriter creates and maintains an index.";

/* 標(biāo)準(zhǔn)分詞器：單子分詞 */

Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_30);

testAnalyzer(analyzer, text);

String text2 = "測試中文環(huán)境下的信息檢索";

testAnalyzer(new IKAnalyzer(), text2); // 使用IKAnalyzer，詞庫分詞

}

/**

* 使用指定的分詞器對指定的文本進(jìn)行分詞，并打印結(jié)果

*

* @param analyzer

* @param text

* @throws Exception

*/

private void testAnalyzer(Analyzer analyzer, String text) throws Exception {

System.out.println("當(dāng)前使用的分詞器：" + analyzer.getClass());

TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(text));

tokenStream.addAttribute(TermAttribute.class);

while (tokenStream.incrementToken()) {

TermAttribute termAttribute = tokenStream.getAttribute(TermAttribute.class);

System.out.println(termAttribute.term());

}

}

}

3. 如何擴展詞庫：很多情況下，我們可能需要定制自己的詞庫，例如 XXX 公司，我們希望這能被分詞器識別，并拆分成一個詞。

IKAnalyzer 可以很方便的實現(xiàn)我們的這種需求。

新建 IKAnalyzer.cfg.xml

view plaincopy to clipboardprint?

<?xml version="1.0" encoding="UTF-8"?>

<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">

<properties>

<entry key="ext_dict">/mydict.dic</entry>

</properties>

<?xml version="1.0" encoding="UTF-8"?>

<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">

<properties>

<entry key="ext_dict">/mydict.dic</entry>

</properties>

解析：

<entry key="ext_dict">/mydict.dic</entry> 擴展了一個自己的詞典，名字叫 mydict.dic

因此我們要建一個文本文件，名為：mydict.dic （此處使用的 .dic 并非必須）

在這個文本文件里寫入：

北京XXXX科技有限公司

這樣就添加了一個詞匯。

如果要添加多個，則新起一行：

詞匯一

詞匯二

詞匯三

需要注意的是，這個文件一定要使用 UTF-8編碼

4. 停用詞：

有些詞在文本中出現(xiàn)的頻率非常高，但是對文本所攜帶的信息基本不產(chǎn)生影響，例如英文的"a、an、the、of"，或中文的"的、了、著"，以及各種標(biāo)點符號等，這樣的詞稱為停用詞（stop word）。

文本經(jīng)過分詞之后，停用詞通常被過濾掉，不會被進(jìn)行索引。在檢索的時候，用戶的查詢中如果含有停用詞，檢索系統(tǒng)也會將其過濾掉（因為用戶輸入的查詢字符串也要進(jìn)行分詞處理）。

排除停用詞可以加快建立索引的速度，減小索引庫文件的大小。

IKAnalyzer 中自定義停用詞也非常方便，和配置 "擴展詞庫" 操作類型，只需要在 IKAnalyzer.cfg.xml 加入如下配置：

<entry key="ext_stopwords">/ext_stopword.dic</entry>

同樣這個配置也指向了一個文本文件 /ext_stopword.dic （后綴名任意），格式如下：

也

了

仍

從

本文來自CSDN博客，轉(zhuǎn)載請標(biāo)明出處：http://blog.csdn.net/wenlin56/archive/2010/12/13/6074124.aspx

Feedback

# re: Lucene入門級筆記五 -- 分詞器，使用中文分詞器，擴展詞庫，停用詞 回復(fù) 更多評論

2016-07-05 20:08 by 回家看回家看

54544554

刷新評論列表

只有注冊用戶登錄后才能發(fā)表評論。


相關(guān)文章: Lucene入門級筆記五 -- 分詞器，使用中文分詞器，擴展詞庫，停用詞網(wǎng)頁解析開源項目一個 Java 搜索引擎的實現(xiàn)，第 2 部分: 網(wǎng)頁預(yù)處理一個 Java 搜索引擎的實現(xiàn)，第 1 部分: 網(wǎng)絡(luò)爬蟲 java 下載網(wǎng)頁 Apache+php+mysql在XP下搭配詳解 MonoDevelop heritrix1.14.4 tomcatPlugin下載地址 Heritrix-1.14.1怎么配置?

網(wǎng)站導(dǎo)航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

<ins id="pjuwb"></ins>

<blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>

<noscript id="pjuwb"></noscript>

<sup id="pjuwb"><pre id="pjuwb"></pre></sup>

<dd id="pjuwb"></dd>

<abbr id="pjuwb"></abbr>

亚洲欧美另类在线观看| 亚洲国产一区二区精品专区| 欧美高清不卡在线| 欧美在线黄色| 亚洲私人黄色宅男| 最新亚洲一区| 免费精品视频| 久久大香伊蕉在人线观看热2| 宅男在线国产精品| 亚洲看片网站| 亚洲高清免费视频| 国内一区二区在线视频观看| 国产精品一级二级三级| 欧美日韩国产区| 免费看精品久久片| 老巨人导航500精品| 久久精品免费| 欧美在线一级视频| 午夜欧美大尺度福利影院在线看| 一二三区精品福利视频| 日韩视频在线你懂得| 亚洲激情视频网| 亚洲国产精品久久久久秋霞不卡| 久久视频国产精品免费视频在线| 欧美一级二区| 欧美一进一出视频| 欧美一级在线视频| 午夜精品久久久久久久久久久久久 | 亚洲二区在线观看| 影音先锋日韩有码| 精品9999| 激情另类综合| **欧美日韩vr在线| 亚洲欧洲综合另类在线| 亚洲精品久久久久久久久久久久 | 久久精品免费电影| 欧美在线精品一区| 香蕉久久久久久久av网站| 香蕉成人久久| 久久丁香综合五月国产三级网站| 欧美在线网址| 久久精品综合网| 蜜桃伊人久久| 欧美日韩亚洲一区二区| 国产精品白丝jk黑袜喷水| 国产精品成人观看视频国产奇米| 欧美性片在线观看| 国产伦精品一区| 狠狠色噜噜狠狠色综合久 | 久久综合狠狠| 欧美福利视频一区| 欧美午夜视频一区二区| 国产精品网站在线| 一区二区在线看| 亚洲精品久久视频| 亚洲视频专区在线| 欧美在线3区| 欧美成人国产va精品日本一级| 亚洲国产成人一区| 亚洲私人影院| 午夜视频一区| 欧美成人国产va精品日本一级| 欧美激情中文不卡| 国产农村妇女毛片精品久久莱园子| 韩国一区电影| 一区二区欧美在线| 久久精品国产在热久久| 欧美大色视频| 99国产精品国产精品久久| 欧美亚洲综合网| 欧美高清视频一区二区| 国产精品理论片| 在线观看av一区| 亚洲一区二区三区中文字幕在线| 久久国产夜色精品鲁鲁99| 欧美黄色精品| 亚洲在线不卡| 欧美成人黑人xx视频免费观看| 国产精品乱子乱xxxx| 亚洲国产一区二区三区在线播| 亚洲在线视频网站| 欧美va亚洲va国产综合| 亚洲专区欧美专区| 欧美刺激性大交免费视频| 国产精品系列在线播放| 亚洲黄页视频免费观看| 欧美影片第一页| 亚洲免费久久| 免费观看国产成人| 国产一区二区中文字幕免费看| 亚洲免费电影在线观看| 狼人社综合社区| 中文在线一区| 欧美日本亚洲韩国国产| 激情成人中文字幕| 欧美影院成人| 一本一本a久久| 欧美激情va永久在线播放| 国产午夜亚洲精品羞羞网站| 一本一本久久| 免费欧美在线视频| 欧美亚洲一区二区三区| 国产精品国码视频| 夜夜躁日日躁狠狠久久88av| 欧美成人福利视频| 久久成人免费电影| 国产女人aaa级久久久级| 亚洲在线成人| 亚洲乱码视频| 欧美精品二区三区四区免费看视频| 黄色国产精品一区二区三区| 先锋影音国产一区| 亚洲性xxxx| 国产精品久久久久久久久久尿| 一区二区三区欧美亚洲| 亚洲黄一区二区| 欧美成人免费网站| 亚洲人成77777在线观看网| 老司机免费视频一区二区| 久久国产精品免费一区| 国产日韩欧美中文| 久久av一区二区三区漫画| 亚洲淫片在线视频| 国产精品色婷婷久久58| 亚洲欧美三级伦理| 亚洲一区国产视频| 国产精品婷婷午夜在线观看| 午夜精品久久久久久久99水蜜桃 | 欧美激情国产日韩| 日韩视频在线一区| 亚洲人体偷拍| 欧美日韩久久| 亚洲欧美区自拍先锋| 亚洲一区精品电影| 国产精自产拍久久久久久| 久久精品亚洲| 久久午夜电影网| 91久久久久久| 亚洲精品一区在线观看| 欧美日韩精品免费在线观看视频| 一区二区三区精密机械公司 | 国产欧美69| 久久久噜噜噜久久人人看| 久久久999成人| 亚洲国产视频一区| 亚洲精品黄色| 国产精品高潮在线| 欧美在线免费观看| 久久久久久久久久久久久久一区| 在线精品视频一区二区三四| 亚洲国产婷婷| 国产精品久久久久久久app| 久久不见久久见免费视频1| 久久久成人网| 99国产精品久久久| 亚洲欧美国产高清va在线播| 黄色成人精品网站| 亚洲精品久久久久久久久| 国产精品成人观看视频免费| 久久久av毛片精品| 欧美成人免费va影院高清| 亚洲一区bb| 久久久91精品国产一区二区三区| 亚洲人成久久| 亚洲欧美日韩综合国产aⅴ| 伊人久久综合| 一区二区三区三区在线| 精品福利免费观看| 日韩一区二区免费看| 国产日韩欧美在线看| 亚洲国产小视频| 国产精品香蕉在线观看| 欧美大片在线观看| 国产精品久久久久久久久久久久久 | 亚洲一区二区网站| 在线观看欧美日韩| 亚洲视频综合| 亚洲国产视频一区二区| 亚洲在线第一页| 亚洲精品久久久久| 欧美在线观看视频一区二区三区 | 久久综合影视| 欧美三级网址| 女主播福利一区| 国产精品一区毛片| 91久久在线视频| 怡红院av一区二区三区| 亚洲综合激情| 99人久久精品视频最新地址| 久久国内精品视频| 亚洲欧美在线x视频| 欧美风情在线观看| 久久一区二区三区av| 国产精品男女猛烈高潮激情| 亚洲国产老妈| 国产综合亚洲精品一区二| 一区二区三区免费在线观看| 91久久国产综合久久| 欧美在线电影| 欧美亚洲色图校园春色|

<button id="mevzy"><form id="mevzy"></form></button>

<blockquote id="mevzy"><ins id="mevzy"></ins></blockquote>