青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
登山之道
C++博客
::
首頁
::
新隨筆
:: :: ::
管理
Lucene入門級(jí)筆記五 -- 分詞器,使用中文分詞器,擴(kuò)展詞庫,停用詞
Posted on 2011-04-17 19:25
Kevin_Zhang
閱讀(3516)
評(píng)論(1)
編輯
收藏
引用
所屬分類:
搜索引擎
1
. 常見的中文分詞器有:極易分詞的(MMAnalyzer) 、
"
庖丁分詞
"
分詞器(PaodingAnalzyer)、IKAnalyzer 等等。其中 MMAnalyzer 和 PaodingAnalzyer 不支持 lucene3.0及以后版本。
使用方式都類似,在構(gòu)建分詞器時(shí)
Analyzer analyzer
=
new
[My]Analyzer();
2
. 這里只示例 IKAnalyzer,目前只有它支持Lucene3.
0
以后的版本。
首先需要導(dǎo)入 IKAnalyzer3.
2
.0Stable.jar 包
3
. 示例代碼
view plaincopy to clipboardprint
?
public
class
AnalyzerTest
{
@Test
public
void
test()
throws
Exception
{
String text
=
"
An IndexWriter creates and maintains an index.
"
;
/**/
/*
標(biāo)準(zhǔn)分詞器:?jiǎn)巫臃衷~
*/
Analyzer analyzer
=
new
StandardAnalyzer(Version.LUCENE_30);
testAnalyzer(analyzer, text);
String text2
=
"
測(cè)試中文環(huán)境下的信息檢索
"
;
testAnalyzer(
new
IKAnalyzer(), text2);
//
使用IKAnalyzer,詞庫分詞
}
/** */
/**
* 使用指定的分詞器對(duì)指定的文本進(jìn)行分詞,并打印結(jié)果
*
*
@param
analyzer
*
@param
text
*
@throws
Exception
*/
private
void
testAnalyzer(Analyzer analyzer, String text)
throws
Exception
{
System.out.println(
"
當(dāng)前使用的分詞器:
"
+
analyzer.getClass());
TokenStream tokenStream
=
analyzer.tokenStream(
"
content
"
,
new
StringReader(text));
tokenStream.addAttribute(TermAttribute.
class
);
while
(tokenStream.incrementToken())
{
TermAttribute termAttribute
=
tokenStream.getAttribute(TermAttribute.
class
);
System.out.println(termAttribute.term());
}
}
}
public
class
AnalyzerTest
{
@Test
public
void
test()
throws
Exception
{
String text
=
"
An IndexWriter creates and maintains an index.
"
;
/**/
/*
標(biāo)準(zhǔn)分詞器:?jiǎn)巫臃衷~
*/
Analyzer analyzer
=
new
StandardAnalyzer(Version.LUCENE_30);
testAnalyzer(analyzer, text);
String text2
=
"
測(cè)試中文環(huán)境下的信息檢索
"
;
testAnalyzer(
new
IKAnalyzer(), text2);
//
使用IKAnalyzer,詞庫分詞
}
/** */
/**
* 使用指定的分詞器對(duì)指定的文本進(jìn)行分詞,并打印結(jié)果
*
*
@param
analyzer
*
@param
text
*
@throws
Exception
*/
private
void
testAnalyzer(Analyzer analyzer, String text)
throws
Exception
{
System.out.println(
"
當(dāng)前使用的分詞器:
"
+
analyzer.getClass());
TokenStream tokenStream
=
analyzer.tokenStream(
"
content
"
,
new
StringReader(text));
tokenStream.addAttribute(TermAttribute.
class
);
while
(tokenStream.incrementToken())
{
TermAttribute termAttribute
=
tokenStream.getAttribute(TermAttribute.
class
);
System.out.println(termAttribute.term());
}
}
}
3
. 如何擴(kuò)展詞庫:很多情況下,我們可能需要定制自己的詞庫,例如 XXX 公司,我們希望這能被分詞器識(shí)別,并拆分成一個(gè)詞。
IKAnalyzer 可以很方便的實(shí)現(xiàn)我們的這種需求。
新建 IKAnalyzer.cfg.xml
view plaincopy to clipboardprint
?
<?
xml version
=
"
1.0
"
encoding
=
"
UTF-8
"
?>
<!
DOCTYPE properties SYSTEM
"
http://java.sun.com/dtd/properties.dtd
"
>
<
properties
>
<!--
1
,文件要是 UTF
-
8
編碼。
2
,一行寫一個(gè)詞
-->
<!--
用戶可以在這里配置自己的擴(kuò)展字典
-->
<
entry key
=
"
ext_dict
"
>/
mydict.dic
</
entry
>
</
properties
>
<?
xml version
=
"
1.0
"
encoding
=
"
UTF-8
"
?>
<!
DOCTYPE properties SYSTEM
"
http://java.sun.com/dtd/properties.dtd
"
>
<
properties
>
<!--
1
,文件要是 UTF
-
8
編碼。
2
,一行寫一個(gè)詞
-->
<!--
用戶可以在這里配置自己的擴(kuò)展字典
-->
<
entry key
=
"
ext_dict
"
>/
mydict.dic
</
entry
>
</
properties
>
解析:
<
entry key
=
"
ext_dict
"
>/
mydict.dic
</
entry
>
擴(kuò)展了一個(gè)自己的詞典,名字叫 mydict.dic
因此我們要建一個(gè)文本文件,名為:mydict.dic (此處使用的 .dic 并非必須)
在這個(gè)文本文件里寫入:
北京XXXX科技有限公司
這樣就添加了一個(gè)詞匯。
如果要添加多個(gè),則新起一行:
詞匯一
詞匯二
詞匯三
需要注意的是,這個(gè)文件一定要使用 UTF
-
8編碼
4
. 停用詞:
有些詞在文本中出現(xiàn)的頻率非常高,但是對(duì)文本所攜帶的信息基本不產(chǎn)生影響,例如英文的
"
a、an、the、of
"
,或中文的
"
的、了、著
"
,以及各種標(biāo)點(diǎn)符號(hào)等,這樣的詞稱為停用詞(stop word)。
文本經(jīng)過分詞之后,停用詞通常被過濾掉,不會(huì)被進(jìn)行索引。在檢索的時(shí)候,用戶的查詢中如果含有停用詞,檢索系統(tǒng)也會(huì)將其過濾掉(因?yàn)橛脩糨斎氲牟樵冏址惨M(jìn)行分詞處理)。
排除停用詞可以加快建立索引的速度,減小索引庫文件的大小。
IKAnalyzer 中自定義停用詞也非常方便,和配置
"
擴(kuò)展詞庫
"
操作類型,只需要在 IKAnalyzer.cfg.xml 加入如下配置:
<
entry key
=
"
ext_stopwords
"
>/
ext_stopword.dic
</
entry
>
同樣這個(gè)配置也指向了一個(gè)文本文件
/
ext_stopword.dic (后綴名任意),格式如下:
也
了
仍
從
本文來自CSDN博客,轉(zhuǎn)載請(qǐng)標(biāo)明出處:http:
//
blog.csdn.net/wenlin56/archive/2010/12/13/6074124.aspx
Feedback
#
re: Lucene入門級(jí)筆記五 -- 分詞器,使用中文分詞器,擴(kuò)展詞庫,停用詞
回復(fù)
更多評(píng)論
2016-07-05 20:08 by
回家看回家看
54544554
刷新評(píng)論列表
只有注冊(cè)用戶
登錄
后才能發(fā)表評(píng)論。
相關(guān)文章:
Lucene入門級(jí)筆記五 -- 分詞器,使用中文分詞器,擴(kuò)展詞庫,停用詞
網(wǎng)頁解析開源項(xiàng)目
一個(gè) Java 搜索引擎的實(shí)現(xiàn),第 2 部分: 網(wǎng)頁預(yù)處理
一個(gè) Java 搜索引擎的實(shí)現(xiàn),第 1 部分: 網(wǎng)絡(luò)爬蟲
java 下載網(wǎng)頁
Apache+php+mysql在XP下搭配詳解
MonoDevelop
heritrix1.14.4
tomcatPlugin下載地址
Heritrix-1.14.1怎么配置?
網(wǎng)站導(dǎo)航:
博客園
IT新聞
BlogJava
博問
Chat2DB
管理
Powered by:
C++博客
Copyright © Kevin_Zhang
日歷
<
2010年8月
>
日
一
二
三
四
五
六
25
26
27
28
29
30
31
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
1
2
3
4
常用鏈接
我的隨筆
我的評(píng)論
我參與的隨筆
隨筆分類
數(shù)據(jù)庫(1)
ACM基礎(chǔ)知識(shí)(9)
ARM(2)
C/C++(12)
DOS(1)
Google Map API
Heritrix(1)
IT News(22)
JAVA(3)
Jsp
Linux(9)
Lucene(1)
PHP(6)
Python
Tree
Trie樹(1)
博弈
動(dòng)態(tài)規(guī)劃(1)
回溯
匯編
計(jì)算幾何(1)
模擬(4)
排序(2)
嵌入式
數(shù)據(jù)結(jié)構(gòu)(2)
數(shù)論(2)
數(shù)學(xué)(3)
搜索(2)
搜索引擎(12)
隨機(jī)數(shù)
貪心(1)
圖論(1)
圖形學(xué)(1)
萬花筒(22)
網(wǎng)絡(luò)流
硬件(1)
隨筆檔案
2011年6月 (5)
2011年5月 (22)
2011年4月 (24)
2010年12月 (1)
2010年11月 (13)
2010年10月 (7)
2010年9月 (14)
2010年8月 (52)
2010年7月 (9)
文章分類
ACM題目分類(13)
C
C#
C++
DP動(dòng)態(tài)規(guī)劃
JAVA
LUNIX
Python
博弈
計(jì)算幾何
模擬
數(shù)論(1)
搜索(1)
貪心
圖論
文章檔案
2010年8月 (4)
2010年7月 (22)
程序的靈魂--算法
沙場(chǎng)秋點(diǎn)兵,壯士凱歌還
北大POJ
他山之石,可以攻玉
圍觀強(qiáng)人
搜索
最新評(píng)論
1.?re: Lucene入門級(jí)筆記五 -- 分詞器,使用中文分詞器,擴(kuò)展詞庫,停用詞
54544554
--回家看回家看
2.?re: 水
評(píng)論內(nèi)容較長(zhǎng),點(diǎn)擊標(biāo)題查看
--Jason Huang
3.?re: 10項(xiàng)技能讓前端開發(fā)者價(jià)值百萬!
評(píng)論內(nèi)容較長(zhǎng),點(diǎn)擊標(biāo)題查看
--BURKERosie25
4.?re: (轉(zhuǎn)載)ACM經(jīng)歷總結(jié)[未登錄]
謝謝
--xingyezhi
5.?re: 世界頭號(hào)營銷大師們的營銷素質(zhì)
大道至簡(jiǎn),殊途同歸,值得借鑒。
--Kevin_Zhang
閱讀排行榜
1.?Java動(dòng)態(tài)數(shù)組的用法詳解(12226)
2.? Lucene入門級(jí)筆記五 -- 分詞器,使用中文分詞器,擴(kuò)展詞庫,停用詞(3516)
3.?用scanf輸入字符串空格不識(shí)別??(2110)
4.?php java交互 php/java bridge (1960)
5.?設(shè)置MFC坐標(biāo)系(1828)
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
久久久久久久久久久久久女国产乱
|
亚洲人在线视频
|
中日韩美女免费视频网站在线观看
|
国产主播喷水一区二区
|
欧美日韩国产精品一区二区亚洲
|
久久精品国亚洲
|
亚洲欧美日韩国产一区二区三区
|
亚洲欧美另类国产
|
亚洲国产另类久久精品
|
久久亚洲私人国产精品va
|
亚洲欧美日韩精品
|
中文久久精品
|
99re66热这里只有精品4
|
在线观看视频一区二区
|
国产一区二三区
|
国产偷自视频区视频一区二区
|
国产精品电影在线观看
|
欧美激情久久久久
|
欧美好骚综合网
|
免费在线国产精品
|
免费久久精品视频
|
美女精品在线
|
美女成人午夜
|
欧美成人亚洲
|
欧美高清一区二区
|
欧美电影免费观看
|
欧美激情免费观看
|
欧美精品18
|
欧美母乳在线
|
欧美日韩午夜剧场
|
欧美性淫爽ww久久久久无
|
欧美色综合天天久久综合精品
|
欧美欧美午夜aⅴ在线观看
|
欧美精品情趣视频
|
欧美日韩激情小视频
|
欧美日韩精品久久
|
欧美视频三区在线播放
|
国产精品护士白丝一区av
|
国产精品女主播在线观看
|
国产精品区一区二区三区
|
国产欧美精品国产国产专区
|
国产伦精品一区
|
国产中文一区二区
|
亚洲高清不卡在线
|
日韩系列在线
|
亚洲专区国产精品
|
欧美一级午夜免费电影
|
久久视频国产精品免费视频在线
|
久久夜色精品国产
|
欧美大片免费看
|
亚洲狼人精品一区二区三区
|
99re热精品
|
午夜天堂精品久久久久
|
久久精品在线视频
|
欧美韩国日本一区
|
国产精品v欧美精品∨日韩
|
国产精品网站在线观看
|
伊人久久综合97精品
|
亚洲人成在线播放
|
亚洲欧美激情视频
|
麻豆乱码国产一区二区三区
|
亚洲国产婷婷香蕉久久久久久99
|
亚洲国产三级在线
|
亚洲神马久久
|
久久久久久久一区二区三区
|
欧美激情bt
|
国产婷婷色一区二区三区在线
|
伊人成综合网伊人222
|
日韩午夜电影av
|
久久精品国产999大香线蕉
|
欧美高清在线视频
|
亚洲一区二区三区777
|
久久亚洲精品一区
|
国产精品红桃
|
亚洲欧洲综合另类
|
久久国产夜色精品鲁鲁99
|
亚洲电影在线
|
性欧美超级视频
|
欧美日本精品
|
影音先锋日韩精品
|
亚洲综合色丁香婷婷六月图片
|
久热综合在线亚洲精品
|
一区二区av在线
|
久久亚洲精品一区
|
国产伦精品一区二区三区免费
|
亚洲区第一页
|
久久精品视频网
|
99国产欧美久久久精品
|
久久综合久久久久88
|
国产精品区一区二区三
|
日韩一区二区久久
|
美女国产一区
|
亚洲欧洲av一区二区三区久久
|
欧美黄污视频
|
在线欧美小视频
|
欧美中文字幕在线观看
|
9l国产精品久久久久麻豆
|
猫咪成人在线观看
|
国产一区二区三区高清
|
亚洲欧美影音先锋
|
夜夜嗨av一区二区三区四区
|
卡一卡二国产精品
|
国产综合在线视频
|
久久xxxx
|
亚洲女性喷水在线观看一区
|
欧美日韩一区二区视频在线
|
亚洲精选视频免费看
|
免费看av成人
|
久久久91精品国产一区二区三区
|
国产欧美日韩亚洲一区二区三区
|
中文无字幕一区二区三区
|
亚洲激情在线观看视频免费
|
老**午夜毛片一区二区三区
|
怡红院精品视频
|
久久久一二三
|
欧美在线视频a
|
国产日韩一区二区三区在线
|
亚洲欧美日韩精品久久久久
|
一区二区高清在线
|
欧美手机在线
|
亚洲欧美一区在线
|
亚洲午夜一二三区视频
|
国产精品电影在线观看
|
亚洲午夜高清视频
|
亚洲最新在线视频
|
欧美性事免费在线观看
|
亚洲欧美视频
|
亚洲欧美日本伦理
|
国产欧美一区二区精品婷婷
|
欧美一区二区精品
|
欧美一站二站
|
在线观看av不卡
|
欧美国产欧美亚洲国产日韩mv天天看完整
|
国产精品五区
|
欧美一区二区在线播放
|
午夜精品免费
|
一区二区三区在线视频免费观看
|
欧美精品1区2区3区
|
一本色道久久88综合日韩精品
|
国产欧美91
|
久久精品国产亚洲精品
|
久久久久久久久久码影片
|
91久久国产自产拍夜夜嗨
|
亚洲第一久久影院
|
欧美另类综合
|
午夜在线视频观看日韩17c
|
午夜欧美理论片
|
怡红院精品视频在线观看极品
|
欧美激情亚洲
|
国产精品a级
|
久久人体大胆视频
|
欧美国产免费
|
亚洲欧美另类中文字幕
|
久久爱www
|
亚洲精品免费在线观看
|
一二美女精品欧洲
|
国产尤物精品
|
欧美激情一区二区三区成人
|
欧美日本乱大交xxxxx
|
性欧美video另类hd性玩具
|
久久精品麻豆
|
一本色道久久综合亚洲精品小说
|
亚洲一区二区三区成人在线视频精品
|
国产一区二区三区久久久久久久久
|
国产精品久久久久久久浪潮网站
|
久久久久久久一区二区三区
|
久久综合激情
|
亚洲欧美日韩在线不卡
|
久久久久免费观看
|
一区二区毛片
|
久久久久久夜
|
亚洲天堂av在线免费
|
久久精品91久久久久久再现
|
日韩视频三区
|
欧美中文在线视频
|
在线视频日本亚洲性
|
久久精品官网
|
亚洲一区在线免费观看
|
久久久久久色
|
性久久久久久
|
欧美日韩大陆在线
|
麻豆av一区二区三区
|
国产精品jizz在线观看美国
|
一区二区三区欧美
|
亚洲大胆人体在线
|
亚洲制服丝袜在线
|
亚洲免费成人
|
久久er精品视频
|
亚洲综合99
|
欧美高清日韩
|
欧美va天堂va视频va在线
|
国产精品日日做人人爱
|
亚洲激情第一页
|
亚洲第一偷拍
|
欧美一级免费视频
|
亚洲免费视频网站
|
欧美日韩精品免费观看视频
|
蜜桃久久精品一区二区
|
国产一区二区高清视频
|
亚洲视频中文
|