青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
登山之道
C++博客
::
首頁
::
新隨筆
:: :: ::
管理
Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
Posted on 2011-04-17 19:25
Kevin_Zhang
閱讀(3516)
評論(1)
編輯
收藏
引用
所屬分類:
搜索引擎
1
. 常見的中文分詞器有:極易分詞的(MMAnalyzer) 、
"
庖丁分詞
"
分詞器(PaodingAnalzyer)、IKAnalyzer 等等。其中 MMAnalyzer 和 PaodingAnalzyer 不支持 lucene3.0及以后版本。
使用方式都類似,在構(gòu)建分詞器時
Analyzer analyzer
=
new
[My]Analyzer();
2
. 這里只示例 IKAnalyzer,目前只有它支持Lucene3.
0
以后的版本。
首先需要導(dǎo)入 IKAnalyzer3.
2
.0Stable.jar 包
3
. 示例代碼
view plaincopy to clipboardprint
?
public
class
AnalyzerTest
{
@Test
public
void
test()
throws
Exception
{
String text
=
"
An IndexWriter creates and maintains an index.
"
;
/**/
/*
標(biāo)準(zhǔn)分詞器:單子分詞
*/
Analyzer analyzer
=
new
StandardAnalyzer(Version.LUCENE_30);
testAnalyzer(analyzer, text);
String text2
=
"
測試中文環(huán)境下的信息檢索
"
;
testAnalyzer(
new
IKAnalyzer(), text2);
//
使用IKAnalyzer,詞庫分詞
}
/** */
/**
* 使用指定的分詞器對指定的文本進(jìn)行分詞,并打印結(jié)果
*
*
@param
analyzer
*
@param
text
*
@throws
Exception
*/
private
void
testAnalyzer(Analyzer analyzer, String text)
throws
Exception
{
System.out.println(
"
當(dāng)前使用的分詞器:
"
+
analyzer.getClass());
TokenStream tokenStream
=
analyzer.tokenStream(
"
content
"
,
new
StringReader(text));
tokenStream.addAttribute(TermAttribute.
class
);
while
(tokenStream.incrementToken())
{
TermAttribute termAttribute
=
tokenStream.getAttribute(TermAttribute.
class
);
System.out.println(termAttribute.term());
}
}
}
public
class
AnalyzerTest
{
@Test
public
void
test()
throws
Exception
{
String text
=
"
An IndexWriter creates and maintains an index.
"
;
/**/
/*
標(biāo)準(zhǔn)分詞器:單子分詞
*/
Analyzer analyzer
=
new
StandardAnalyzer(Version.LUCENE_30);
testAnalyzer(analyzer, text);
String text2
=
"
測試中文環(huán)境下的信息檢索
"
;
testAnalyzer(
new
IKAnalyzer(), text2);
//
使用IKAnalyzer,詞庫分詞
}
/** */
/**
* 使用指定的分詞器對指定的文本進(jìn)行分詞,并打印結(jié)果
*
*
@param
analyzer
*
@param
text
*
@throws
Exception
*/
private
void
testAnalyzer(Analyzer analyzer, String text)
throws
Exception
{
System.out.println(
"
當(dāng)前使用的分詞器:
"
+
analyzer.getClass());
TokenStream tokenStream
=
analyzer.tokenStream(
"
content
"
,
new
StringReader(text));
tokenStream.addAttribute(TermAttribute.
class
);
while
(tokenStream.incrementToken())
{
TermAttribute termAttribute
=
tokenStream.getAttribute(TermAttribute.
class
);
System.out.println(termAttribute.term());
}
}
}
3
. 如何擴展詞庫:很多情況下,我們可能需要定制自己的詞庫,例如 XXX 公司,我們希望這能被分詞器識別,并拆分成一個詞。
IKAnalyzer 可以很方便的實現(xiàn)我們的這種需求。
新建 IKAnalyzer.cfg.xml
view plaincopy to clipboardprint
?
<?
xml version
=
"
1.0
"
encoding
=
"
UTF-8
"
?>
<!
DOCTYPE properties SYSTEM
"
http://java.sun.com/dtd/properties.dtd
"
>
<
properties
>
<!--
1
,文件要是 UTF
-
8
編碼。
2
,一行寫一個詞
-->
<!--
用戶可以在這里配置自己的擴展字典
-->
<
entry key
=
"
ext_dict
"
>/
mydict.dic
</
entry
>
</
properties
>
<?
xml version
=
"
1.0
"
encoding
=
"
UTF-8
"
?>
<!
DOCTYPE properties SYSTEM
"
http://java.sun.com/dtd/properties.dtd
"
>
<
properties
>
<!--
1
,文件要是 UTF
-
8
編碼。
2
,一行寫一個詞
-->
<!--
用戶可以在這里配置自己的擴展字典
-->
<
entry key
=
"
ext_dict
"
>/
mydict.dic
</
entry
>
</
properties
>
解析:
<
entry key
=
"
ext_dict
"
>/
mydict.dic
</
entry
>
擴展了一個自己的詞典,名字叫 mydict.dic
因此我們要建一個文本文件,名為:mydict.dic (此處使用的 .dic 并非必須)
在這個文本文件里寫入:
北京XXXX科技有限公司
這樣就添加了一個詞匯。
如果要添加多個,則新起一行:
詞匯一
詞匯二
詞匯三
需要注意的是,這個文件一定要使用 UTF
-
8編碼
4
. 停用詞:
有些詞在文本中出現(xiàn)的頻率非常高,但是對文本所攜帶的信息基本不產(chǎn)生影響,例如英文的
"
a、an、the、of
"
,或中文的
"
的、了、著
"
,以及各種標(biāo)點符號等,這樣的詞稱為停用詞(stop word)。
文本經(jīng)過分詞之后,停用詞通常被過濾掉,不會被進(jìn)行索引。在檢索的時候,用戶的查詢中如果含有停用詞,檢索系統(tǒng)也會將其過濾掉(因為用戶輸入的查詢字符串也要進(jìn)行分詞處理)。
排除停用詞可以加快建立索引的速度,減小索引庫文件的大小。
IKAnalyzer 中自定義停用詞也非常方便,和配置
"
擴展詞庫
"
操作類型,只需要在 IKAnalyzer.cfg.xml 加入如下配置:
<
entry key
=
"
ext_stopwords
"
>/
ext_stopword.dic
</
entry
>
同樣這個配置也指向了一個文本文件
/
ext_stopword.dic (后綴名任意),格式如下:
也
了
仍
從
本文來自CSDN博客,轉(zhuǎn)載請標(biāo)明出處:http:
//
blog.csdn.net/wenlin56/archive/2010/12/13/6074124.aspx
Feedback
#
re: Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
回復(fù)
更多評論
2016-07-05 20:08 by
回家看回家看
54544554
刷新評論列表
只有注冊用戶
登錄
后才能發(fā)表評論。
相關(guān)文章:
Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
網(wǎng)頁解析開源項目
一個 Java 搜索引擎的實現(xiàn),第 2 部分: 網(wǎng)頁預(yù)處理
一個 Java 搜索引擎的實現(xiàn),第 1 部分: 網(wǎng)絡(luò)爬蟲
java 下載網(wǎng)頁
Apache+php+mysql在XP下搭配詳解
MonoDevelop
heritrix1.14.4
tomcatPlugin下載地址
Heritrix-1.14.1怎么配置?
網(wǎng)站導(dǎo)航:
博客園
IT新聞
BlogJava
博問
Chat2DB
管理
Powered by:
C++博客
Copyright © Kevin_Zhang
日歷
<
2016年7月
>
日
一
二
三
四
五
六
26
27
28
29
30
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
1
2
3
4
5
6
常用鏈接
我的隨筆
我的評論
我參與的隨筆
隨筆分類
數(shù)據(jù)庫(1)
ACM基礎(chǔ)知識(9)
ARM(2)
C/C++(12)
DOS(1)
Google Map API
Heritrix(1)
IT News(22)
JAVA(3)
Jsp
Linux(9)
Lucene(1)
PHP(6)
Python
Tree
Trie樹(1)
博弈
動態(tài)規(guī)劃(1)
回溯
匯編
計算幾何(1)
模擬(4)
排序(2)
嵌入式
數(shù)據(jù)結(jié)構(gòu)(2)
數(shù)論(2)
數(shù)學(xué)(3)
搜索(2)
搜索引擎(12)
隨機數(shù)
貪心(1)
圖論(1)
圖形學(xué)(1)
萬花筒(22)
網(wǎng)絡(luò)流
硬件(1)
隨筆檔案
2011年6月 (5)
2011年5月 (22)
2011年4月 (24)
2010年12月 (1)
2010年11月 (13)
2010年10月 (7)
2010年9月 (14)
2010年8月 (52)
2010年7月 (9)
文章分類
ACM題目分類(13)
C
C#
C++
DP動態(tài)規(guī)劃
JAVA
LUNIX
Python
博弈
計算幾何
模擬
數(shù)論(1)
搜索(1)
貪心
圖論
文章檔案
2010年8月 (4)
2010年7月 (22)
程序的靈魂--算法
沙場秋點兵,壯士凱歌還
北大POJ
他山之石,可以攻玉
圍觀強人
搜索
最新評論
1.?re: Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
54544554
--回家看回家看
2.?re: 水
評論內(nèi)容較長,點擊標(biāo)題查看
--Jason Huang
3.?re: 10項技能讓前端開發(fā)者價值百萬!
評論內(nèi)容較長,點擊標(biāo)題查看
--BURKERosie25
4.?re: (轉(zhuǎn)載)ACM經(jīng)歷總結(jié)[未登錄]
謝謝
--xingyezhi
5.?re: 世界頭號營銷大師們的營銷素質(zhì)
大道至簡,殊途同歸,值得借鑒。
--Kevin_Zhang
閱讀排行榜
1.?Java動態(tài)數(shù)組的用法詳解(12226)
2.? Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞(3516)
3.?用scanf輸入字符串空格不識別??(2110)
4.?php java交互 php/java bridge (1960)
5.?設(shè)置MFC坐標(biāo)系(1828)
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
亚洲欧美另类在线观看
|
亚洲国产一区二区精品专区
|
欧美高清不卡在线
|
欧美在线黄色
|
亚洲私人黄色宅男
|
最新亚洲一区
|
免费精品视频
|
久久大香伊蕉在人线观看热2
|
宅男在线国产精品
|
亚洲看片网站
|
亚洲高清免费视频
|
国内一区二区在线视频观看
|
国产精品一级二级三级
|
欧美日韩国产区
|
免费看精品久久片
|
老巨人导航500精品
|
久久精品免费
|
欧美在线一级视频
|
午夜欧美大尺度福利影院在线看
|
一二三区精品福利视频
|
日韩视频在线你懂得
|
亚洲激情视频网
|
亚洲国产精品久久久久秋霞不卡
|
久久视频国产精品免费视频在线
|
欧美一级二区
|
欧美一进一出视频
|
欧美一级在线视频
|
午夜精品久久久久久久久久久久久
|
亚洲二区在线观看
|
影音先锋日韩有码
|
精品9999
|
激情另类综合
|
**欧美日韩vr在线
|
亚洲欧洲综合另类在线
|
亚洲精品久久久久久久久久久久
|
久久精品免费电影
|
欧美在线精品一区
|
香蕉久久久久久久av网站
|
香蕉成人久久
|
久久丁香综合五月国产三级网站
|
欧美在线网址
|
久久精品综合网
|
蜜桃伊人久久
|
欧美日韩亚洲一区二区
|
国产精品白丝jk黑袜喷水
|
国产精品成人观看视频国产奇米
|
欧美性片在线观看
|
国产伦精品一区
|
狠狠色噜噜狠狠色综合久
|
久久综合狠狠
|
欧美福利视频一区
|
欧美午夜视频一区二区
|
国产精品网站在线
|
一区二区在线看
|
亚洲精品久久视频
|
亚洲视频专区在线
|
欧美在线3区
|
欧美成人国产va精品日本一级
|
亚洲国产成人一区
|
亚洲私人影院
|
午夜视频一区
|
欧美成人国产va精品日本一级
|
欧美激情中文不卡
|
国产农村妇女毛片精品久久莱园子
|
韩国一区电影
|
一区二区欧美在线
|
久久精品国产在热久久
|
欧美大色视频
|
99国产精品国产精品久久
|
欧美亚洲综合网
|
欧美高清视频一区二区
|
国产精品理论片
|
在线观看av一区
|
亚洲一区二区三区中文字幕在线
|
久久国产夜色精品鲁鲁99
|
欧美黄色精品
|
亚洲在线不卡
|
欧美成人黑人xx视频免费观看
|
国产精品乱子乱xxxx
|
亚洲国产一区二区三区在线播
|
亚洲在线视频网站
|
欧美va亚洲va国产综合
|
亚洲专区欧美专区
|
欧美刺激性大交免费视频
|
国产精品系列在线播放
|
亚洲黄页视频免费观看
|
欧美影片第一页
|
亚洲免费久久
|
免费观看国产成人
|
国产一区二区中文字幕免费看
|
亚洲免费电影在线观看
|
狼人社综合社区
|
中文在线一区
|
欧美日本亚洲韩国国产
|
激情成人中文字幕
|
欧美影院成人
|
一本一本a久久
|
欧美激情va永久在线播放
|
国产午夜亚洲精品羞羞网站
|
一本一本久久
|
免费欧美在线视频
|
欧美亚洲一区二区三区
|
国产精品国码视频
|
夜夜躁日日躁狠狠久久88av
|
欧美成人福利视频
|
久久成人免费电影
|
国产女人aaa级久久久级
|
亚洲在线成人
|
亚洲乱码视频
|
欧美精品二区三区四区免费看视频
|
黄色国产精品一区二区三区
|
先锋影音国产一区
|
亚洲性xxxx
|
国产精品久久久久久久久久尿
|
一区二区三区欧美亚洲
|
亚洲黄一区二区
|
欧美成人免费网站
|
亚洲人成77777在线观看网
|
老司机免费视频一区二区
|
久久国产精品免费一区
|
国产日韩欧美中文
|
久久av一区二区三区漫画
|
亚洲淫片在线视频
|
国产精品色婷婷久久58
|
亚洲欧美三级伦理
|
亚洲一区国产视频
|
国产精品婷婷午夜在线观看
|
午夜精品久久久久久久99水蜜桃
|
欧美激情国产日韩
|
日韩视频在线一区
|
亚洲人体偷拍
|
欧美日韩久久
|
亚洲欧美区自拍先锋
|
亚洲一区精品电影
|
国产精自产拍久久久久久
|
久久精品亚洲
|
久久午夜电影网
|
91久久久久久
|
亚洲精品一区在线观看
|
欧美日韩精品免费在线观看视频
|
一区二区三区精密机械公司
|
国产欧美69
|
久久久噜噜噜久久人人看
|
久久久999成人
|
亚洲国产视频一区
|
亚洲精品黄色
|
国产精品高潮在线
|
欧美在线免费观看
|
久久久久久久久久久久久久一区
|
在线精品视频一区二区三四
|
亚洲国产婷婷
|
国产精品久久久久久久app
|
久久不见久久见免费视频1
|
久久久成人网
|
99国产精品久久久
|
亚洲欧美国产高清va在线播
|
黄色成人精品网站
|
亚洲精品久久久久久久久
|
国产精品成人观看视频免费
|
久久久av毛片精品
|
欧美成人免费va影院高清
|
亚洲一区bb
|
久久久91精品国产一区二区三区
|
亚洲人成久久
|
亚洲欧美日韩综合国产aⅴ
|
伊人久久综合
|
一区二区三区三区在线
|
精品福利免费观看
|
日韩一区二区免费看
|
国产日韩欧美在线看
|
亚洲国产小视频
|
国产精品香蕉在线观看
|
欧美大片在线观看
|
国产精品久久久久久久久久久久久
|
亚洲一区二区网站
|
在线观看欧美日韩
|
亚洲视频综合
|
亚洲国产视频一区二区
|
亚洲在线第一页
|
亚洲精品久久久久
|
欧美在线观看视频一区二区三区
|
久久综合影视
|
欧美三级网址
|
女主播福利一区
|
国产精品一区毛片
|
91久久在线视频
|
怡红院av一区二区三区
|
亚洲综合激情
|
99人久久精品视频最新地址
|
久久国内精品视频
|
亚洲欧美在线x视频
|
欧美风情在线观看
|
久久一区二区三区av
|
国产精品男女猛烈高潮激情
|
亚洲国产老妈
|
国产综合亚洲精品一区二
|
一区二区三区免费在线观看
|
91久久国产综合久久
|
欧美在线电影
|
欧美亚洲色图校园春色
|