青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
登山之道
C++博客
::
首頁
::
新隨筆
:: :: ::
管理
Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
Posted on 2011-04-17 19:25
Kevin_Zhang
閱讀(3516)
評論(1)
編輯
收藏
引用
所屬分類:
搜索引擎
1
. 常見的中文分詞器有:極易分詞的(MMAnalyzer) 、
"
庖丁分詞
"
分詞器(PaodingAnalzyer)、IKAnalyzer 等等。其中 MMAnalyzer 和 PaodingAnalzyer 不支持 lucene3.0及以后版本。
使用方式都類似,在構建分詞器時
Analyzer analyzer
=
new
[My]Analyzer();
2
. 這里只示例 IKAnalyzer,目前只有它支持Lucene3.
0
以后的版本。
首先需要導入 IKAnalyzer3.
2
.0Stable.jar 包
3
. 示例代碼
view plaincopy to clipboardprint
?
public
class
AnalyzerTest
{
@Test
public
void
test()
throws
Exception
{
String text
=
"
An IndexWriter creates and maintains an index.
"
;
/**/
/*
標準分詞器:單子分詞
*/
Analyzer analyzer
=
new
StandardAnalyzer(Version.LUCENE_30);
testAnalyzer(analyzer, text);
String text2
=
"
測試中文環境下的信息檢索
"
;
testAnalyzer(
new
IKAnalyzer(), text2);
//
使用IKAnalyzer,詞庫分詞
}
/** */
/**
* 使用指定的分詞器對指定的文本進行分詞,并打印結果
*
*
@param
analyzer
*
@param
text
*
@throws
Exception
*/
private
void
testAnalyzer(Analyzer analyzer, String text)
throws
Exception
{
System.out.println(
"
當前使用的分詞器:
"
+
analyzer.getClass());
TokenStream tokenStream
=
analyzer.tokenStream(
"
content
"
,
new
StringReader(text));
tokenStream.addAttribute(TermAttribute.
class
);
while
(tokenStream.incrementToken())
{
TermAttribute termAttribute
=
tokenStream.getAttribute(TermAttribute.
class
);
System.out.println(termAttribute.term());
}
}
}
public
class
AnalyzerTest
{
@Test
public
void
test()
throws
Exception
{
String text
=
"
An IndexWriter creates and maintains an index.
"
;
/**/
/*
標準分詞器:單子分詞
*/
Analyzer analyzer
=
new
StandardAnalyzer(Version.LUCENE_30);
testAnalyzer(analyzer, text);
String text2
=
"
測試中文環境下的信息檢索
"
;
testAnalyzer(
new
IKAnalyzer(), text2);
//
使用IKAnalyzer,詞庫分詞
}
/** */
/**
* 使用指定的分詞器對指定的文本進行分詞,并打印結果
*
*
@param
analyzer
*
@param
text
*
@throws
Exception
*/
private
void
testAnalyzer(Analyzer analyzer, String text)
throws
Exception
{
System.out.println(
"
當前使用的分詞器:
"
+
analyzer.getClass());
TokenStream tokenStream
=
analyzer.tokenStream(
"
content
"
,
new
StringReader(text));
tokenStream.addAttribute(TermAttribute.
class
);
while
(tokenStream.incrementToken())
{
TermAttribute termAttribute
=
tokenStream.getAttribute(TermAttribute.
class
);
System.out.println(termAttribute.term());
}
}
}
3
. 如何擴展詞庫:很多情況下,我們可能需要定制自己的詞庫,例如 XXX 公司,我們希望這能被分詞器識別,并拆分成一個詞。
IKAnalyzer 可以很方便的實現我們的這種需求。
新建 IKAnalyzer.cfg.xml
view plaincopy to clipboardprint
?
<?
xml version
=
"
1.0
"
encoding
=
"
UTF-8
"
?>
<!
DOCTYPE properties SYSTEM
"
http://java.sun.com/dtd/properties.dtd
"
>
<
properties
>
<!--
1
,文件要是 UTF
-
8
編碼。
2
,一行寫一個詞
-->
<!--
用戶可以在這里配置自己的擴展字典
-->
<
entry key
=
"
ext_dict
"
>/
mydict.dic
</
entry
>
</
properties
>
<?
xml version
=
"
1.0
"
encoding
=
"
UTF-8
"
?>
<!
DOCTYPE properties SYSTEM
"
http://java.sun.com/dtd/properties.dtd
"
>
<
properties
>
<!--
1
,文件要是 UTF
-
8
編碼。
2
,一行寫一個詞
-->
<!--
用戶可以在這里配置自己的擴展字典
-->
<
entry key
=
"
ext_dict
"
>/
mydict.dic
</
entry
>
</
properties
>
解析:
<
entry key
=
"
ext_dict
"
>/
mydict.dic
</
entry
>
擴展了一個自己的詞典,名字叫 mydict.dic
因此我們要建一個文本文件,名為:mydict.dic (此處使用的 .dic 并非必須)
在這個文本文件里寫入:
北京XXXX科技有限公司
這樣就添加了一個詞匯。
如果要添加多個,則新起一行:
詞匯一
詞匯二
詞匯三
需要注意的是,這個文件一定要使用 UTF
-
8編碼
4
. 停用詞:
有些詞在文本中出現的頻率非常高,但是對文本所攜帶的信息基本不產生影響,例如英文的
"
a、an、the、of
"
,或中文的
"
的、了、著
"
,以及各種標點符號等,這樣的詞稱為停用詞(stop word)。
文本經過分詞之后,停用詞通常被過濾掉,不會被進行索引。在檢索的時候,用戶的查詢中如果含有停用詞,檢索系統也會將其過濾掉(因為用戶輸入的查詢字符串也要進行分詞處理)。
排除停用詞可以加快建立索引的速度,減小索引庫文件的大小。
IKAnalyzer 中自定義停用詞也非常方便,和配置
"
擴展詞庫
"
操作類型,只需要在 IKAnalyzer.cfg.xml 加入如下配置:
<
entry key
=
"
ext_stopwords
"
>/
ext_stopword.dic
</
entry
>
同樣這個配置也指向了一個文本文件
/
ext_stopword.dic (后綴名任意),格式如下:
也
了
仍
從
本文來自CSDN博客,轉載請標明出處:http:
//
blog.csdn.net/wenlin56/archive/2010/12/13/6074124.aspx
Feedback
#
re: Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
回復
更多評論
2016-07-05 20:08 by
回家看回家看
54544554
刷新評論列表
只有注冊用戶
登錄
后才能發表評論。
相關文章:
Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
網頁解析開源項目
一個 Java 搜索引擎的實現,第 2 部分: 網頁預處理
一個 Java 搜索引擎的實現,第 1 部分: 網絡爬蟲
java 下載網頁
Apache+php+mysql在XP下搭配詳解
MonoDevelop
heritrix1.14.4
tomcatPlugin下載地址
Heritrix-1.14.1怎么配置?
網站導航:
博客園
IT新聞
BlogJava
博問
Chat2DB
管理
Powered by:
C++博客
Copyright © Kevin_Zhang
日歷
<
2011年6月
>
日
一
二
三
四
五
六
29
30
31
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
1
2
3
4
5
6
7
8
9
常用鏈接
我的隨筆
我的評論
我參與的隨筆
隨筆分類
數據庫(1)
ACM基礎知識(9)
ARM(2)
C/C++(12)
DOS(1)
Google Map API
Heritrix(1)
IT News(22)
JAVA(3)
Jsp
Linux(9)
Lucene(1)
PHP(6)
Python
Tree
Trie樹(1)
博弈
動態規劃(1)
回溯
匯編
計算幾何(1)
模擬(4)
排序(2)
嵌入式
數據結構(2)
數論(2)
數學(3)
搜索(2)
搜索引擎(12)
隨機數
貪心(1)
圖論(1)
圖形學(1)
萬花筒(22)
網絡流
硬件(1)
隨筆檔案
2011年6月 (5)
2011年5月 (22)
2011年4月 (24)
2010年12月 (1)
2010年11月 (13)
2010年10月 (7)
2010年9月 (14)
2010年8月 (52)
2010年7月 (9)
文章分類
ACM題目分類(13)
C
C#
C++
DP動態規劃
JAVA
LUNIX
Python
博弈
計算幾何
模擬
數論(1)
搜索(1)
貪心
圖論
文章檔案
2010年8月 (4)
2010年7月 (22)
程序的靈魂--算法
沙場秋點兵,壯士凱歌還
北大POJ
他山之石,可以攻玉
圍觀強人
搜索
最新評論
1.?re: Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
54544554
--回家看回家看
2.?re: 水
評論內容較長,點擊標題查看
--Jason Huang
3.?re: 10項技能讓前端開發者價值百萬!
評論內容較長,點擊標題查看
--BURKERosie25
4.?re: (轉載)ACM經歷總結[未登錄]
謝謝
--xingyezhi
5.?re: 世界頭號營銷大師們的營銷素質
大道至簡,殊途同歸,值得借鑒。
--Kevin_Zhang
閱讀排行榜
1.?Java動態數組的用法詳解(12226)
2.? Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞(3516)
3.?用scanf輸入字符串空格不識別??(2110)
4.?php java交互 php/java bridge (1960)
5.?設置MFC坐標系(1828)
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
亚洲视频www
|
翔田千里一区二区
|
欧美国产一区视频在线观看
|
在线观看亚洲一区
|
久久综合999
|
可以免费看不卡的av网站
|
一区在线免费
|
欧美风情在线
|
欧美精品一区三区
|
亚洲欧美日韩国产综合在线
|
亚洲欧美激情视频
|
极品少妇一区二区
|
91久久香蕉国产日韩欧美9色
|
欧美激情精品久久久久久免费印度
|
亚洲人成在线观看网站高清
|
亚洲精品一区在线观看香蕉
|
国产精品视频你懂的
|
久久久久久久一区二区
|
欧美freesex交免费视频
|
日韩午夜精品视频
|
亚洲男女自偷自拍
|
亚洲国产成人porn
|
av成人天堂
|
黄色av日韩
|
亚洲娇小video精品
|
欧美日韩专区
|
久久香蕉国产线看观看av
|
免费h精品视频在线播放
|
午夜精品久久
|
麻豆av一区二区三区
|
亚洲一区二区三区精品在线
|
久久久久久电影
|
中文国产一区
|
久久五月激情
|
欧美一区二区三区男人的天堂
|
久久久青草婷婷精品综合日韩
|
欧美日韩国产综合视频在线观看
|
午夜精品久久久久久久99樱桃
|
久久久久综合
|
亚洲在线不卡
|
欧美激情国产日韩
|
久久这里有精品视频
|
国产精品家庭影院
|
亚洲国产欧美日韩另类综合
|
国产日韩欧美精品综合
|
日韩视频一区二区在线观看
|
在线播放中文一区
|
亚洲欧美影音先锋
|
亚洲一区二区毛片
|
欧美成人免费视频
|
久久亚洲午夜电影
|
国产日韩亚洲欧美综合
|
亚洲视频一区在线
|
99精品国产99久久久久久福利
|
久久精品最新地址
|
久久九九全国免费精品观看
|
国产精品超碰97尤物18
|
最近中文字幕日韩精品
|
99在线热播精品免费
|
久久久噜噜噜久噜久久
|
久久久久久久综合狠狠综合
|
国产精品第13页
|
999亚洲国产精
|
av成人免费在线观看
|
男男成人高潮片免费网站
|
麻豆国产精品一区二区三区
|
国产一区二区三区自拍
|
亚洲区中文字幕
|
亚洲国产欧美一区
|
久久综合九色综合欧美就去吻
|
亚洲日本va在线观看
|
老司机午夜精品
|
亚洲第一精品久久忘忧草社区
|
亚洲二区在线观看
|
女女同性精品视频
|
91久久线看在观草草青青
|
日韩午夜电影av
|
欧美天天影院
|
亚洲小视频在线观看
|
欧美一区二区三区在线观看
|
国产日产欧美一区
|
久久综合九九
|
亚洲激情一区二区
|
亚洲欧美清纯在线制服
|
国产欧美日韩在线观看
|
久久人人97超碰精品888
|
男人的天堂亚洲在线
|
日韩一区二区电影网
|
国产精品大片免费观看
|
欧美在线综合视频
|
欧美国产在线视频
|
一区二区三区视频在线播放
|
国产精品久久久久久超碰
|
性做久久久久久久久
|
美女啪啪无遮挡免费久久网站
|
最新中文字幕一区二区三区
|
欧美色视频一区
|
久久九九电影
|
亚洲欧洲日本一区二区三区
|
午夜精品久久久久久久久久久久
|
国产一区二区三区在线观看免费视频
|
91久久精品美女高潮
|
欧美视频一区二区三区…
|
欧美在线播放视频
|
亚洲精品中文字幕有码专区
|
久久精品成人一区二区三区蜜臀
|
亚洲精品日韩在线
|
国产亚洲一本大道中文在线
|
欧美紧缚bdsm在线视频
|
性久久久久久
|
一区二区不卡在线视频 午夜欧美不卡在
|
激情丁香综合
|
欧美性一二三区
|
久久天天躁狠狠躁夜夜爽蜜月
|
一本久道久久久
|
欧美国产日韩一区二区
|
欧美一区二视频
|
一区二区免费在线视频
|
精品91久久久久
|
国产精品久久久久久户外露出
|
久久一区国产
|
性高湖久久久久久久久
|
日韩视频在线一区二区
|
欧美激情麻豆
|
久久这里有精品15一区二区三区
|
亚洲欧美日韩精品久久久久
|
日韩一级精品视频在线观看
|
在线成人www免费观看视频
|
国产精品少妇自拍
|
欧美区亚洲区
|
欧美成人影音
|
欧美一区二区三区精品
|
亚洲永久免费
|
在线一区视频
|
日韩视频一区二区三区在线播放免费观看
|
久久综合九色九九
|
久久精品视频一
|
性欧美大战久久久久久久久
|
亚洲一本大道在线
|
一区二区三区**美女毛片
|
亚洲激情视频网站
|
欧美激情亚洲
|
亚洲国产高清在线
|
欧美激情一区在线
|
亚洲国产精品一区二区第四页av
|
你懂的网址国产 欧美
|
噜噜噜91成人网
|
葵司免费一区二区三区四区五区
|
欧美中文字幕视频在线观看
|
欧美一级二区
|
久久av资源网
|
久久精品一二三
|
麻豆视频一区二区
|
免费观看成人鲁鲁鲁鲁鲁视频
|
猛男gaygay欧美视频
|
欧美承认网站
|
91久久黄色
|
在线视频日本亚洲性
|
亚洲视频网在线直播
|
午夜精品偷拍
|
久久视频在线看
|
免费视频一区
|
欧美日韩视频不卡
|
国产精品入口尤物
|
国产综合视频
|
亚洲黄色尤物视频
|
夜夜嗨av一区二区三区网页
|
亚洲综合电影
|
久久亚洲国产精品日日av夜夜
|
免费看黄裸体一级大秀欧美
|
亚洲黄色尤物视频
|
亚洲视频在线观看
|
久久精品亚洲乱码伦伦中文
|
在线视频你懂得一区
|
亚洲男人的天堂在线aⅴ视频
|
久久不射中文字幕
|
麻豆精品精华液
|
国产精品第一区
|
在线观看亚洲一区
|
亚洲性感激情
|
免费不卡亚洲欧美
|
亚洲免费成人av
|
欧美主播一区二区三区
|
欧美电影电视剧在线观看
|
国产精品一区=区
|
最新国产成人在线观看
|
亚洲一区网站
|
欧美成人一区二区在线
|
亚洲一区二区三区四区五区黄
|
久久男女视频
|
国产精品午夜av在线
|
最近中文字幕mv在线一区二区三区四区
|
国产视频欧美视频
|
日韩亚洲一区二区
|
久久久精品久久久久
|
亚洲最新在线
|
欧美成人精品在线
|
国户精品久久久久久久久久久不卡
|
免费不卡在线观看av
|
国产偷国产偷亚洲高清97cao
|