青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
登山之道
C++博客
::
首頁
::
新隨筆
:: :: ::
管理
Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
Posted on 2011-04-17 19:25
Kevin_Zhang
閱讀(3516)
評論(1)
編輯
收藏
引用
所屬分類:
搜索引擎
1
. 常見的中文分詞器有:極易分詞的(MMAnalyzer) 、
"
庖丁分詞
"
分詞器(PaodingAnalzyer)、IKAnalyzer 等等。其中 MMAnalyzer 和 PaodingAnalzyer 不支持 lucene3.0及以后版本。
使用方式都類似,在構建分詞器時
Analyzer analyzer
=
new
[My]Analyzer();
2
. 這里只示例 IKAnalyzer,目前只有它支持Lucene3.
0
以后的版本。
首先需要導入 IKAnalyzer3.
2
.0Stable.jar 包
3
. 示例代碼
view plaincopy to clipboardprint
?
public
class
AnalyzerTest
{
@Test
public
void
test()
throws
Exception
{
String text
=
"
An IndexWriter creates and maintains an index.
"
;
/**/
/*
標準分詞器:單子分詞
*/
Analyzer analyzer
=
new
StandardAnalyzer(Version.LUCENE_30);
testAnalyzer(analyzer, text);
String text2
=
"
測試中文環境下的信息檢索
"
;
testAnalyzer(
new
IKAnalyzer(), text2);
//
使用IKAnalyzer,詞庫分詞
}
/** */
/**
* 使用指定的分詞器對指定的文本進行分詞,并打印結果
*
*
@param
analyzer
*
@param
text
*
@throws
Exception
*/
private
void
testAnalyzer(Analyzer analyzer, String text)
throws
Exception
{
System.out.println(
"
當前使用的分詞器:
"
+
analyzer.getClass());
TokenStream tokenStream
=
analyzer.tokenStream(
"
content
"
,
new
StringReader(text));
tokenStream.addAttribute(TermAttribute.
class
);
while
(tokenStream.incrementToken())
{
TermAttribute termAttribute
=
tokenStream.getAttribute(TermAttribute.
class
);
System.out.println(termAttribute.term());
}
}
}
public
class
AnalyzerTest
{
@Test
public
void
test()
throws
Exception
{
String text
=
"
An IndexWriter creates and maintains an index.
"
;
/**/
/*
標準分詞器:單子分詞
*/
Analyzer analyzer
=
new
StandardAnalyzer(Version.LUCENE_30);
testAnalyzer(analyzer, text);
String text2
=
"
測試中文環境下的信息檢索
"
;
testAnalyzer(
new
IKAnalyzer(), text2);
//
使用IKAnalyzer,詞庫分詞
}
/** */
/**
* 使用指定的分詞器對指定的文本進行分詞,并打印結果
*
*
@param
analyzer
*
@param
text
*
@throws
Exception
*/
private
void
testAnalyzer(Analyzer analyzer, String text)
throws
Exception
{
System.out.println(
"
當前使用的分詞器:
"
+
analyzer.getClass());
TokenStream tokenStream
=
analyzer.tokenStream(
"
content
"
,
new
StringReader(text));
tokenStream.addAttribute(TermAttribute.
class
);
while
(tokenStream.incrementToken())
{
TermAttribute termAttribute
=
tokenStream.getAttribute(TermAttribute.
class
);
System.out.println(termAttribute.term());
}
}
}
3
. 如何擴展詞庫:很多情況下,我們可能需要定制自己的詞庫,例如 XXX 公司,我們希望這能被分詞器識別,并拆分成一個詞。
IKAnalyzer 可以很方便的實現我們的這種需求。
新建 IKAnalyzer.cfg.xml
view plaincopy to clipboardprint
?
<?
xml version
=
"
1.0
"
encoding
=
"
UTF-8
"
?>
<!
DOCTYPE properties SYSTEM
"
http://java.sun.com/dtd/properties.dtd
"
>
<
properties
>
<!--
1
,文件要是 UTF
-
8
編碼。
2
,一行寫一個詞
-->
<!--
用戶可以在這里配置自己的擴展字典
-->
<
entry key
=
"
ext_dict
"
>/
mydict.dic
</
entry
>
</
properties
>
<?
xml version
=
"
1.0
"
encoding
=
"
UTF-8
"
?>
<!
DOCTYPE properties SYSTEM
"
http://java.sun.com/dtd/properties.dtd
"
>
<
properties
>
<!--
1
,文件要是 UTF
-
8
編碼。
2
,一行寫一個詞
-->
<!--
用戶可以在這里配置自己的擴展字典
-->
<
entry key
=
"
ext_dict
"
>/
mydict.dic
</
entry
>
</
properties
>
解析:
<
entry key
=
"
ext_dict
"
>/
mydict.dic
</
entry
>
擴展了一個自己的詞典,名字叫 mydict.dic
因此我們要建一個文本文件,名為:mydict.dic (此處使用的 .dic 并非必須)
在這個文本文件里寫入:
北京XXXX科技有限公司
這樣就添加了一個詞匯。
如果要添加多個,則新起一行:
詞匯一
詞匯二
詞匯三
需要注意的是,這個文件一定要使用 UTF
-
8編碼
4
. 停用詞:
有些詞在文本中出現的頻率非常高,但是對文本所攜帶的信息基本不產生影響,例如英文的
"
a、an、the、of
"
,或中文的
"
的、了、著
"
,以及各種標點符號等,這樣的詞稱為停用詞(stop word)。
文本經過分詞之后,停用詞通常被過濾掉,不會被進行索引。在檢索的時候,用戶的查詢中如果含有停用詞,檢索系統也會將其過濾掉(因為用戶輸入的查詢字符串也要進行分詞處理)。
排除停用詞可以加快建立索引的速度,減小索引庫文件的大小。
IKAnalyzer 中自定義停用詞也非常方便,和配置
"
擴展詞庫
"
操作類型,只需要在 IKAnalyzer.cfg.xml 加入如下配置:
<
entry key
=
"
ext_stopwords
"
>/
ext_stopword.dic
</
entry
>
同樣這個配置也指向了一個文本文件
/
ext_stopword.dic (后綴名任意),格式如下:
也
了
仍
從
本文來自CSDN博客,轉載請標明出處:http:
//
blog.csdn.net/wenlin56/archive/2010/12/13/6074124.aspx
Feedback
#
re: Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
回復
更多評論
2016-07-05 20:08 by
回家看回家看
54544554
刷新評論列表
只有注冊用戶
登錄
后才能發表評論。
相關文章:
Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
網頁解析開源項目
一個 Java 搜索引擎的實現,第 2 部分: 網頁預處理
一個 Java 搜索引擎的實現,第 1 部分: 網絡爬蟲
java 下載網頁
Apache+php+mysql在XP下搭配詳解
MonoDevelop
heritrix1.14.4
tomcatPlugin下載地址
Heritrix-1.14.1怎么配置?
網站導航:
博客園
IT新聞
BlogJava
博問
Chat2DB
管理
Powered by:
C++博客
Copyright © Kevin_Zhang
日歷
<
2025年11月
>
日
一
二
三
四
五
六
26
27
28
29
30
31
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
1
2
3
4
5
6
常用鏈接
我的隨筆
我的評論
我參與的隨筆
隨筆分類
數據庫(1)
ACM基礎知識(9)
ARM(2)
C/C++(12)
DOS(1)
Google Map API
Heritrix(1)
IT News(22)
JAVA(3)
Jsp
Linux(9)
Lucene(1)
PHP(6)
Python
Tree
Trie樹(1)
博弈
動態規劃(1)
回溯
匯編
計算幾何(1)
模擬(4)
排序(2)
嵌入式
數據結構(2)
數論(2)
數學(3)
搜索(2)
搜索引擎(12)
隨機數
貪心(1)
圖論(1)
圖形學(1)
萬花筒(22)
網絡流
硬件(1)
隨筆檔案
2011年6月 (5)
2011年5月 (22)
2011年4月 (24)
2010年12月 (1)
2010年11月 (13)
2010年10月 (7)
2010年9月 (14)
2010年8月 (52)
2010年7月 (9)
文章分類
ACM題目分類(13)
C
C#
C++
DP動態規劃
JAVA
LUNIX
Python
博弈
計算幾何
模擬
數論(1)
搜索(1)
貪心
圖論
文章檔案
2010年8月 (4)
2010年7月 (22)
程序的靈魂--算法
沙場秋點兵,壯士凱歌還
北大POJ
他山之石,可以攻玉
圍觀強人
搜索
最新評論
1.?re: Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
54544554
--回家看回家看
2.?re: 水
評論內容較長,點擊標題查看
--Jason Huang
3.?re: 10項技能讓前端開發者價值百萬!
評論內容較長,點擊標題查看
--BURKERosie25
4.?re: (轉載)ACM經歷總結[未登錄]
謝謝
--xingyezhi
5.?re: 世界頭號營銷大師們的營銷素質
大道至簡,殊途同歸,值得借鑒。
--Kevin_Zhang
閱讀排行榜
1.?Java動態數組的用法詳解(12226)
2.? Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞(3516)
3.?用scanf輸入字符串空格不識別??(2110)
4.?php java交互 php/java bridge (1960)
5.?設置MFC坐標系(1828)
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
免费欧美日韩
|
日韩亚洲不卡在线
|
久久五月天婷婷
|
亚洲东热激情
|
亚洲国产高清aⅴ视频
|
老司机午夜精品视频
|
亚洲精品小视频
|
夜夜嗨av一区二区三区四季av
|
亚洲一区在线免费观看
|
欧美午夜欧美
|
欧美综合第一页
|
久久青草福利网站
|
亚洲精品护士
|
亚洲视频每日更新
|
国内精品久久久久影院 日本资源
|
久久久夜精品
|
欧美精品久久久久a
|
午夜伦欧美伦电影理论片
|
久久黄金**
|
亚洲最新中文字幕
|
香蕉成人久久
|
亚洲免费av电影
|
性欧美大战久久久久久久免费观看
|
国产一级一区二区
|
亚洲精品视频在线观看网站
|
国产精品亚洲综合
|
欧美黑人国产人伦爽爽爽
|
国产精品久久久久国产a级
|
久久久久国产精品麻豆ai换脸
|
麻豆9191精品国产
|
久久不射2019中文字幕
|
欧美激情欧美激情在线五月
|
欧美亚洲三区
|
欧美激情第五页
|
久久人人97超碰国产公开结果
|
欧美极品aⅴ影院
|
久久久www成人免费毛片麻豆
|
欧美另类videos死尸
|
久久蜜臀精品av
|
国产精品二区在线
|
亚洲高清在线观看一区
|
国产亚洲一区二区在线观看
|
亚洲图片自拍偷拍
|
亚洲精品久久久蜜桃
|
亚洲欧美一区二区精品久久久
|
亚洲欧洲一区
|
久久免费高清
|
久久久久国产免费免费
|
国产精品免费网站在线观看
|
亚洲人妖在线
|
亚洲卡通欧美制服中文
|
另类av导航
|
蘑菇福利视频一区播放
|
黄色成人免费观看
|
久久精品女人
|
久久久久久久久久看片
|
国产亚洲一区在线播放
|
亚洲尤物在线视频观看
|
亚洲欧美另类在线观看
|
欧美视频一区在线观看
|
日韩午夜精品视频
|
艳女tv在线观看国产一区
|
欧美激情女人20p
|
亚洲激情第一区
|
夜夜爽www精品
|
欧美日本簧片
|
一区二区三区日韩
|
亚洲欧美日韩精品一区二区
|
久久精品亚洲
|
麻豆国产va免费精品高清在线
|
国内一区二区在线视频观看
|
欧美在线电影
|
免费成人在线观看视频
|
亚洲精品1区2区
|
欧美日本亚洲韩国国产
|
99国产精品99久久久久久
|
亚洲免费小视频
|
国产午夜精品视频免费不卡69堂
|
先锋影音久久久
|
欧美成人激情视频免费观看
|
亚洲精品1区2区
|
欧美日韩视频免费播放
|
亚洲午夜精品在线
|
久久免费国产精品1
|
亚洲高清久久
|
欧美午夜精品理论片a级按摩
|
亚洲视屏一区
|
久久天堂精品
|
亚洲美洲欧洲综合国产一区
|
国产精品久久久久一区二区
|
欧美在线观看视频
|
亚洲国产日韩综合一区
|
亚洲欧美精品
|
亚洲国产网站
|
国产精品嫩草影院av蜜臀
|
欧美主播一区二区三区美女 久久精品人
|
欧美成人在线网站
|
在线视频亚洲欧美
|
老牛影视一区二区三区
|
亚洲色在线视频
|
精品1区2区3区4区
|
欧美人在线视频
|
香蕉久久夜色精品国产使用方法
|
欧美电影美腿模特1979在线看
|
亚洲一区二区免费在线
|
在线观看久久av
|
国产精品视频99
|
欧美成人免费小视频
|
亚洲一区在线直播
|
亚洲欧洲三级电影
|
久热精品视频在线
|
亚洲男女自偷自拍
|
亚洲人成77777在线观看网
|
国产欧美日韩视频一区二区
|
欧美国产在线电影
|
久久av一区二区三区
|
夜夜嗨av一区二区三区四季av
|
免费视频一区
|
久久精品色图
|
性欧美暴力猛交另类hd
|
一区二区三区精品久久久
|
亚洲第一色中文字幕
|
国产人成精品一区二区三
|
欧美日韩日韩
|
欧美激情综合五月色丁香
|
久久久精品2019中文字幕神马
|
亚洲一区免费看
|
亚洲精品一区二区三区不
|
免费一级欧美在线大片
|
久久久久久久网站
|
欧美一区二区三区四区高清
|
亚洲视频碰碰
|
一本色道久久加勒比88综合
|
亚洲欧洲视频在线
|
最新亚洲视频
|
亚洲国产视频一区二区
|
狠狠干狠狠久久
|
国内外成人免费激情在线视频
|
国产精品h在线观看
|
欧美日韩国产一级片
|
欧美激情欧美狂野欧美精品
|
欧美jizz19性欧美
|
久久一区二区三区四区
|
久久久综合网
|
免费观看30秒视频久久
|
欧美99在线视频观看
|
欧美成人一二三
|
欧美精品一区二区三区高清aⅴ
|
免费观看久久久4p
|
欧美大色视频
|
欧美日韩国产大片
|
国产精品成人观看视频免费
|
欧美日韩在线一区二区
|
国产精品免费福利
|
国产日韩精品一区二区
|
激情婷婷久久
|
亚洲肉体裸体xxxx137
|
亚洲娇小video精品
|
中文av字幕一区
|
亚洲欧美日韩在线不卡
|
久久看片网站
|
欧美激情精品久久久久久蜜臀
|
亚洲国产91
|
亚洲午夜在线视频
|
欧美在线综合视频
|
欧美大秀在线观看
|
国产精品国产三级国产专播精品人
|
欧美先锋影音
|
一区三区视频
|
日韩午夜电影av
|
欧美在线视频观看免费网站
|
免费观看在线综合
|
在线一区亚洲
|
玖玖综合伊人
|
国产精品久久午夜
|
亚洲二区三区四区
|
亚洲欧美日韩综合aⅴ视频
|
久久午夜电影网
|
一本色道久久综合亚洲精品不
|
欧美一区二区三区四区夜夜大片
|
欧美18av
|
国产日韩欧美一区二区三区四区
|
亚洲精品久久久久久久久
|
午夜亚洲福利在线老司机
|
欧美国产精品久久
|
亚洲欧美视频在线观看视频
|
欧美激情第10页
|
国产一区二区看久久
|
亚洲网站在线看
|
欧美国产日产韩国视频
|
午夜精品久久久99热福利
|
欧美精品一区二区视频
|
悠悠资源网亚洲青
|
欧美亚洲在线视频
|
亚洲日韩欧美视频一区
|
欧美中文字幕精品
|
国产精品视频xxxx
|
一区二区三区视频观看
|
欧美国产日韩一区二区在线观看
|
午夜精品福利一区二区三区av
|