青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
登山之道
C++博客
::
首頁
::
新隨筆
:: :: ::
管理
Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
Posted on 2011-04-17 19:25
Kevin_Zhang
閱讀(3516)
評論(1)
編輯
收藏
引用
所屬分類:
搜索引擎
1
. 常見的中文分詞器有:極易分詞的(MMAnalyzer) 、
"
庖丁分詞
"
分詞器(PaodingAnalzyer)、IKAnalyzer 等等。其中 MMAnalyzer 和 PaodingAnalzyer 不支持 lucene3.0及以后版本。
使用方式都類似,在構建分詞器時
Analyzer analyzer
=
new
[My]Analyzer();
2
. 這里只示例 IKAnalyzer,目前只有它支持Lucene3.
0
以后的版本。
首先需要導入 IKAnalyzer3.
2
.0Stable.jar 包
3
. 示例代碼
view plaincopy to clipboardprint
?
public
class
AnalyzerTest
{
@Test
public
void
test()
throws
Exception
{
String text
=
"
An IndexWriter creates and maintains an index.
"
;
/**/
/*
標準分詞器:單子分詞
*/
Analyzer analyzer
=
new
StandardAnalyzer(Version.LUCENE_30);
testAnalyzer(analyzer, text);
String text2
=
"
測試中文環境下的信息檢索
"
;
testAnalyzer(
new
IKAnalyzer(), text2);
//
使用IKAnalyzer,詞庫分詞
}
/** */
/**
* 使用指定的分詞器對指定的文本進行分詞,并打印結果
*
*
@param
analyzer
*
@param
text
*
@throws
Exception
*/
private
void
testAnalyzer(Analyzer analyzer, String text)
throws
Exception
{
System.out.println(
"
當前使用的分詞器:
"
+
analyzer.getClass());
TokenStream tokenStream
=
analyzer.tokenStream(
"
content
"
,
new
StringReader(text));
tokenStream.addAttribute(TermAttribute.
class
);
while
(tokenStream.incrementToken())
{
TermAttribute termAttribute
=
tokenStream.getAttribute(TermAttribute.
class
);
System.out.println(termAttribute.term());
}
}
}
public
class
AnalyzerTest
{
@Test
public
void
test()
throws
Exception
{
String text
=
"
An IndexWriter creates and maintains an index.
"
;
/**/
/*
標準分詞器:單子分詞
*/
Analyzer analyzer
=
new
StandardAnalyzer(Version.LUCENE_30);
testAnalyzer(analyzer, text);
String text2
=
"
測試中文環境下的信息檢索
"
;
testAnalyzer(
new
IKAnalyzer(), text2);
//
使用IKAnalyzer,詞庫分詞
}
/** */
/**
* 使用指定的分詞器對指定的文本進行分詞,并打印結果
*
*
@param
analyzer
*
@param
text
*
@throws
Exception
*/
private
void
testAnalyzer(Analyzer analyzer, String text)
throws
Exception
{
System.out.println(
"
當前使用的分詞器:
"
+
analyzer.getClass());
TokenStream tokenStream
=
analyzer.tokenStream(
"
content
"
,
new
StringReader(text));
tokenStream.addAttribute(TermAttribute.
class
);
while
(tokenStream.incrementToken())
{
TermAttribute termAttribute
=
tokenStream.getAttribute(TermAttribute.
class
);
System.out.println(termAttribute.term());
}
}
}
3
. 如何擴展詞庫:很多情況下,我們可能需要定制自己的詞庫,例如 XXX 公司,我們希望這能被分詞器識別,并拆分成一個詞。
IKAnalyzer 可以很方便的實現我們的這種需求。
新建 IKAnalyzer.cfg.xml
view plaincopy to clipboardprint
?
<?
xml version
=
"
1.0
"
encoding
=
"
UTF-8
"
?>
<!
DOCTYPE properties SYSTEM
"
http://java.sun.com/dtd/properties.dtd
"
>
<
properties
>
<!--
1
,文件要是 UTF
-
8
編碼。
2
,一行寫一個詞
-->
<!--
用戶可以在這里配置自己的擴展字典
-->
<
entry key
=
"
ext_dict
"
>/
mydict.dic
</
entry
>
</
properties
>
<?
xml version
=
"
1.0
"
encoding
=
"
UTF-8
"
?>
<!
DOCTYPE properties SYSTEM
"
http://java.sun.com/dtd/properties.dtd
"
>
<
properties
>
<!--
1
,文件要是 UTF
-
8
編碼。
2
,一行寫一個詞
-->
<!--
用戶可以在這里配置自己的擴展字典
-->
<
entry key
=
"
ext_dict
"
>/
mydict.dic
</
entry
>
</
properties
>
解析:
<
entry key
=
"
ext_dict
"
>/
mydict.dic
</
entry
>
擴展了一個自己的詞典,名字叫 mydict.dic
因此我們要建一個文本文件,名為:mydict.dic (此處使用的 .dic 并非必須)
在這個文本文件里寫入:
北京XXXX科技有限公司
這樣就添加了一個詞匯。
如果要添加多個,則新起一行:
詞匯一
詞匯二
詞匯三
需要注意的是,這個文件一定要使用 UTF
-
8編碼
4
. 停用詞:
有些詞在文本中出現的頻率非常高,但是對文本所攜帶的信息基本不產生影響,例如英文的
"
a、an、the、of
"
,或中文的
"
的、了、著
"
,以及各種標點符號等,這樣的詞稱為停用詞(stop word)。
文本經過分詞之后,停用詞通常被過濾掉,不會被進行索引。在檢索的時候,用戶的查詢中如果含有停用詞,檢索系統也會將其過濾掉(因為用戶輸入的查詢字符串也要進行分詞處理)。
排除停用詞可以加快建立索引的速度,減小索引庫文件的大小。
IKAnalyzer 中自定義停用詞也非常方便,和配置
"
擴展詞庫
"
操作類型,只需要在 IKAnalyzer.cfg.xml 加入如下配置:
<
entry key
=
"
ext_stopwords
"
>/
ext_stopword.dic
</
entry
>
同樣這個配置也指向了一個文本文件
/
ext_stopword.dic (后綴名任意),格式如下:
也
了
仍
從
本文來自CSDN博客,轉載請標明出處:http:
//
blog.csdn.net/wenlin56/archive/2010/12/13/6074124.aspx
Feedback
#
re: Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
回復
更多評論
2016-07-05 20:08 by
回家看回家看
54544554
刷新評論列表
只有注冊用戶
登錄
后才能發表評論。
相關文章:
Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
網頁解析開源項目
一個 Java 搜索引擎的實現,第 2 部分: 網頁預處理
一個 Java 搜索引擎的實現,第 1 部分: 網絡爬蟲
java 下載網頁
Apache+php+mysql在XP下搭配詳解
MonoDevelop
heritrix1.14.4
tomcatPlugin下載地址
Heritrix-1.14.1怎么配置?
網站導航:
博客園
IT新聞
BlogJava
博問
Chat2DB
管理
Powered by:
C++博客
Copyright © Kevin_Zhang
日歷
<
2025年11月
>
日
一
二
三
四
五
六
26
27
28
29
30
31
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
1
2
3
4
5
6
常用鏈接
我的隨筆
我的評論
我參與的隨筆
隨筆分類
數據庫(1)
ACM基礎知識(9)
ARM(2)
C/C++(12)
DOS(1)
Google Map API
Heritrix(1)
IT News(22)
JAVA(3)
Jsp
Linux(9)
Lucene(1)
PHP(6)
Python
Tree
Trie樹(1)
博弈
動態規劃(1)
回溯
匯編
計算幾何(1)
模擬(4)
排序(2)
嵌入式
數據結構(2)
數論(2)
數學(3)
搜索(2)
搜索引擎(12)
隨機數
貪心(1)
圖論(1)
圖形學(1)
萬花筒(22)
網絡流
硬件(1)
隨筆檔案
2011年6月 (5)
2011年5月 (22)
2011年4月 (24)
2010年12月 (1)
2010年11月 (13)
2010年10月 (7)
2010年9月 (14)
2010年8月 (52)
2010年7月 (9)
文章分類
ACM題目分類(13)
C
C#
C++
DP動態規劃
JAVA
LUNIX
Python
博弈
計算幾何
模擬
數論(1)
搜索(1)
貪心
圖論
文章檔案
2010年8月 (4)
2010年7月 (22)
程序的靈魂--算法
沙場秋點兵,壯士凱歌還
北大POJ
他山之石,可以攻玉
圍觀強人
搜索
最新評論
1.?re: Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
54544554
--回家看回家看
2.?re: 水
評論內容較長,點擊標題查看
--Jason Huang
3.?re: 10項技能讓前端開發者價值百萬!
評論內容較長,點擊標題查看
--BURKERosie25
4.?re: (轉載)ACM經歷總結[未登錄]
謝謝
--xingyezhi
5.?re: 世界頭號營銷大師們的營銷素質
大道至簡,殊途同歸,值得借鑒。
--Kevin_Zhang
閱讀排行榜
1.?Java動態數組的用法詳解(12226)
2.? Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞(3516)
3.?用scanf輸入字符串空格不識別??(2110)
4.?php java交互 php/java bridge (1960)
5.?設置MFC坐標系(1828)
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
国产一区二区日韩
|
一本一本久久a久久精品综合麻豆 一本一本久久a久久精品牛牛影视
|
国产精品视频一区二区三区
|
国产精品成人久久久久
|
国产精品国产三级国产aⅴ入口
|
亚洲视频播放
|
欧美一级一区
|
蜜桃av一区二区在线观看
|
欧美高清视频一区二区
|
中文久久精品
|
女同性一区二区三区人了人一
|
欧美精品久久久久久久
|
国产亚洲va综合人人澡精品
|
一区二区三区国产在线观看
|
久久久久www
|
亚洲美女网站
|
久久久国际精品
|
欧美日韩在线直播
|
伊人久久婷婷色综合98网
|
亚洲最新视频在线
|
欧美成人精品福利
|
欧美一区二区三区四区高清
|
9久re热视频在线精品
|
亚洲欧美中文另类
|
欧美日韩成人网
|
好吊成人免视频
|
午夜欧美不卡精品aaaaa
|
亚洲激情网站免费观看
|
亚洲一区欧美一区
|
欧美国产日韩在线观看
|
久久久精品免费视频
|
99精品国产在热久久下载
|
欧美成人69
|
国产精品国产馆在线真实露脸
|
久久天天躁夜夜躁狠狠躁2022
|
亚洲一区二区三区乱码aⅴ蜜桃女
|
欧美激情在线狂野欧美精品
|
欧美一级二区
|
欧美精品粉嫩高潮一区二区
|
夜夜嗨av一区二区三区网页
|
午夜精品在线观看
|
久久久青草婷婷精品综合日韩
|
国产日韩综合
|
亚洲伦理久久
|
欧美午夜精品理论片a级大开眼界
|
亚洲精品日韩在线观看
|
欧美成人一区二区三区在线观看
|
国产精品第一区
|
亚洲福利视频专区
|
美女黄网久久
|
亚洲精品美女久久7777777
|
欧美一区国产一区
|
亚洲欧美不卡
|
亚洲欧美日韩中文视频
|
一区二区三区国产在线
|
欧美久久99
|
亚洲欧美日韩一区二区在线
|
欧美波霸影院
|
亚洲图片在区色
|
欧美激情视频一区二区三区免费
|
狼人天天伊人久久
|
欧美精品福利视频
|
亚洲第一成人在线
|
亚洲国产婷婷
|
日韩视频精品在线观看
|
亚洲国产精品成人va在线观看
|
亚洲三级网站
|
国产综合香蕉五月婷在线
|
美日韩精品免费
|
一区在线观看
|
亚洲一区二区三区精品在线
|
亚洲影院色在线观看免费
|
欧美日本国产一区
|
一区二区欧美在线观看
|
亚洲图片自拍偷拍
|
国产精品萝li
|
亚洲福利国产
|
99热精品在线
|
国产精品久久久久av免费
|
亚洲在线中文字幕
|
日韩天堂在线视频
|
欧美日韩日本网
|
久久精品欧美日韩
|
欧美日韩亚洲国产精品
|
一区二区日韩
|
香蕉久久夜色
|
在线成人h网
|
欧美精品在线免费播放
|
在线综合欧美
|
久久久久久噜噜噜久久久精品
|
亚洲影视中文字幕
|
久久精品三级
|
亚洲日韩成人
|
国产精品视频男人的天堂
|
欧美一区二区视频免费观看
|
免费观看亚洲视频大全
|
日韩视频免费
|
嫩草成人www欧美
|
一个色综合av
|
蜜桃精品久久久久久久免费影院
|
亚洲精品一线二线三线无人区
|
欧美三级韩国三级日本三斤
|
先锋影音国产精品
|
亚洲国产女人aaa毛片在线
|
精品动漫av
|
欧美日韩一区在线观看视频
|
亚洲欧美中日韩
|
亚洲成人自拍视频
|
亚洲成色精品
|
久久久人人人
|
一区二区三区四区五区在线
|
久久天堂精品
|
亚洲欧美日韩高清
|
亚洲日本欧美日韩高观看
|
国产色产综合色产在线视频
|
欧美大片网址
|
久久久精品网
|
亚洲综合视频网
|
亚洲美女在线一区
|
欧美成人影音
|
久久天天躁狠狠躁夜夜爽蜜月
|
av成人激情
|
亚洲国产欧美久久
|
国产一区二区黄
|
欧美日韩一区二区三区免费看
|
久久久久青草大香线综合精品
|
在线亚洲一区
|
亚洲免费激情
|
亚洲免费高清
|
91久久精品www人人做人人爽
|
亚洲精品在线免费观看视频
|
国产又爽又黄的激情精品视频
|
欧美三区在线观看
|
欧美成人中文字幕在线
|
久久久之久亚州精品露出
|
午夜免费久久久久
|
中文欧美在线视频
|
一个色综合导航
|
亚洲精品日韩欧美
|
亚洲免费av电影
|
亚洲欧洲在线看
|
亚洲欧洲日韩女同
|
亚洲欧洲日夜超级视频
|
91久久国产综合久久
|
亚洲国产一区二区三区a毛片
|
欧美sm视频
|
欧美国产一区视频在线观看
|
免费成人黄色av
|
欧美成人在线免费视频
|
欧美大成色www永久网站婷
|
欧美大片免费久久精品三p
|
亚洲欧洲精品一区二区精品久久久
|
欧美激情综合色综合啪啪
|
巨乳诱惑日韩免费av
|
亚洲婷婷综合色高清在线
|
久久亚洲电影
|
牛牛影视久久网
|
欧美激情一区二区三区不卡
|
亚洲国产另类 国产精品国产免费
|
亚洲国产另类久久精品
|
亚洲美女精品久久
|
亚洲深夜影院
|
欧美一区二区视频在线
|
久久一区国产
|
欧美尤物一区
|
亚洲午夜电影
|
午夜在线一区二区
|
久久久精品欧美丰满
|
免费在线观看日韩欧美
|
欧美日一区二区三区在线观看国产免
|
欧美午夜视频在线观看
|
国产精品一区亚洲
|
欧美日韩综合在线免费观看
|
国产精品日韩欧美一区二区
|
好吊视频一区二区三区四区
|
欧美日韩国内自拍
|
国产精品久久久久久久久搜平片
|
国产视频一区二区在线观看
|
精品av久久707
|
一区二区三区高清在线
|
久久精品视频在线
|
亚洲国产精品va在看黑人
|
亚洲在线视频
|
欧美成人一区二区在线
|
国产欧美一区二区白浆黑人
|
欧美视频日韩视频
|
国语精品中文字幕
|
99re6热只有精品免费观看
|
先锋资源久久
|
亚洲欧洲在线看
|
久久久久免费
|
国产精品丝袜白浆摸在线
|
亚洲国产欧美日韩精品
|
性色一区二区
|
亚洲大片av
|
久久精品国产欧美亚洲人人爽
|
亚洲一区二区三区高清不卡
|
美女在线一区二区
|
国产亚洲精品久久久久久
|
日韩午夜激情av
|