青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
登山之道
C++博客
::
首頁
::
新隨筆
:: :: ::
管理
Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
Posted on 2011-04-17 19:25
Kevin_Zhang
閱讀(3508)
評論(1)
編輯
收藏
引用
所屬分類:
搜索引擎
1
. 常見的中文分詞器有:極易分詞的(MMAnalyzer) 、
"
庖丁分詞
"
分詞器(PaodingAnalzyer)、IKAnalyzer 等等。其中 MMAnalyzer 和 PaodingAnalzyer 不支持 lucene3.0及以后版本。
使用方式都類似,在構建分詞器時
Analyzer analyzer
=
new
[My]Analyzer();
2
. 這里只示例 IKAnalyzer,目前只有它支持Lucene3.
0
以后的版本。
首先需要導入 IKAnalyzer3.
2
.0Stable.jar 包
3
. 示例代碼
view plaincopy to clipboardprint
?
public
class
AnalyzerTest
{
@Test
public
void
test()
throws
Exception
{
String text
=
"
An IndexWriter creates and maintains an index.
"
;
/**/
/*
標準分詞器:單子分詞
*/
Analyzer analyzer
=
new
StandardAnalyzer(Version.LUCENE_30);
testAnalyzer(analyzer, text);
String text2
=
"
測試中文環境下的信息檢索
"
;
testAnalyzer(
new
IKAnalyzer(), text2);
//
使用IKAnalyzer,詞庫分詞
}
/** */
/**
* 使用指定的分詞器對指定的文本進行分詞,并打印結果
*
*
@param
analyzer
*
@param
text
*
@throws
Exception
*/
private
void
testAnalyzer(Analyzer analyzer, String text)
throws
Exception
{
System.out.println(
"
當前使用的分詞器:
"
+
analyzer.getClass());
TokenStream tokenStream
=
analyzer.tokenStream(
"
content
"
,
new
StringReader(text));
tokenStream.addAttribute(TermAttribute.
class
);
while
(tokenStream.incrementToken())
{
TermAttribute termAttribute
=
tokenStream.getAttribute(TermAttribute.
class
);
System.out.println(termAttribute.term());
}
}
}
public
class
AnalyzerTest
{
@Test
public
void
test()
throws
Exception
{
String text
=
"
An IndexWriter creates and maintains an index.
"
;
/**/
/*
標準分詞器:單子分詞
*/
Analyzer analyzer
=
new
StandardAnalyzer(Version.LUCENE_30);
testAnalyzer(analyzer, text);
String text2
=
"
測試中文環境下的信息檢索
"
;
testAnalyzer(
new
IKAnalyzer(), text2);
//
使用IKAnalyzer,詞庫分詞
}
/** */
/**
* 使用指定的分詞器對指定的文本進行分詞,并打印結果
*
*
@param
analyzer
*
@param
text
*
@throws
Exception
*/
private
void
testAnalyzer(Analyzer analyzer, String text)
throws
Exception
{
System.out.println(
"
當前使用的分詞器:
"
+
analyzer.getClass());
TokenStream tokenStream
=
analyzer.tokenStream(
"
content
"
,
new
StringReader(text));
tokenStream.addAttribute(TermAttribute.
class
);
while
(tokenStream.incrementToken())
{
TermAttribute termAttribute
=
tokenStream.getAttribute(TermAttribute.
class
);
System.out.println(termAttribute.term());
}
}
}
3
. 如何擴展詞庫:很多情況下,我們可能需要定制自己的詞庫,例如 XXX 公司,我們希望這能被分詞器識別,并拆分成一個詞。
IKAnalyzer 可以很方便的實現我們的這種需求。
新建 IKAnalyzer.cfg.xml
view plaincopy to clipboardprint
?
<?
xml version
=
"
1.0
"
encoding
=
"
UTF-8
"
?>
<!
DOCTYPE properties SYSTEM
"
http://java.sun.com/dtd/properties.dtd
"
>
<
properties
>
<!--
1
,文件要是 UTF
-
8
編碼。
2
,一行寫一個詞
-->
<!--
用戶可以在這里配置自己的擴展字典
-->
<
entry key
=
"
ext_dict
"
>/
mydict.dic
</
entry
>
</
properties
>
<?
xml version
=
"
1.0
"
encoding
=
"
UTF-8
"
?>
<!
DOCTYPE properties SYSTEM
"
http://java.sun.com/dtd/properties.dtd
"
>
<
properties
>
<!--
1
,文件要是 UTF
-
8
編碼。
2
,一行寫一個詞
-->
<!--
用戶可以在這里配置自己的擴展字典
-->
<
entry key
=
"
ext_dict
"
>/
mydict.dic
</
entry
>
</
properties
>
解析:
<
entry key
=
"
ext_dict
"
>/
mydict.dic
</
entry
>
擴展了一個自己的詞典,名字叫 mydict.dic
因此我們要建一個文本文件,名為:mydict.dic (此處使用的 .dic 并非必須)
在這個文本文件里寫入:
北京XXXX科技有限公司
這樣就添加了一個詞匯。
如果要添加多個,則新起一行:
詞匯一
詞匯二
詞匯三
需要注意的是,這個文件一定要使用 UTF
-
8編碼
4
. 停用詞:
有些詞在文本中出現的頻率非常高,但是對文本所攜帶的信息基本不產生影響,例如英文的
"
a、an、the、of
"
,或中文的
"
的、了、著
"
,以及各種標點符號等,這樣的詞稱為停用詞(stop word)。
文本經過分詞之后,停用詞通常被過濾掉,不會被進行索引。在檢索的時候,用戶的查詢中如果含有停用詞,檢索系統也會將其過濾掉(因為用戶輸入的查詢字符串也要進行分詞處理)。
排除停用詞可以加快建立索引的速度,減小索引庫文件的大小。
IKAnalyzer 中自定義停用詞也非常方便,和配置
"
擴展詞庫
"
操作類型,只需要在 IKAnalyzer.cfg.xml 加入如下配置:
<
entry key
=
"
ext_stopwords
"
>/
ext_stopword.dic
</
entry
>
同樣這個配置也指向了一個文本文件
/
ext_stopword.dic (后綴名任意),格式如下:
也
了
仍
從
本文來自CSDN博客,轉載請標明出處:http:
//
blog.csdn.net/wenlin56/archive/2010/12/13/6074124.aspx
Feedback
#
re: Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
回復
更多評論
2016-07-05 20:08 by
回家看回家看
54544554
刷新評論列表
只有注冊用戶
登錄
后才能發表評論。
【推薦】100%開源!大型工業跨平臺軟件C++源碼提供,建模,組態!
相關文章:
Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
網頁解析開源項目
一個 Java 搜索引擎的實現,第 2 部分: 網頁預處理
一個 Java 搜索引擎的實現,第 1 部分: 網絡爬蟲
java 下載網頁
Apache+php+mysql在XP下搭配詳解
MonoDevelop
heritrix1.14.4
tomcatPlugin下載地址
Heritrix-1.14.1怎么配置?
網站導航:
博客園
IT新聞
BlogJava
博問
Chat2DB
管理
Powered by:
C++博客
Copyright © Kevin_Zhang
日歷
<
2025年9月
>
日
一
二
三
四
五
六
31
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
1
2
3
4
5
6
7
8
9
10
11
常用鏈接
我的隨筆
我的評論
我參與的隨筆
隨筆分類
數據庫(1)
ACM基礎知識(9)
ARM(2)
C/C++(12)
DOS(1)
Google Map API
Heritrix(1)
IT News(22)
JAVA(3)
Jsp
Linux(9)
Lucene(1)
PHP(6)
Python
Tree
Trie樹(1)
博弈
動態規劃(1)
回溯
匯編
計算幾何(1)
模擬(4)
排序(2)
嵌入式
數據結構(2)
數論(2)
數學(3)
搜索(2)
搜索引擎(12)
隨機數
貪心(1)
圖論(1)
圖形學(1)
萬花筒(22)
網絡流
硬件(1)
隨筆檔案
2011年6月 (5)
2011年5月 (22)
2011年4月 (24)
2010年12月 (1)
2010年11月 (13)
2010年10月 (7)
2010年9月 (14)
2010年8月 (52)
2010年7月 (9)
文章分類
ACM題目分類(13)
C
C#
C++
DP動態規劃
JAVA
LUNIX
Python
博弈
計算幾何
模擬
數論(1)
搜索(1)
貪心
圖論
文章檔案
2010年8月 (4)
2010年7月 (22)
程序的靈魂--算法
沙場秋點兵,壯士凱歌還
北大POJ
他山之石,可以攻玉
圍觀強人
搜索
最新評論
1.?re: Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
54544554
--回家看回家看
2.?re: 水
評論內容較長,點擊標題查看
--Jason Huang
3.?re: 10項技能讓前端開發者價值百萬!
評論內容較長,點擊標題查看
--BURKERosie25
4.?re: (轉載)ACM經歷總結[未登錄]
謝謝
--xingyezhi
5.?re: 世界頭號營銷大師們的營銷素質
大道至簡,殊途同歸,值得借鑒。
--Kevin_Zhang
閱讀排行榜
1.?Java動態數組的用法詳解(12216)
2.? Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞(3508)
3.?用scanf輸入字符串空格不識別??(2104)
4.?php java交互 php/java bridge (1950)
5.?設置MFC坐標系(1814)
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
一本色道久久综合亚洲精品不卡
|
欧美国产日本高清在线
|
欧美精品久久99
|
日韩视频不卡
|
亚洲午夜性刺激影院
|
国产精品久久久久久影视
|
午夜精品久久久久久久99水蜜桃
|
亚洲免费成人
|
亚洲精品小视频
|
国产精品一区二区男女羞羞无遮挡
|
国产精品久久一级
|
亚洲综合大片69999
|
新67194成人永久网站
|
韩日午夜在线资源一区二区
|
女女同性精品视频
|
欧美精品久久99
|
久久国产精彩视频
|
久久尤物视频
|
亚洲欧美日本在线
|
久久亚洲电影
|
午夜久久久久久久久久一区二区
|
欧美成人一区二区三区
|
欧美a级片一区
|
亚洲免费一在线
|
麻豆精品在线观看
|
午夜精品在线观看
|
欧美成人中文字幕
|
久久久91精品国产一区二区精品
|
正在播放亚洲一区
|
国产日本欧美一区二区三区在线
|
中日韩男男gay无套
|
性xx色xx综合久久久xx
|
一本大道久久a久久综合婷婷
|
久久一区亚洲
|
欧美日韩精选
|
欧美国产日本高清在线
|
国产婷婷色一区二区三区四区
|
亚洲欧美三级在线
|
欧美高潮视频
|
欧美1级日本1级
|
国产视频自拍一区
|
亚洲性人人天天夜夜摸
|
亚洲国产精品久久久久婷婷老年
|
亚洲午夜高清视频
|
久久不射网站
|
欧美一区二区三区免费观看
|
蜜桃av噜噜一区二区三区
|
久久不射网站
|
国产精品入口福利
|
亚洲视频999
|
在线视频精品一
|
欧美精品v日韩精品v韩国精品v
|
美女黄网久久
|
国产欧美一区二区色老头
|
一个人看的www久久
|
亚洲精品久久久久
|
久久久久看片
|
免费成人高清
|
影音先锋另类
|
免费的成人av
|
91久久精品一区二区三区
|
亚洲成人在线网
|
久热综合在线亚洲精品
|
免费h精品视频在线播放
|
韩国av一区二区三区在线观看
|
欧美99在线视频观看
|
国内自拍视频一区二区三区
|
久久黄金**
|
麻豆亚洲精品
|
亚洲欧洲三级电影
|
欧美—级a级欧美特级ar全黄
|
亚洲在线视频网站
|
国产精品成人一区二区网站软件
|
久久精品国产精品亚洲综合
|
国产婷婷成人久久av免费高清
|
浪潮色综合久久天堂
|
伊大人香蕉综合8在线视
|
久久尤物视频
|
日韩午夜av
|
欧美一区二区网站
|
国内精品视频在线播放
|
久久亚洲综合网
|
欧美激情精品久久久久久久变态
|
亚洲欧美日韩国产一区二区三区
|
亚洲色无码播放
|
国产精品黄视频
|
欧美一区2区三区4区公司二百
|
欧美日韩一区二区三区在线视频
|
亚洲综合色噜噜狠狠
|
国产日韩欧美一区二区三区四区
|
欧美激情第六页
|
在线一区二区视频
|
国产三级欧美三级日产三级99
|
亚洲国产三级
|
亚洲欧美日韩国产中文
|
国产精品三上
|
在线观看成人av电影
|
欧美大色视频
|
亚洲精品资源美女情侣酒店
|
欧美资源在线观看
|
亚洲区在线播放
|
国产乱码精品一区二区三
|
快射av在线播放一区
|
亚洲性视频h
|
亚洲高清免费视频
|
久久国产精品毛片
|
亚洲天堂男人
|
亚洲国产欧美一区二区三区久久
|
欧美一区二区三区免费看
|
欧美大片在线看免费观看
|
午夜日韩av
|
亚洲精品在线二区
|
激情欧美一区二区
|
国产精品麻豆成人av电影艾秋
|
最新高清无码专区
|
久久久亚洲影院你懂的
|
亚洲免费视频一区二区
|
亚洲日本欧美天堂
|
红桃视频欧美
|
国产精品色午夜在线观看
|
欧美精品激情
|
久久九九国产精品怡红院
|
一本色道久久综合亚洲精品按摩
|
亚洲视频一区二区
|
亚洲第一二三四五区
|
国产日韩欧美二区
|
国产精品久久久久99
|
欧美日韩成人综合天天影院
|
久久久国产视频91
|
欧美综合激情网
|
久久本道综合色狠狠五月
|
亚洲综合日韩
|
亚洲欧美日本日韩
|
亚洲女女女同性video
|
中文在线不卡
|
亚洲一区国产一区
|
亚洲——在线
|
午夜精品久久久久久久99黑人
|
久久久久久色
|
久久只精品国产
|
你懂的网址国产 欧美
|
女同性一区二区三区人了人一
|
国产精品国产精品
|
欧美日韩国产天堂
|
欧美日韩国产首页
|
国产精品国产三级国产普通话99
|
亚洲综合色视频
|
亚洲自拍另类
|
久久精品一区蜜桃臀影院
|
久久综合九色欧美综合狠狠
|
久久久久国产一区二区三区四区
|
久热成人在线视频
|
欧美国产综合视频
|
亚洲精品一区二区三区99
|
最新日韩在线
|
夜夜夜久久久
|
先锋影音久久
|
免费av成人在线
|
欧美日韩1234
|
国产三级精品在线不卡
|
黄色亚洲免费
|
99视频一区二区
|
欧美一区二区在线观看
|
美女国产一区
|
一区二区三区产品免费精品久久75
|
91久久久久久国产精品
|
亚洲精品日韩激情在线电影
|
欧美在线免费观看视频
|
一区二区三区你懂的
|
亚洲天堂免费在线观看视频
|
午夜精品视频在线观看
|
美日韩精品视频
|
9色国产精品
|
久久aⅴ国产欧美74aaa
|
欧美精品久久久久久久
|
国产精品国码视频
|
1000部精品久久久久久久久
|
日韩视频一区二区
|
欧美一区二区三区免费视
|
欧美freesex8一10精品
|
亚洲性视频h
|
欧美国产精品v
|
国产一区再线
|
亚洲小说春色综合另类电影
|
美女脱光内衣内裤视频久久网站
|
欧美在线视频观看免费网站
|
欧美成人精品h版在线观看
|
aⅴ色国产欧美
|
美女脱光内衣内裤视频久久影院
|
欧美一区深夜视频
|
欧美日韩一卡
|
亚洲国产aⅴ天堂久久
|
午夜视频精品
|
亚洲精品在线一区二区
|
欧美一区观看
|
国产精品亚洲欧美
|
一区二区三区不卡视频在线观看
|
欧美在线黄色
|
国产精品黄视频
|
在线视频你懂得一区二区三区
|