青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
登山之道
C++博客
::
首頁
::
新隨筆
:: :: ::
管理
Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
Posted on 2011-04-17 19:25
Kevin_Zhang
閱讀(3516)
評論(1)
編輯
收藏
引用
所屬分類:
搜索引擎
1
. 常見的中文分詞器有:極易分詞的(MMAnalyzer) 、
"
庖丁分詞
"
分詞器(PaodingAnalzyer)、IKAnalyzer 等等。其中 MMAnalyzer 和 PaodingAnalzyer 不支持 lucene3.0及以后版本。
使用方式都類似,在構建分詞器時
Analyzer analyzer
=
new
[My]Analyzer();
2
. 這里只示例 IKAnalyzer,目前只有它支持Lucene3.
0
以后的版本。
首先需要導入 IKAnalyzer3.
2
.0Stable.jar 包
3
. 示例代碼
view plaincopy to clipboardprint
?
public
class
AnalyzerTest
{
@Test
public
void
test()
throws
Exception
{
String text
=
"
An IndexWriter creates and maintains an index.
"
;
/**/
/*
標準分詞器:單子分詞
*/
Analyzer analyzer
=
new
StandardAnalyzer(Version.LUCENE_30);
testAnalyzer(analyzer, text);
String text2
=
"
測試中文環境下的信息檢索
"
;
testAnalyzer(
new
IKAnalyzer(), text2);
//
使用IKAnalyzer,詞庫分詞
}
/** */
/**
* 使用指定的分詞器對指定的文本進行分詞,并打印結果
*
*
@param
analyzer
*
@param
text
*
@throws
Exception
*/
private
void
testAnalyzer(Analyzer analyzer, String text)
throws
Exception
{
System.out.println(
"
當前使用的分詞器:
"
+
analyzer.getClass());
TokenStream tokenStream
=
analyzer.tokenStream(
"
content
"
,
new
StringReader(text));
tokenStream.addAttribute(TermAttribute.
class
);
while
(tokenStream.incrementToken())
{
TermAttribute termAttribute
=
tokenStream.getAttribute(TermAttribute.
class
);
System.out.println(termAttribute.term());
}
}
}
public
class
AnalyzerTest
{
@Test
public
void
test()
throws
Exception
{
String text
=
"
An IndexWriter creates and maintains an index.
"
;
/**/
/*
標準分詞器:單子分詞
*/
Analyzer analyzer
=
new
StandardAnalyzer(Version.LUCENE_30);
testAnalyzer(analyzer, text);
String text2
=
"
測試中文環境下的信息檢索
"
;
testAnalyzer(
new
IKAnalyzer(), text2);
//
使用IKAnalyzer,詞庫分詞
}
/** */
/**
* 使用指定的分詞器對指定的文本進行分詞,并打印結果
*
*
@param
analyzer
*
@param
text
*
@throws
Exception
*/
private
void
testAnalyzer(Analyzer analyzer, String text)
throws
Exception
{
System.out.println(
"
當前使用的分詞器:
"
+
analyzer.getClass());
TokenStream tokenStream
=
analyzer.tokenStream(
"
content
"
,
new
StringReader(text));
tokenStream.addAttribute(TermAttribute.
class
);
while
(tokenStream.incrementToken())
{
TermAttribute termAttribute
=
tokenStream.getAttribute(TermAttribute.
class
);
System.out.println(termAttribute.term());
}
}
}
3
. 如何擴展詞庫:很多情況下,我們可能需要定制自己的詞庫,例如 XXX 公司,我們希望這能被分詞器識別,并拆分成一個詞。
IKAnalyzer 可以很方便的實現我們的這種需求。
新建 IKAnalyzer.cfg.xml
view plaincopy to clipboardprint
?
<?
xml version
=
"
1.0
"
encoding
=
"
UTF-8
"
?>
<!
DOCTYPE properties SYSTEM
"
http://java.sun.com/dtd/properties.dtd
"
>
<
properties
>
<!--
1
,文件要是 UTF
-
8
編碼。
2
,一行寫一個詞
-->
<!--
用戶可以在這里配置自己的擴展字典
-->
<
entry key
=
"
ext_dict
"
>/
mydict.dic
</
entry
>
</
properties
>
<?
xml version
=
"
1.0
"
encoding
=
"
UTF-8
"
?>
<!
DOCTYPE properties SYSTEM
"
http://java.sun.com/dtd/properties.dtd
"
>
<
properties
>
<!--
1
,文件要是 UTF
-
8
編碼。
2
,一行寫一個詞
-->
<!--
用戶可以在這里配置自己的擴展字典
-->
<
entry key
=
"
ext_dict
"
>/
mydict.dic
</
entry
>
</
properties
>
解析:
<
entry key
=
"
ext_dict
"
>/
mydict.dic
</
entry
>
擴展了一個自己的詞典,名字叫 mydict.dic
因此我們要建一個文本文件,名為:mydict.dic (此處使用的 .dic 并非必須)
在這個文本文件里寫入:
北京XXXX科技有限公司
這樣就添加了一個詞匯。
如果要添加多個,則新起一行:
詞匯一
詞匯二
詞匯三
需要注意的是,這個文件一定要使用 UTF
-
8編碼
4
. 停用詞:
有些詞在文本中出現的頻率非常高,但是對文本所攜帶的信息基本不產生影響,例如英文的
"
a、an、the、of
"
,或中文的
"
的、了、著
"
,以及各種標點符號等,這樣的詞稱為停用詞(stop word)。
文本經過分詞之后,停用詞通常被過濾掉,不會被進行索引。在檢索的時候,用戶的查詢中如果含有停用詞,檢索系統也會將其過濾掉(因為用戶輸入的查詢字符串也要進行分詞處理)。
排除停用詞可以加快建立索引的速度,減小索引庫文件的大小。
IKAnalyzer 中自定義停用詞也非常方便,和配置
"
擴展詞庫
"
操作類型,只需要在 IKAnalyzer.cfg.xml 加入如下配置:
<
entry key
=
"
ext_stopwords
"
>/
ext_stopword.dic
</
entry
>
同樣這個配置也指向了一個文本文件
/
ext_stopword.dic (后綴名任意),格式如下:
也
了
仍
從
本文來自CSDN博客,轉載請標明出處:http:
//
blog.csdn.net/wenlin56/archive/2010/12/13/6074124.aspx
Feedback
#
re: Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
回復
更多評論
2016-07-05 20:08 by
回家看回家看
54544554
刷新評論列表
只有注冊用戶
登錄
后才能發表評論。
相關文章:
Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
網頁解析開源項目
一個 Java 搜索引擎的實現,第 2 部分: 網頁預處理
一個 Java 搜索引擎的實現,第 1 部分: 網絡爬蟲
java 下載網頁
Apache+php+mysql在XP下搭配詳解
MonoDevelop
heritrix1.14.4
tomcatPlugin下載地址
Heritrix-1.14.1怎么配置?
網站導航:
博客園
IT新聞
BlogJava
博問
Chat2DB
管理
Powered by:
C++博客
Copyright © Kevin_Zhang
日歷
<
2011年6月
>
日
一
二
三
四
五
六
29
30
31
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
1
2
3
4
5
6
7
8
9
常用鏈接
我的隨筆
我的評論
我參與的隨筆
隨筆分類
數據庫(1)
ACM基礎知識(9)
ARM(2)
C/C++(12)
DOS(1)
Google Map API
Heritrix(1)
IT News(22)
JAVA(3)
Jsp
Linux(9)
Lucene(1)
PHP(6)
Python
Tree
Trie樹(1)
博弈
動態規劃(1)
回溯
匯編
計算幾何(1)
模擬(4)
排序(2)
嵌入式
數據結構(2)
數論(2)
數學(3)
搜索(2)
搜索引擎(12)
隨機數
貪心(1)
圖論(1)
圖形學(1)
萬花筒(22)
網絡流
硬件(1)
隨筆檔案
2011年6月 (5)
2011年5月 (22)
2011年4月 (24)
2010年12月 (1)
2010年11月 (13)
2010年10月 (7)
2010年9月 (14)
2010年8月 (52)
2010年7月 (9)
文章分類
ACM題目分類(13)
C
C#
C++
DP動態規劃
JAVA
LUNIX
Python
博弈
計算幾何
模擬
數論(1)
搜索(1)
貪心
圖論
文章檔案
2010年8月 (4)
2010年7月 (22)
程序的靈魂--算法
沙場秋點兵,壯士凱歌還
北大POJ
他山之石,可以攻玉
圍觀強人
搜索
最新評論
1.?re: Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞
54544554
--回家看回家看
2.?re: 水
評論內容較長,點擊標題查看
--Jason Huang
3.?re: 10項技能讓前端開發者價值百萬!
評論內容較長,點擊標題查看
--BURKERosie25
4.?re: (轉載)ACM經歷總結[未登錄]
謝謝
--xingyezhi
5.?re: 世界頭號營銷大師們的營銷素質
大道至簡,殊途同歸,值得借鑒。
--Kevin_Zhang
閱讀排行榜
1.?Java動態數組的用法詳解(12226)
2.? Lucene入門級筆記五 -- 分詞器,使用中文分詞器,擴展詞庫,停用詞(3516)
3.?用scanf輸入字符串空格不識別??(2110)
4.?php java交互 php/java bridge (1960)
5.?設置MFC坐標系(1828)
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
99精品免费
|
久久成人免费网
|
欧美激情乱人伦
|
久久资源在线
|
亚洲日本中文
|
亚洲美女啪啪
|
国产精品劲爆视频
|
欧美在线日韩
|
久久久久中文
|
日韩午夜av电影
|
在线视频精品一
|
国产一区二区三区黄
|
看欧美日韩国产
|
欧美成人精品三级在线观看
|
av成人毛片
|
亚洲一区二区四区
|
国产在线精品成人一区二区三区
|
欧美亚洲一区二区三区
|
国产日韩欧美视频
|
欧美成人午夜视频
|
欧美日韩另类一区
|
久久蜜臀精品av
|
欧美精品日本
|
欧美一区二区视频观看视频
|
久久精品动漫
|
一区二区成人精品
|
欧美一区永久视频免费观看
|
亚洲肉体裸体xxxx137
|
亚洲视频在线观看网站
|
亚洲第一福利在线观看
|
一本色道精品久久一区二区三区
|
午夜精品一区二区三区四区
|
亚洲国产清纯
|
午夜国产精品视频
|
99精品欧美
|
久久久久国产精品www
|
在线视频免费在线观看一区二区
|
欧美一区二区免费
|
亚洲视频观看
|
欧美.com
|
久久久国产精品一区二区中文
|
欧美精品久久久久a
|
免费不卡视频
|
国产精品综合网站
|
一本一本久久a久久精品综合麻豆
|
韩国在线一区
|
亚洲欧美国产高清va在线播
|
日韩视频中文
|
欧美18av
|
久久精品首页
|
国产精品毛片
|
亚洲天堂成人在线观看
|
日韩视频在线永久播放
|
免费观看亚洲视频大全
|
久久久久国产精品麻豆ai换脸
|
国产精品久久久一本精品
|
亚洲精品乱码久久久久久
|
影音先锋亚洲一区
|
久久国内精品视频
|
久久久久女教师免费一区
|
国产精品欧美精品
|
一区二区三区视频观看
|
一区二区欧美在线观看
|
欧美日韩国产综合视频在线观看中文
|
久久不射电影网
|
欧美一区二区在线播放
|
国产精品日韩在线
|
制服丝袜亚洲播放
|
亚洲香蕉成视频在线观看
|
欧美日韩精品伦理作品在线免费观看
|
欧美国产精品久久
|
亚洲国内精品
|
欧美二区乱c少妇
|
欧美激情精品久久久
|
亚洲黄色av
|
免费成人av资源网
|
亚洲丰满在线
|
一本久久青青
|
国产精品久久久91
|
午夜国产欧美理论在线播放
|
久久久精品动漫
|
狠狠干综合网
|
欧美xxx成人
|
亚洲精品视频免费
|
亚洲影院免费观看
|
国产免费观看久久黄
|
久久激情婷婷
|
亚洲大胆人体视频
|
一区二区三区国产精品
|
国产精品蜜臀在线观看
|
香蕉久久a毛片
|
欧美高清一区二区
|
亚洲五月婷婷
|
韩国精品主播一区二区在线观看
|
久久综合色婷婷
|
99精品热视频只有精品10
|
欧美中文字幕第一页
|
怡红院av一区二区三区
|
欧美日韩国产综合视频在线观看
|
一区二区三区精品视频在线观看
|
国产在线不卡视频
|
久久亚洲精选
|
在线视频你懂得一区
|
狂野欧美激情性xxxx
|
一区二区日韩免费看
|
国产一区二区三区久久
|
亚洲毛片视频
|
欧美一区二区三区日韩视频
|
亚洲春色另类小说
|
欧美性猛交xxxx乱大交退制版
|
麻豆国产精品va在线观看不卡
|
99精品99
|
国产日韩精品在线
|
欧美精品粉嫩高潮一区二区
|
欧美一级一区
|
亚洲校园激情
|
91久久极品少妇xxxxⅹ软件
|
久久久美女艺术照精彩视频福利播放
|
99成人在线
|
亚洲二区三区四区
|
国产一区二区三区久久久久久久久
|
欧美激情影院
|
蜜臀久久久99精品久久久久久
|
欧美在线看片
|
一区二区三区波多野结衣在线观看
|
韩日成人在线
|
国产欧美va欧美va香蕉在
|
欧美激情第五页
|
久久综合给合久久狠狠色
|
亚洲欧美中日韩
|
亚洲色无码播放
|
亚洲国产高清aⅴ视频
|
久久午夜精品一区二区
|
欧美一级专区免费大片
|
亚洲欧美乱综合
|
亚洲特色特黄
|
亚洲最新中文字幕
|
日韩午夜精品
|
亚洲乱码国产乱码精品精
|
久久免费国产精品1
|
欧美亚洲专区
|
欧美一区二区三区在线播放
|
亚洲欧美日韩另类精品一区二区三区
|
国产一区二区三区观看
|
国产日韩欧美黄色
|
国产人成一区二区三区影院
|
国产欧美日本在线
|
国产欧美一区二区色老头
|
国产偷久久久精品专区
|
国产一区视频在线看
|
国产亚洲人成a一在线v站
|
国模一区二区三区
|
国产亚洲欧美一区二区三区
|
国产综合亚洲精品一区二
|
国内精品视频在线观看
|
尤物九九久久国产精品的特点
|
国产自产v一区二区三区c
|
精品福利av
|
亚洲精品日本
|
亚洲小视频在线观看
|
欧美一区三区二区在线观看
|
久久riav二区三区
|
美女日韩欧美
|
亚洲日韩视频
|
亚洲性图久久
|
久久国产精彩视频
|
免费在线播放第一区高清av
|
欧美激情一区二区三区蜜桃视频
|
欧美日韩亚洲综合一区
|
国产精品一区一区三区
|
怡红院av一区二区三区
|
亚洲麻豆av
|
欧美在线观看日本一区
|
欧美大香线蕉线伊人久久国产精品
|
亚洲盗摄视频
|
亚洲一区视频在线
|
久久久久欧美精品
|
欧美日韩四区
|
黄色精品一区二区
|
一区二区三区四区国产
|
欧美在线影院
|
最新中文字幕一区二区三区
|
在线视频你懂得一区
|
久久久久久久久久久久久女国产乱
|
久久国产精品一区二区
|
欧美国产视频在线
|
亚洲视频免费在线
|
久久日韩精品
|
国产欧美精品日韩精品
|
亚洲韩国一区二区三区
|
欧美亚洲一区二区在线观看
|
亚洲国产精品ⅴa在线观看
|
亚洲一级电影
|
欧美大胆成人
|
影音先锋欧美精品
|
午夜亚洲影视
|
亚洲乱码精品一二三四区日韩在线
|
欧美一级在线亚洲天堂
|
欧美天天视频
|
亚洲美女91
|