Hawk 搜索引擎平臺(tái)是面向中小型網(wǎng)站,可以定制的垂直搜索引擎平臺(tái)。本搜索引擎平臺(tái)
目標(biāo)是方便用戶搭建站內(nèi)搜索、某個(gè)領(lǐng)域的垂直搜索、以及檢索個(gè)人文檔以及自己關(guān)注的
網(wǎng)站信息的桌面搜索等應(yīng)用領(lǐng)域。它改造自Lucene/Hadoop/Nutch系統(tǒng),是純Java的搜索平臺(tái)軟件,
可以運(yùn)行于Windows及Linux等平臺(tái)。目前發(fā)布版本為初始版本Hawk-0.4.35-test版,具備基本的
抓取、索引和檢索功能,本搜索引擎將免費(fèi)提供,歡迎大家測(cè)試和使用,謝謝!
下一個(gè)版本將實(shí)現(xiàn)可根據(jù)語(yǔ)法以及新詞進(jìn)行分詞的分詞模塊,以及抓取數(shù)據(jù)的過(guò)濾及優(yōu)化,
索引的消重等方面,以實(shí)現(xiàn)可以應(yīng)用于實(shí)際在線產(chǎn)品的版本。
下面介紹本搜索引擎的使用和演示版本:
1, 下載和安裝
a. 請(qǐng)下載Java運(yùn)行環(huán)境,推薦Java SE 1.6版本
b. 下載Hawk-0.4.35-test(稍后提供,謝謝)
c. 解壓:tar -zxf hawk-0.4.35-test.tar.gz
d. 假設(shè)Hawk已被解壓到 ~/hawk-0.4.35 目錄,以下敘述以 $HAWK表示
2, 配置
a. 將Java運(yùn)行環(huán)境的bin目錄添加到系統(tǒng)PATH環(huán)境變量中,同時(shí)修改$HAWK/conf/hawk-env.sh
文件設(shè)置正確的Java路徑。備注:Java缺省會(huì)安裝在/usr/java目錄下
b. 也可以將hawk解壓后目錄 $HAWK/bin 添加到PATH環(huán)境變量中,方便啟動(dòng)和停止Hawk服務(wù)。
c. 修改 $HAWK/conf/hawk-site.xml 文件中的“search.dir”的值為索引數(shù)據(jù)存放路徑,如
<property>
<name>searcher.dir</name>
<value>/tmp/hawkdb</value>
</property>
d. Hawk系統(tǒng)服務(wù)會(huì)綁定若干個(gè)端口,請(qǐng)查看$HAWK/conf/site.xml,酌情修改
3, 訪問(wèn)
a. 啟動(dòng)Hawk服務(wù):運(yùn)行 $HAWK/bin/start-hawk.sh 和 $HAWK/bin/start-server.sh 腳本
b. 訪問(wèn)Hawk管理界面(缺省端口為20090),例如:http://localhost:20090/

4, 抓取網(wǎng)頁(yè) a. 編輯一個(gè)文本文件,錄入要抓取網(wǎng)站地址,并放入一個(gè)獨(dú)立的目錄中,
如:vi /tmp/test/urls.txt 錄入 http//www.sina.com.cn
b. 執(zhí)行命令:$HAWK/bin/hawk crawl /tmp/test/ -depth 2 (指定抓取深度為2層網(wǎng)頁(yè))
c. 點(diǎn)擊管理界面上方的“任務(wù)”按鈕,可以監(jiān)控任務(wù)的執(zhí)行情況,如下
d. 完成后控制臺(tái)顯示如下所示:
5,檢索網(wǎng)頁(yè)
a. 在管理界面的搜索框中輸入要檢索的關(guān)鍵詞,點(diǎn)擊“搜索”按鈕,即可查詢到上面
抓取的網(wǎng)頁(yè),如下所示:
到此基本介紹完了搜索引擎平臺(tái)的使用步驟,由于還未完成分詞等模塊,所以相關(guān)性還不
盡入如人意,敬請(qǐng)期待,謝謝!
作者:naven 2008-02-20