Hawk 搜索引擎平臺是面向中小型網站,可以定制的垂直搜索引擎平臺。本搜索引擎平臺
目標是方便用戶搭建站內搜索、某個領域的垂直搜索、以及檢索個人文檔以及自己關注的
網站信息的桌面搜索等應用領域。它改造自Lucene/Hadoop/Nutch系統,是純Java的搜索平臺軟件,
可以運行于Windows及Linux等平臺。目前發布版本為初始版本Hawk-0.4.35-test版,具備基本的
抓取、索引和檢索功能,本搜索引擎將免費提供,歡迎大家測試和使用,謝謝!
下一個版本將實現可根據語法以及新詞進行分詞的分詞模塊,以及抓取數據的過濾及優化,
索引的消重等方面,以實現可以應用于實際在線產品的版本。
下面介紹本搜索引擎的使用和演示版本:
1, 下載和安裝
a. 請下載Java運行環境,推薦Java SE 1.6版本
b. 下載Hawk-0.4.35-test(稍后提供,謝謝)
c. 解壓:tar -zxf hawk-0.4.35-test.tar.gz
d. 假設Hawk已被解壓到 ~/hawk-0.4.35 目錄,以下敘述以 $HAWK表示
2, 配置
a. 將Java運行環境的bin目錄添加到系統PATH環境變量中,同時修改$HAWK/conf/hawk-env.sh
文件設置正確的Java路徑。備注:Java缺省會安裝在/usr/java目錄下
b. 也可以將hawk解壓后目錄 $HAWK/bin 添加到PATH環境變量中,方便啟動和停止Hawk服務。
c. 修改 $HAWK/conf/hawk-site.xml 文件中的“search.dir”的值為索引數據存放路徑,如
<property>
<name>searcher.dir</name>
<value>/tmp/hawkdb</value>
</property>
d. Hawk系統服務會綁定若干個端口,請查看$HAWK/conf/site.xml,酌情修改
3, 訪問
a. 啟動Hawk服務:運行 $HAWK/bin/start-hawk.sh 和 $HAWK/bin/start-server.sh 腳本
b. 訪問Hawk管理界面(缺省端口為20090),例如:http://localhost:20090/
4, 抓取網頁 a. 編輯一個文本文件,錄入要抓取網站地址,并放入一個獨立的目錄中,
如:vi /tmp/test/urls.txt 錄入 http//www.sina.com.cn
b. 執行命令:$HAWK/bin/hawk crawl /tmp/test/ -depth 2 (指定抓取深度為2層網頁)
c. 點擊管理界面上方的“任務”按鈕,可以監控任務的執行情況,如下
d. 完成后控制臺顯示如下所示:
5,檢索網頁
a. 在管理界面的搜索框中輸入要檢索的關鍵詞,點擊“搜索”按鈕,即可查詢到上面
抓取的網頁,如下所示:
到此基本介紹完了搜索引擎平臺的使用步驟,由于還未完成分詞等模塊,所以相關性還不
盡入如人意,敬請期待,謝謝!
作者:naven 2008-02-20