• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            Javen-Studio 咖啡小屋

            http://javenstudio.org - C++ Java 分布式 搜索引擎
            Naven's Research Laboratory - Thinking of Life, Imagination of Future

              C++博客 :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理 ::
              24 隨筆 :: 57 文章 :: 170 評論 :: 4 Trackbacks

                  Hawk 搜索引擎平臺是面向中小型網站,可以定制的垂直搜索引擎平臺。本搜索引擎平臺
            目標是方便用戶搭建站內搜索、某個領域的垂直搜索、以及檢索個人文檔以及自己關注的
            網站信息的桌面搜索等應用領域。它改造自Lucene/Hadoop/Nutch系統,是純Java的搜索平臺軟件,
            可以運行于Windows及Linux等平臺。目前發布版本為初始版本Hawk-0.4.35-test版,具備基本的
            抓取、索引和檢索功能,本搜索引擎將免費提供,歡迎大家測試和使用,謝謝!
                  下一個版本將實現可根據語法以及新詞進行分詞的分詞模塊,以及抓取數據的過濾及優化,
            索引的消重等方面,以實現可以應用于實際在線產品的版本。
                  下面介紹本搜索引擎的使用和演示版本

                  1, 下載和安裝
                  a. 請下載Java運行環境,推薦Java SE 1.6版本
                  b. 下載Hawk-0.4.35-test(稍后提供,謝謝)
                  c. 解壓:tar -zxf hawk-0.4.35-test.tar.gz
                  d. 假設Hawk已被解壓到 ~/hawk-0.4.35 目錄,以下敘述以 $HAWK表示

                  2, 配置
                  a. 將Java運行環境的bin目錄添加到系統PATH環境變量中,同時修改$HAWK/conf/hawk-env.sh
            文件設置正確的Java路徑。備注:Java缺省會安裝在/usr/java目錄下
                  b. 也可以將hawk解壓后目錄 $HAWK/bin 添加到PATH環境變量中,方便啟動和停止Hawk服務。
                  c. 修改 $HAWK/conf/hawk-site.xml 文件中的“search.dir”的值為索引數據存放路徑,如
            <property>
              <name>searcher.dir</name>
              <value>/tmp/hawkdb</value>
            </property>

                  d. Hawk系統服務會綁定若干個端口,請查看$HAWK/conf/site.xml,酌情修改

                  3, 訪問
                  a. 啟動Hawk服務:運行 $HAWK/bin/start-hawk.sh 和 $HAWK/bin/start-server.sh 腳本
                  b. 訪問Hawk管理界面(缺省端口為20090),例如:http://localhost:20090/

                  4, 抓取網頁
                  a.  編輯一個文本文件,錄入要抓取網站地址,并放入一個獨立的目錄中,
            如:vi /tmp/test/urls.txt 錄入 http//www.sina.com.cn

                  b. 執行命令:$HAWK/bin/hawk crawl /tmp/test/ -depth 2 (指定抓取深度為2層網頁)

                  
                  c. 點擊管理界面上方的“任務”按鈕,可以監控任務的執行情況,如下

                   d. 完成后控制臺顯示如下所示:


                  5,檢索網頁

             

                  a. 在管理界面的搜索框中輸入要檢索的關鍵詞,點擊“搜索”按鈕,即可查詢到上面
            抓取的網頁,如下所示:


                  到此基本介紹完了搜索引擎平臺的使用步驟,由于還未完成分詞等模塊,所以相關性還不
            盡入如人意,敬請期待,謝謝!


                  作者:naven  2008-02-20
            posted on 2008-02-21 01:29 Javen-Studio 閱讀(850) 評論(3)  編輯 收藏 引用

            評論

            # re: Hawk-0.4.35開發版搜索引擎平臺發布 2008-02-25 10:21 Puserchen
            期待下面的舉措!  回復  更多評論
              

            # re: Hawk-0.4.35開發版搜索引擎平臺發布 2008-03-04 02:44 Connor
            Hello,

            I am Connor Avery and I am interested in your search alot.
            I am Ceo of Crystal Productions and I am offering you the chance to come work alongside me?

            E-Mail me: cjavo@hotmail.co.uk

            Note: I translated this page by google, I do not speak chineese.  回復  更多評論
              

            # re: Hawk-0.4.35開發版搜索引擎平臺發布 2008-03-04 10:21 Javen-Studio
            To Connor, Thanks for your interested in my project, Sorry I dosent plan to go abroad in the near future, but I will persist in this project. thanks for your invitation.  回復  更多評論
              

            中文精品99久久国产| 久久精品亚洲福利| 人妻无码久久一区二区三区免费| 久久精品中文字幕无码绿巨人| 国产精自产拍久久久久久蜜| 人妻无码精品久久亚瑟影视 | 超级碰久久免费公开视频| 婷婷久久综合| 日本精品久久久久中文字幕8| 亚洲日本久久久午夜精品| 国产精品久久久亚洲| 精品久久久久久久久免费影院| 97久久超碰国产精品旧版| 亚洲色欲久久久久综合网| 91精品婷婷国产综合久久| 亚洲av日韩精品久久久久久a| 日韩十八禁一区二区久久| 日韩欧美亚洲综合久久影院d3| 国产69精品久久久久9999APGF| 久久人搡人人玩人妻精品首页| 99久久精品国产麻豆| 亚洲精品无码久久久久去q| 亚洲欧美国产精品专区久久| 日韩亚洲欧美久久久www综合网| 久久人人爽人人爽人人片av高请 | 日韩AV无码久久一区二区 | 亚洲国产成人久久精品影视| 久久久久久九九99精品| 久久亚洲中文字幕精品有坂深雪| 久久夜色精品国产亚洲| 久久精品国产色蜜蜜麻豆| 一日本道伊人久久综合影| 中文字幕无码久久精品青草 | 久久久久久午夜成人影院 | 大伊人青草狠狠久久| 国产V亚洲V天堂无码久久久| 久久综合给久久狠狠97色| 久久精品国产亚洲av麻豆小说| 久久精品无码专区免费青青| 精品久久久久久成人AV| 一级做a爰片久久毛片人呢|