• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            Javen-Studio 咖啡小屋

            http://javenstudio.org - C++ Java 分布式 搜索引擎
            Naven's Research Laboratory - Thinking of Life, Imagination of Future

              C++博客 :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理 ::
              24 隨筆 :: 57 文章 :: 170 評論 :: 4 Trackbacks

                  Hawk 搜索引擎平臺是面向中小型網站,可以定制的垂直搜索引擎平臺。本搜索引擎平臺
            目標是方便用戶搭建站內搜索、某個領域的垂直搜索、以及檢索個人文檔以及自己關注的
            網站信息的桌面搜索等應用領域。它改造自Lucene/Hadoop/Nutch系統,是純Java的搜索平臺軟件,
            可以運行于Windows及Linux等平臺。目前發布版本為初始版本Hawk-0.4.35-test版,具備基本的
            抓取、索引和檢索功能,本搜索引擎將免費提供,歡迎大家測試和使用,謝謝!
                  下一個版本將實現可根據語法以及新詞進行分詞的分詞模塊,以及抓取數據的過濾及優化,
            索引的消重等方面,以實現可以應用于實際在線產品的版本。
                  下面介紹本搜索引擎的使用和演示版本

                  1, 下載和安裝
                  a. 請下載Java運行環境,推薦Java SE 1.6版本
                  b. 下載Hawk-0.4.35-test(稍后提供,謝謝)
                  c. 解壓:tar -zxf hawk-0.4.35-test.tar.gz
                  d. 假設Hawk已被解壓到 ~/hawk-0.4.35 目錄,以下敘述以 $HAWK表示

                  2, 配置
                  a. 將Java運行環境的bin目錄添加到系統PATH環境變量中,同時修改$HAWK/conf/hawk-env.sh
            文件設置正確的Java路徑。備注:Java缺省會安裝在/usr/java目錄下
                  b. 也可以將hawk解壓后目錄 $HAWK/bin 添加到PATH環境變量中,方便啟動和停止Hawk服務。
                  c. 修改 $HAWK/conf/hawk-site.xml 文件中的“search.dir”的值為索引數據存放路徑,如
            <property>
              <name>searcher.dir</name>
              <value>/tmp/hawkdb</value>
            </property>

                  d. Hawk系統服務會綁定若干個端口,請查看$HAWK/conf/site.xml,酌情修改

                  3, 訪問
                  a. 啟動Hawk服務:運行 $HAWK/bin/start-hawk.sh 和 $HAWK/bin/start-server.sh 腳本
                  b. 訪問Hawk管理界面(缺省端口為20090),例如:http://localhost:20090/

                  4, 抓取網頁
                  a.  編輯一個文本文件,錄入要抓取網站地址,并放入一個獨立的目錄中,
            如:vi /tmp/test/urls.txt 錄入 http//www.sina.com.cn

                  b. 執行命令:$HAWK/bin/hawk crawl /tmp/test/ -depth 2 (指定抓取深度為2層網頁)

                  
                  c. 點擊管理界面上方的“任務”按鈕,可以監控任務的執行情況,如下

                   d. 完成后控制臺顯示如下所示:


                  5,檢索網頁

             

                  a. 在管理界面的搜索框中輸入要檢索的關鍵詞,點擊“搜索”按鈕,即可查詢到上面
            抓取的網頁,如下所示:


                  到此基本介紹完了搜索引擎平臺的使用步驟,由于還未完成分詞等模塊,所以相關性還不
            盡入如人意,敬請期待,謝謝!


                  作者:naven  2008-02-20
            posted on 2008-02-21 01:29 Javen-Studio 閱讀(850) 評論(3)  編輯 收藏 引用

            評論

            # re: Hawk-0.4.35開發版搜索引擎平臺發布 2008-02-25 10:21 Puserchen
            期待下面的舉措!  回復  更多評論
              

            # re: Hawk-0.4.35開發版搜索引擎平臺發布 2008-03-04 02:44 Connor
            Hello,

            I am Connor Avery and I am interested in your search alot.
            I am Ceo of Crystal Productions and I am offering you the chance to come work alongside me?

            E-Mail me: cjavo@hotmail.co.uk

            Note: I translated this page by google, I do not speak chineese.  回復  更多評論
              

            # re: Hawk-0.4.35開發版搜索引擎平臺發布 2008-03-04 10:21 Javen-Studio
            To Connor, Thanks for your interested in my project, Sorry I dosent plan to go abroad in the near future, but I will persist in this project. thanks for your invitation.  回復  更多評論
              

            久久国产乱子伦免费精品| 久久久高清免费视频| 精品久久久久久中文字幕| 国产成人精品久久亚洲| 亚洲精品WWW久久久久久| 日韩精品久久无码人妻中文字幕| 久久久久久久久无码精品亚洲日韩| 久久精品免费观看| 亚洲午夜无码久久久久小说| 大伊人青草狠狠久久| 亚洲v国产v天堂a无码久久| 久久久久人妻精品一区二区三区| 久久福利片| 99久久99久久精品免费看蜜桃| 热RE99久久精品国产66热| 精品久久久久中文字幕日本| 伊人久久精品影院| 精品人妻伦九区久久AAA片69| 久久精品午夜一区二区福利| 手机看片久久高清国产日韩| 国产高潮国产高潮久久久91| 久久婷婷成人综合色综合| 婷婷国产天堂久久综合五月| 久久久久一本毛久久久| 99久久综合狠狠综合久久止| 久久久婷婷五月亚洲97号色| 中文字幕乱码人妻无码久久| 亚洲午夜久久久| 亚洲精品成人网久久久久久| 色播久久人人爽人人爽人人片aV | 久久精品国产99久久香蕉| 久久精品人人做人人爽电影蜜月| 久久精品中文字幕大胸| 思思久久精品在热线热| 漂亮人妻被中出中文字幕久久 | 亚洲AV成人无码久久精品老人| 青青草原综合久久大伊人导航| 欧美久久久久久精选9999| 国产精品久久久天天影视香蕉| 99久久婷婷国产综合精品草原| 久久亚洲国产精品一区二区|