• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            Javen-Studio 咖啡小屋

            http://javenstudio.org - C++ Java 分布式 搜索引擎
            Naven's Research Laboratory - Thinking of Life, Imagination of Future

              C++博客 :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理 ::
              24 隨筆 :: 57 文章 :: 170 評論 :: 4 Trackbacks

                  Hawk 搜索引擎平臺是面向中小型網站,可以定制的垂直搜索引擎平臺。本搜索引擎平臺
            目標是方便用戶搭建站內搜索、某個領域的垂直搜索、以及檢索個人文檔以及自己關注的
            網站信息的桌面搜索等應用領域。它改造自Lucene/Hadoop/Nutch系統,是純Java的搜索平臺軟件,
            可以運行于Windows及Linux等平臺。目前發布版本為初始版本Hawk-0.4.35-test版,具備基本的
            抓取、索引和檢索功能,本搜索引擎將免費提供,歡迎大家測試和使用,謝謝!
                  下一個版本將實現可根據語法以及新詞進行分詞的分詞模塊,以及抓取數據的過濾及優化,
            索引的消重等方面,以實現可以應用于實際在線產品的版本。
                  下面介紹本搜索引擎的使用和演示版本

                  1, 下載和安裝
                  a. 請下載Java運行環境,推薦Java SE 1.6版本
                  b. 下載Hawk-0.4.35-test(稍后提供,謝謝)
                  c. 解壓:tar -zxf hawk-0.4.35-test.tar.gz
                  d. 假設Hawk已被解壓到 ~/hawk-0.4.35 目錄,以下敘述以 $HAWK表示

                  2, 配置
                  a. 將Java運行環境的bin目錄添加到系統PATH環境變量中,同時修改$HAWK/conf/hawk-env.sh
            文件設置正確的Java路徑。備注:Java缺省會安裝在/usr/java目錄下
                  b. 也可以將hawk解壓后目錄 $HAWK/bin 添加到PATH環境變量中,方便啟動和停止Hawk服務。
                  c. 修改 $HAWK/conf/hawk-site.xml 文件中的“search.dir”的值為索引數據存放路徑,如
            <property>
              <name>searcher.dir</name>
              <value>/tmp/hawkdb</value>
            </property>

                  d. Hawk系統服務會綁定若干個端口,請查看$HAWK/conf/site.xml,酌情修改

                  3, 訪問
                  a. 啟動Hawk服務:運行 $HAWK/bin/start-hawk.sh 和 $HAWK/bin/start-server.sh 腳本
                  b. 訪問Hawk管理界面(缺省端口為20090),例如:http://localhost:20090/

                  4, 抓取網頁
                  a.  編輯一個文本文件,錄入要抓取網站地址,并放入一個獨立的目錄中,
            如:vi /tmp/test/urls.txt 錄入 http//www.sina.com.cn

                  b. 執行命令:$HAWK/bin/hawk crawl /tmp/test/ -depth 2 (指定抓取深度為2層網頁)

                  
                  c. 點擊管理界面上方的“任務”按鈕,可以監控任務的執行情況,如下

                   d. 完成后控制臺顯示如下所示:


                  5,檢索網頁

             

                  a. 在管理界面的搜索框中輸入要檢索的關鍵詞,點擊“搜索”按鈕,即可查詢到上面
            抓取的網頁,如下所示:


                  到此基本介紹完了搜索引擎平臺的使用步驟,由于還未完成分詞等模塊,所以相關性還不
            盡入如人意,敬請期待,謝謝!


                  作者:naven  2008-02-20
            posted on 2008-02-21 01:29 Javen-Studio 閱讀(850) 評論(3)  編輯 收藏 引用

            評論

            # re: Hawk-0.4.35開發版搜索引擎平臺發布 2008-02-25 10:21 Puserchen
            期待下面的舉措!  回復  更多評論
              

            # re: Hawk-0.4.35開發版搜索引擎平臺發布 2008-03-04 02:44 Connor
            Hello,

            I am Connor Avery and I am interested in your search alot.
            I am Ceo of Crystal Productions and I am offering you the chance to come work alongside me?

            E-Mail me: cjavo@hotmail.co.uk

            Note: I translated this page by google, I do not speak chineese.  回復  更多評論
              

            # re: Hawk-0.4.35開發版搜索引擎平臺發布 2008-03-04 10:21 Javen-Studio
            To Connor, Thanks for your interested in my project, Sorry I dosent plan to go abroad in the near future, but I will persist in this project. thanks for your invitation.  回復  更多評論
              

            人妻无码精品久久亚瑟影视| 久久国产成人精品麻豆| 国产成人久久精品二区三区| 久久综合九色综合久99| 日韩欧美亚洲综合久久影院d3| 国产免费久久久久久无码| 久久男人AV资源网站| 人妻精品久久久久中文字幕69| 国产精品久久久久影院嫩草 | 精品久久久久久无码中文字幕| 国产午夜精品久久久久九九电影 | 久久久久免费精品国产| 久久99精品久久久大学生| 99久久www免费人成精品 | 国产精品一久久香蕉产线看 | 中文精品99久久国产| 久久精品国产99久久久| 久久综合九色综合久99| 99久久国产综合精品麻豆| 久久国产劲爆AV内射—百度| 久久综合九色综合久99| 久久久久亚洲av无码专区| 亚洲人成电影网站久久| 久久精品国产黑森林| 99久久亚洲综合精品成人| 色综合久久久久久久久五月| 四虎国产精品成人免费久久| 狠狠久久综合| 久久成人精品| 国产精品青草久久久久福利99| 久久99精品国产自在现线小黄鸭| 欧美粉嫩小泬久久久久久久| 久久成人永久免费播放| 国内精品久久久久久久涩爱 | 国产精品免费久久久久影院| 国产亚洲欧美精品久久久| 色欲综合久久中文字幕网| 亚洲va久久久噜噜噜久久天堂| 久久久久se色偷偷亚洲精品av| 一本一本久久a久久精品综合麻豆| 观看 国产综合久久久久鬼色 欧美 亚洲 一区二区 |