loop_in_codes

低調做技術__歡迎移步我的獨立博客 codemaro.com 微博 kevinlynx

統計

隨筆 - 119
文章 - 0
評論 - 667
引用 - 0

公告

常用鏈接

留言簿(52)

隨筆分類

隨筆檔案

收藏夾

Network Programming(4) (rss)

C++

關注的開源項目

其他關注

fox (rss)
云風

網絡編程

服務器開發 (rss)

我的項目

edge2d
2d游戲引擎 some years before
klcommon
自己的雜亂代碼/資料收集
Lisp開發的博客系統
用Lisp開發的博客系統
luaFeiq
兼容飛秋協議的局域網IM
我的Github (rss)
業余Java/Android
Android
曾經做的小游戲
瘋狂的過去

搜索

積分與排名

積分 - 896793
排名 - 16

閱讀排行榜

評論排行榜

使用erlang實現P2P磁力搜索(開源)

接上回對DHT網絡的研究，我用erlang克隆了一個磁力搜索引擎。我這個實現包含了完整的功能，DHT網絡的加入、infohash的接收、種子的獲取、資源信息的索引、搜索。

如下圖：

screenshot

在我的筆記本上，我開啟了100個DHT節點，大致均勻地分布在DHT網絡里，資源索引速度大概在1小時一萬個左右（包含重復資源）。

這個程序包含三大部分：

DHT實現，kdht，https://github.com/kevinlynx/kdht
基于該DHT實現的搜索引擎，dhtcrawler，https://github.com/kevinlynx/dhtcrawler，該項目包含爬蟲部分和一個簡單的WEB端

這兩個項目總共包含大概2500行的erlang代碼。其中，DHT實現部分將DHT網絡的加入包裝成一個庫，爬蟲部分在搜索種子時，暫時沒有使用P2P里的種子下載方式，而是使用現成的磁力鏈轉種子的網站服務，這樣我只需要使用erlang自帶的HTTP客戶端就可以獲取種子信息。爬蟲在獲取到種子信息后，將數據存儲到mongodb里。WEB端我為了盡量少用第三方庫，我只好使用erlang自帶的HTTP服務器，因此網頁內容的創建沒有模板系統可用，只好通過字符串構建，編寫起來不太方便。

使用

整個程序依賴了兩個庫：bson-erlang和mongodb-erlang，但下載依賴庫的事都可以通過rebar解決，項目文件里我已經包含了rebar的執行程序。我僅在Windows7上測試過，但理論上在所有erlang支持的系統上都可以。

下載安裝mongodb
進入mongodb bin目錄啟動mongodb，數據庫目錄保存在db下，需手動建立該目錄
```
  mongod --dbpath db --setParameter textSearchEnabled=true
```
下載erlang，我使用的是R16B版本
下載dhtcrawler，不需要單獨下載kdht，待會下載依賴項的時候會自動下載
```
  git clone git@github.com:kevinlynx/dhtcrawler.git
```
cmd進入dhtcrawler目錄，下載依賴項前需保證環境變量里有git，例如D:\Program Files (x86)\Git\cmd，需注意不要將bash的目錄加入進來，使用以下命令下載依賴項
```
  rebar get-deps
```
編譯
```
  rebar compile
```
在dhtcrawler目錄下，啟動erlang
```
  erl -pa ebin
```
在erlang shell里運行爬蟲，erlang語句以點號(.)作為結束
```
  crawler_app:start().
```
erlang shell里運行HTTP服務器
```
  crawler_http:start().
```
瀏覽器里輸入localhost:8000/index.html，這個時候還沒有索引到資源，建議監視網絡流量以觀察爬蟲程序是否正確工作

爬蟲程序啟動時會讀取priv/dhtcrawler.config配置文件，該文件里配置了DHT節點的UDP監聽端口、節點數量、數據庫地址等，可自行配置。

接下來我會談談各部分的實現方法。

posted on 2013-06-20 14:44 Kevin Lynx 閱讀(7875) 評論(9) 編輯收藏引用所屬分類: network 、erlang

F:\Program Files\dhtcrawler-master>rebar get-deps
==> dhtcrawler-master (get-deps)
Uncaught error in rebar_core: {'EXIT',
{badarg,
[{re,split,
[[84,69,83,83,68,65,84,65,95,80,82,69,70,73,
88,61,70,58,92,28779,36710,22836,20225,
19994,29256,92,83,121,115,116,101,109,92,
116,101,115,115,100,97,116,97,92],
"=",
[{return,list},{parts,2}]],
[{file,"re.erl"},{line,154}]},
{rebar_port_compiler,'-os_env/0-lc$^0/1-0-',
1,[]},
{rebar_port_compiler,'-os_env/0-lc$^0/1-0-',
1,[]},
{rebar_port_compiler,os_env,0,[]},
{rebar_port_compiler,setup_env,1,[]},
{rebar_core,'-setup_envs/2-lc$^0/1-0-',2,[]},
{rebar_core,setup_envs,2,[]},
{rebar_core,execute,4,[]}]}}
我在本地運行rebar get-deps出現這個錯誤，樓主幫忙看下是什么問題啊？沒玩過，不知道怎么弄。回復更多評論

# re: 使用erlang實現P2P磁力搜索(開源) 2015-08-11 17:28 DHTSEEK

DHTSEEK百度收錄100多萬頁面啦，目前系統已開源，歡迎下載，地址 http://dwz.cn/1gL7Bl 回復更多評論

# re: 使用erlang實現P2P磁力搜索(開源) 2015-08-11 17:29 DHTSEEK

@于濤
DHTSEEK百度收錄100多萬頁面啦，目前系統已開源，歡迎下載，地址 http://dwz.cn/1gL7Bl 回復更多評論

# re: 使用erlang實現P2P磁力搜索(開源) 2016-03-04 16:35 蝦米

@DHTSEEK
無法購買啊 ·· 回復更多評論

刷新評論列表

只有注冊用戶登錄后才能發表評論。


相關文章: 圖解zookeeper FastLeader選舉算法圖解分布式一致性協議Paxos 淘寶分布式配置管理服務Diamond zookeeper節點數與watch的性能測試分布式環境中的負載均衡策略 select真的有限制嗎 Muduo源碼閱讀 Dhtcrawler2換用sphinx搜索磁力搜索第二版-dhtcrawler2 使用erlang實現P2P磁力搜索-實現

網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

# re: 使用erlang實現P2P磁力搜索(開源) 2014-01-19 11:28 蘇堤

# re: 使用erlang實現P2P磁力搜索(開源) 2014-03-18 22:46 磁力搜索

# re: 使用erlang實現P2P磁力搜索(開源) 2014-08-05 21:07 taojiaen

# re: 使用erlang實現P2P磁力搜索(開源) 2014-12-01 10:36 DHTSEEK

# re: 使用erlang實現P2P磁力搜索(開源) 2014-12-04 20:46 于濤

# re: 使用erlang實現P2P磁力搜索(開源) 2015-01-17 11:28 Rebar