亚洲影院色在线观看免费,国产欧美日韩,欧美日韩ab

接上篇，本篇談?wù)勔恍?shí)現(xiàn)細(xì)節(jié)。

這個(gè)爬蟲(chóng)程序主要的問(wèn)題在于如何獲取P2P網(wǎng)絡(luò)中分享的資源，獲取到資源后索引到數(shù)據(jù)庫(kù)中，搜索就是自然而然的事情。

DHT

DHT網(wǎng)絡(luò)本質(zhì)上是一個(gè)用于查詢的網(wǎng)絡(luò)，其用于查詢一個(gè)資源有哪些計(jì)算機(jī)正在下載。每個(gè)資源都有一個(gè)20字節(jié)長(zhǎng)度的ID用于標(biāo)示，稱為infohash。當(dāng)一個(gè)程序作為DHT節(jié)點(diǎn)加入這個(gè)網(wǎng)絡(luò)時(shí)，就會(huì)有其他節(jié)點(diǎn)來(lái)向你查詢，當(dāng)你做出回應(yīng)后，對(duì)方就會(huì)記錄下你。對(duì)方還會(huì)詢問(wèn)其他節(jié)點(diǎn)，當(dāng)對(duì)方開(kāi)始下載這個(gè)infohash對(duì)應(yīng)的資源時(shí)，他就會(huì)告訴所有曾經(jīng)詢問(wèn)過(guò)的節(jié)點(diǎn)，包括你。這個(gè)時(shí)候就可以確定，這個(gè)infohash對(duì)應(yīng)的資源在這個(gè)網(wǎng)絡(luò)中是有效的。

關(guān)于這個(gè)網(wǎng)絡(luò)的工作原理，參看：P2P中DHT網(wǎng)絡(luò)爬蟲(chóng)以及寫(xiě)了個(gè)磁力搜索的網(wǎng)頁(yè)。

獲取到infohash后能做什么？關(guān)鍵點(diǎn)在于，我們現(xiàn)在使用的磁力鏈接(magnet url)，是和infohash對(duì)應(yīng)起來(lái)的。也就是拿到infohash，就等于拿到一個(gè)磁力鏈接。但是這個(gè)爬蟲(chóng)還需要建立資源的信息，這些信息來(lái)源于種子文件。種子文件其實(shí)也是對(duì)應(yīng)到一個(gè)資源，種子文件包含資源名、描述、文件列表、文件大小等信息。獲取到infohash時(shí)，其實(shí)也獲取到了對(duì)應(yīng)的計(jì)算機(jī)地址，我們可以在這些計(jì)算機(jī)上下載到對(duì)應(yīng)的種子文件。

但是我為了簡(jiǎn)單，在獲取到infohash后，從一些提供映射磁力鏈到種子文件服務(wù)的網(wǎng)站上直接下載了對(duì)應(yīng)的種子。dhtcrawler里使用了以下網(wǎng)站：

http://torrage.com
https://zoink.it
http://bt.box.n0808.com

使用這些網(wǎng)站時(shí)，需提供磁力哈希（infohash可直接轉(zhuǎn)換），構(gòu)建特定的URL，發(fā)出HTTP請(qǐng)求即可。

   U1 = "http://torrage.com/torrent/" ++ MagHash ++ ".torrent",
    U2 = "https://zoink.it/torrent/" ++ MagHash ++ ".torrent",
    U3 = format_btbox_url(MagHash),

format_btbox_url(MagHash) ->
    H = lists:sublist(MagHash, 2),
    T = lists:nthtail(38, MagHash),
    "http://bt.box.n0808.com/" ++ H ++ "/" ++ T ++ "/" ++ MagHash ++ ".torrent".

但是，以一個(gè)節(jié)點(diǎn)的身份加入DHT網(wǎng)絡(luò)，是無(wú)法獲取大量查詢的。在DHT網(wǎng)絡(luò)中，每個(gè)節(jié)點(diǎn)都有一個(gè)ID。每個(gè)節(jié)點(diǎn)在查詢信息時(shí)，僅詢問(wèn)離信息較近的節(jié)點(diǎn)。這里的信息除了infohash外還包含節(jié)點(diǎn)，即節(jié)點(diǎn)詢問(wèn)一個(gè)節(jié)點(diǎn)，這個(gè)節(jié)點(diǎn)在哪里。DHT的典型實(shí)現(xiàn)中（Kademlia），使用兩個(gè)ID的xor操作來(lái)確定距離。既然距離的計(jì)算是基于ID的，為了盡可能獲取整個(gè)DHT網(wǎng)絡(luò)交換的信息，爬蟲(chóng)程序就可以建立盡可能多的DHT節(jié)點(diǎn)，讓這些節(jié)點(diǎn)的ID均勻地分布在ID取值區(qū)間內(nèi)，以這樣的方式加入網(wǎng)絡(luò)。

在dhtcrawler中，我使用以下方式產(chǎn)生了N個(gè)大致均勻分布的ID：

create_discrete_ids(1) ->
    [dht_id:random()];
create_discrete_ids(Count) ->
    Max = dht_id:max(),
    Piece = Max div Count,
    [random:uniform(Piece) + Index * Piece || Index <- lists:seq(0, Count - 1)].

除了盡可能多地往DHT網(wǎng)絡(luò)里部署節(jié)點(diǎn)之外，對(duì)單個(gè)節(jié)點(diǎn)而言，也有些注意事項(xiàng)。例如應(yīng)盡可能快地將自己告訴盡可能多的節(jié)點(diǎn)，這可以在啟動(dòng)時(shí)進(jìn)行大量的隨機(jī)infohash的查詢。隨著查詢過(guò)程的深入，該節(jié)點(diǎn)會(huì)與更多的節(jié)點(diǎn)打交道。因?yàn)镈HT網(wǎng)絡(luò)里的節(jié)點(diǎn)實(shí)際上是不穩(wěn)定的，它今天在線，明天后天可能不在線，所以計(jì)算你的ID固定，哪些節(jié)點(diǎn)與你較近，本身就是個(gè)相對(duì)概念。節(jié)點(diǎn)在程序退出時(shí)，也最好將自己的路由信息（與自己交互的節(jié)點(diǎn)列表）保存起來(lái)，這樣下次啟動(dòng)時(shí)就可以更快地加入網(wǎng)絡(luò)。

在dhtcrawler的實(shí)現(xiàn)中，每個(gè)節(jié)點(diǎn)每個(gè)一定時(shí)間，都會(huì)向網(wǎng)絡(luò)中隨機(jī)查詢一個(gè)infohash，這個(gè)infohash是隨機(jī)產(chǎn)生的。其查詢目的不在于infohash，而在于告訴更多的節(jié)點(diǎn)，以及在其他節(jié)點(diǎn)上保持自己的活躍。

handle_event(startup, {MyID}) ->
    timer:apply_interval(?QUERY_INTERVAL, ?MODULE, start_tell_more_nodes, [MyID]).

start_tell_more_nodes(MyID) ->
    spawn(?MODULE, tell_more_nodes, [MyID]).

tell_more_nodes(MyID) ->
    [search:get_peers(MyID, dht_id:random()) || _ <- lists:seq(1, 3)].

DHT節(jié)點(diǎn)的完整實(shí)現(xiàn)是比較繁瑣的，涉及到查詢以及繁雜的各種對(duì)象的超時(shí)（節(jié)點(diǎn)、桶、infohash），而超時(shí)的處理并不是粗暴地做刪除操作。因?yàn)楸旧硎腔赨DP協(xié)議，你得對(duì)這些超時(shí)對(duì)象做進(jìn)一步的查詢才能正確地進(jìn)一步做其他事情。而搜索也是個(gè)繁雜的事情，遞歸地查詢節(jié)點(diǎn)，感覺(jué)上，你不一定離目標(biāo)越來(lái)越近，由于被查詢節(jié)點(diǎn)的不確定性（無(wú)法確定對(duì)方是否在玩弄你，或者本身對(duì)方就是個(gè)傻逼），你很可能接下來(lái)要查詢的節(jié)點(diǎn)反而離目標(biāo)變遠(yuǎn)了。

在我第一次的DHT實(shí)現(xiàn)中，我使用了類似transmission里DHT實(shí)現(xiàn)的方法，不斷無(wú)腦遞歸，當(dāng)搜索有太久時(shí)間沒(méi)得到響應(yīng)后終止搜索。第二次實(shí)現(xiàn)時(shí)，我就使用了etorrent里的實(shí)現(xiàn)。這個(gè)搜索更聰明，它記錄搜索過(guò)的節(jié)點(diǎn)，并且檢查是否離目標(biāo)越來(lái)越遠(yuǎn)。當(dāng)遠(yuǎn)離目標(biāo)時(shí)，就認(rèn)為搜索是不太有效的，不太有效的搜索嘗試幾次就可以放棄。

實(shí)際上，爬蟲(chóng)的實(shí)現(xiàn)并不需要完整地實(shí)現(xiàn)DHT節(jié)點(diǎn)的正常功能。爬蟲(chóng)作為一個(gè)DHT節(jié)點(diǎn)的唯一動(dòng)機(jī)僅是獲取網(wǎng)絡(luò)里其他節(jié)點(diǎn)的查詢。而要完成這個(gè)功能，你只需要裝得像個(gè)正常人就行。這里不需要保存infohash對(duì)應(yīng)的peer列表，面臨每一次查詢，你隨便回復(fù)幾個(gè)節(jié)點(diǎn)地址就可以。但是這里有個(gè)責(zé)任問(wèn)題，如果整個(gè)DHT網(wǎng)絡(luò)有2000個(gè)節(jié)點(diǎn)，而你這個(gè)爬蟲(chóng)就有1000個(gè)節(jié)點(diǎn)，那么你的隨意回復(fù)，就可能導(dǎo)致對(duì)方根本找不到正確的信息，這樣你依然得不到有效的資源。（可以利用這一點(diǎn)破壞DHT網(wǎng)絡(luò)）

DHT的實(shí)現(xiàn)沒(méi)有使用第三方庫(kù)。

種子

種子文件的格式同DHT網(wǎng)絡(luò)消息格式一樣，使用一種稱為bencode的文本格式來(lái)編碼。種子文件分為兩類：?jiǎn)蝹€(gè)文件和多個(gè)文件。

文件的信息無(wú)非就是文件名、大小。文件名可能包含utf8編碼的名字，為了后面處理的方便，dhtcrawler都會(huì)優(yōu)先使用utf8編碼。

   {ok, {dict, Info}} = dict:find(<<"info">>, TD),
    case type(Info) of
        single -> {single, parse_single(Info)};
        multi -> {multi, parse_multi(Info)}
    end.
parse_single(Info) ->
    Name = read_string("name", Info),
    {ok, Length} = dict:find(<<"length">>, Info),
    {Name, Length}.

parse_multi(Info) ->
    Root = read_string("name", Info),
    {ok, {list, Files}} = dict:find(<<"files">>, Info),
    FileInfo = [parse_file_item(Item) || {dict, Item} <- Files],
    {Root, FileInfo}.

數(shù)據(jù)庫(kù)

我最開(kāi)始在選用數(shù)據(jù)庫(kù)時(shí)，為了不使用第三方庫(kù)，打算使用erlang自帶的mnesia。但是因?yàn)樯婕暗阶址ヅ渌阉鳎琺nesia的查詢語(yǔ)句在我看來(lái)太不友好，在經(jīng)過(guò)一些資料查閱后就直接放棄了。

然后我打算使用couchdb，因?yàn)樗莈rlang寫(xiě)的，而我正在用erlang寫(xiě)程序。第一次接觸非關(guān)系型數(shù)據(jù)庫(kù)，發(fā)現(xiàn)NoSQL數(shù)據(jù)庫(kù)使用起來(lái)比SQL類的簡(jiǎn)單多了。但是在erlang里要使用couchdb實(shí)在太折騰了。我使用的客戶端庫(kù)是couchbeam。

因?yàn)閏ouchdb暴露的API都是基于HTTP協(xié)議的，其數(shù)據(jù)格式使用了json，所以couchbeam實(shí)際上就是對(duì)各種HTTP請(qǐng)求、回應(yīng)和json的包裝。但是它竟然使用了ibrowse這個(gè)第三方HTTP客戶端庫(kù)，而不是erlang自帶的。ibrowse又使用了jiffy這個(gè)解析json的庫(kù)。這個(gè)庫(kù)更慘烈的是它的解析工作都是交給C語(yǔ)言寫(xiě)的動(dòng)態(tài)庫(kù)來(lái)完成，我還得編譯那個(gè)C庫(kù)。

couchdb看起來(lái)不支持字符串查詢，我得自己創(chuàng)建一個(gè)view，這個(gè)view里我通過(guò)翻閱了一些資料寫(xiě)了一個(gè)將每個(gè)doc的name拆分成若干次查詢結(jié)果的map。這個(gè)map在處理每一次查詢時(shí)，我都得動(dòng)態(tài)更新之。couchdb是不支持局部更新的，這還不算大問(wèn)題。然后很高興，終于支持字符串查詢了。這里的字符串查詢都是基于字符串的子串查詢。但是問(wèn)題在于，太慢了。每一次在WEB端的查詢，都直接導(dǎo)致erlang進(jìn)程的call超時(shí)。

要讓couchdb支持字符串查詢，要快速，當(dāng)然是有解決方案的。但是這個(gè)時(shí)候我已經(jīng)沒(méi)有心思繼續(xù)折騰，任何一個(gè)庫(kù)、程序如果接口設(shè)計(jì)得如此不方便，那就可以考慮換一個(gè)其他的。

我選擇了mongodb。同樣的基于文檔的數(shù)據(jù)庫(kù)。2.4版本還支持全文搜索。什么是全文搜索呢，這是一種基于單詞的全文搜索方式。hello world我可以搜索hello，基于單詞。mongodb會(huì)自動(dòng)拆詞。更關(guān)鍵更讓人爽的是，要開(kāi)啟這個(gè)功能非常簡(jiǎn)單：設(shè)置啟動(dòng)參數(shù)、建立索引。沒(méi)了。mongodb的erlang客戶端庫(kù)mongodb-erlang也只依賴一個(gè)bson-erlang庫(kù)。然后我又埋頭苦干，幾個(gè)小時(shí)候我的這個(gè)爬蟲(chóng)程序就可以在瀏覽器端搜索關(guān)鍵字了。

后來(lái)我發(fā)現(xiàn)，mongodb的全文搜索是不支持中文的。因?yàn)樗€不知道中文該怎么拆詞。恰好我有個(gè)同事做過(guò)中文拆詞的研究，看起來(lái)涉及到很復(fù)雜的算法。直到這個(gè)時(shí)候，我他媽才醒悟，我為什么需要基于單詞的搜索。我們大部分的搜索其實(shí)都是基于子字符串的搜索。

于是，我將種子文件的名字拆分成了若干個(gè)子字符串，將這些子字符串以數(shù)組的形式作為種子文檔的一個(gè)鍵值存儲(chǔ)，而我依然還可以使用全文索引，因?yàn)槿乃饕龝?huì)將整個(gè)字符串作為單詞比較。實(shí)際上，基于一般的查詢方式也是可以的。當(dāng)然，索引還是得建立。

使用mongodb時(shí)唯一讓我很不爽的是mongodb-erlang這個(gè)客戶端庫(kù)的文檔太欠缺。這還不算大問(wèn)題，因?yàn)榭纯丛创a參數(shù)還是可以大概猜到用法。真正悲劇的是mongodb的有些查詢功能它是不支持的。例如通過(guò)cursor來(lái)排序來(lái)限制數(shù)量。在cursor模塊并沒(méi)有對(duì)應(yīng)的mongodb接口。最終我只好通過(guò)以下方式查詢，我不明白batchsize，但它可以工作：

search_announce_top(Conn, Count) ->
    Sel = {'$query', {}, '$orderby', {announce, -1}},
    List = mongo_do(Conn, fun() ->
        Cursor = mongo:find(?COLLNAME, Sel, [], 0, Count), 
        mongo_cursor:rest(Cursor)
    end),
    [decode_torrent_item(Item) || Item <- List].

另一個(gè)悲劇的是，mongodb-erlang還不支持文檔的局部更新，它的update接口直接要求傳入整個(gè)文檔。幾經(jīng)折騰，我可以通過(guò)runCommand來(lái)完成：

inc_announce(Conn, Hash) when is_list(Hash) ->
    Cmd = {findAndModify, ?COLLNAME, query, {'_id', list_to_binary(Hash)}, 
        update, {'$inc', {announce, 1}},
        new, true},
    Ret = mongo_do(Conn, fun() ->
        mongo:command(Cmd)
    end).

Unicode

不知道在哪里我看到過(guò)erlang說(shuō)自己其實(shí)是不需要支持unicode的，因?yàn)檫@門(mén)語(yǔ)言本身是通過(guò)list來(lái)模擬字符串。對(duì)于unicode而言，對(duì)應(yīng)的list保存的本身就是整數(shù)值。但是為了方便處理，erlang還是提供了一些unicode操作的接口。

因?yàn)槲倚枰獙⒎N子的名字按字拆分，對(duì)于a中文這樣的字符串而言，我需要拆分成以下結(jié)果：

a
a中
a中文
中
中文
文

那么，在erlang中當(dāng)我獲取到一個(gè)字符串list時(shí)，我就需要知道哪幾個(gè)整數(shù)合起來(lái)實(shí)際上對(duì)應(yīng)著一個(gè)漢字。erlang里unicode模塊里有幾個(gè)函數(shù)可以將unicode字符串list對(duì)應(yīng)的整數(shù)合起來(lái)，例如：[111, 222, 333]可能表示的是一個(gè)漢字，將其轉(zhuǎn)換以下可得到[111222333]這樣的形式。

split(Str) when is_list(Str) ->
    B = list_to_binary(Str), % 必須轉(zhuǎn)換為binary
    case unicode:characters_to_list(B) of
        {error, L, D} ->
            {error, L, D};
        {incomplete, L, D} ->
            {incomplete, L, D};
        UL ->
        {ok, subsplit(UL)}
    end.

subsplit([]) ->
    [];

subsplit(L) ->
    [_|R] = L,
    {PreL, _} = lists:splitwith(fun(Ch) -> not is_spliter(Ch) end, L),
    [unicode:characters_to_binary(lists:sublist(PreL, Len)) 
        || Len <- lists:seq(1, length(PreL))] ++ subsplit(R).

除了這里的拆字之外，URL的編碼、數(shù)據(jù)庫(kù)的存儲(chǔ)都還好，沒(méi)遇到問(wèn)題。

注意，以上針對(duì)數(shù)據(jù)庫(kù)本身的吐槽，完全基于我不熟悉該數(shù)據(jù)庫(kù)的情況下，不建議作為你工具選擇的參考。

erlang的穩(wěn)定性

都說(shuō)可以用erlang來(lái)編寫(xiě)高容錯(cuò)的服務(wù)器程序。看看它的supervisor，監(jiān)視子進(jìn)程，自動(dòng)重啟子進(jìn)程。天生的容錯(cuò)功能，就算你宕個(gè)幾次，單個(gè)進(jìn)程自動(dòng)重啟，整個(gè)程序看起來(lái)還穩(wěn)健地在運(yùn)行，多牛逼啊。再看看erlang的進(jìn)程，輕量級(jí)的語(yǔ)言特性，就像OOP語(yǔ)言里的一個(gè)對(duì)象一樣輕量。如果說(shuō)使用OOP語(yǔ)言寫(xiě)程序得think in object，那用erlang你就得think in process，多牛逼多駭人啊。

實(shí)際上，以我的經(jīng)驗(yàn)來(lái)看，你還得以傳統(tǒng)的思維去看待erlang的進(jìn)程。一些多線程程序里的問(wèn)題，在erlang的進(jìn)程環(huán)境中依然存在，例如死鎖。

在erlang中，對(duì)于一些異步操作，你可以通過(guò)進(jìn)程間的交互將這個(gè)操作包裝成同步接口，例如ping的實(shí)現(xiàn)，可以等到對(duì)方回應(yīng)之后再返回。被阻塞的進(jìn)程反正很輕量，其包含的邏輯很單一。這不但是一種良好的包裝，甚至可以說(shuō)是一種erlang-style。但這很容易帶來(lái)死鎖。在最開(kāi)始的時(shí)候我沒(méi)有注意這個(gè)問(wèn)題，當(dāng)爬蟲(chóng)節(jié)點(diǎn)數(shù)上升的時(shí)候，網(wǎng)絡(luò)數(shù)據(jù)復(fù)雜的時(shí)候，似乎就出現(xiàn)了死鎖型宕機(jī)（進(jìn)程互相等待太久，直接timeout）。

另一個(gè)容易在多進(jìn)程環(huán)境下出現(xiàn)的問(wèn)題就是消息依賴的上下文改變問(wèn)題。當(dāng)投遞一個(gè)消息到某個(gè)進(jìn)程，到這個(gè)消息被處理之前，這段時(shí)間這個(gè)消息關(guān)聯(lián)的邏輯運(yùn)算所依賴的上下文環(huán)境改變了，例如某個(gè)ets元素不見(jiàn)了，在處理這個(gè)消息時(shí)，你還得以多線程編程的思維來(lái)編寫(xiě)代碼。

至于supervisor，這玩意你得端正態(tài)度。它不是用來(lái)包容你的傻逼錯(cuò)誤的。當(dāng)你寫(xiě)下傻逼代碼導(dǎo)致進(jìn)程頻繁崩潰的時(shí)候，supervisor屁用沒(méi)有。supervisor的唯一作用，僅僅是在一個(gè)確實(shí)本身可靠的系統(tǒng)，確實(shí)人品問(wèn)題萬(wàn)分之一崩潰了，重啟它。畢竟，一個(gè)重啟頻率的推薦值，是一個(gè)小時(shí)4次。

只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。
【推薦】100%開(kāi)源！大型工業(yè)跨平臺(tái)軟件C++源碼提供，建模，組態(tài)！

相關(guān)文章: 圖解zookeeper FastLeader選舉算法圖解分布式一致性協(xié)議Paxos 淘寶分布式配置管理服務(wù)Diamond zookeeper節(jié)點(diǎn)數(shù)與watch的性能測(cè)試分布式環(huán)境中的負(fù)載均衡策略 select真的有限制嗎 Muduo源碼閱讀 Dhtcrawler2換用sphinx搜索磁力搜索第二版-dhtcrawler2 使用erlang實(shí)現(xiàn)P2P磁力搜索-實(shí)現(xiàn)

網(wǎng)站導(dǎo)航: 博客園 IT新聞 BlogJava 博問(wèn) Chat2DB 管理

# re: 使用erlang實(shí)現(xiàn)P2P磁力搜索-實(shí)現(xiàn) 2013-06-25 16:58 tb

loop_in_codes

導(dǎo)航

統(tǒng)計(jì)

公告

常用鏈接

留言簿(52)

隨筆分類

隨筆檔案

收藏夾

C++

關(guān)注的開(kāi)源項(xiàng)目

其他關(guān)注

網(wǎng)絡(luò)編程

我的項(xiàng)目

搜索

積分與排名

最新評(píng)論

閱讀排行榜

評(píng)論排行榜

使用erlang實(shí)現(xiàn)P2P磁力搜索-實(shí)現(xiàn)

DHT

種子

數(shù)據(jù)庫(kù)

Unicode

erlang的穩(wěn)定性

評(píng)論