亚洲综合丁香,一区二区欧美视频,美女免费视频一区

云計(jì)算實(shí)踐2

上一篇《基于云計(jì)算的價(jià)格查詢實(shí)現(xiàn)》就算是云計(jì)算實(shí)踐1吧，所以這篇就叫《云計(jì)算實(shí)踐2》。其實(shí)今年開(kāi)始研究云計(jì)算有一段時(shí)間了，約3個(gè)月前研究md5破解(http://www.shprog.com/HashCrack.aspx)，那個(gè)項(xiàng)目就是選來(lái)玩云計(jì)算的，當(dāng)時(shí)覺(jué)得md5破解這個(gè)小項(xiàng)目好玩，邏輯很簡(jiǎn)單，密碼字母組合可長(zhǎng)可短，規(guī)模可大可小，1臺(tái)機(jī)器不嫌少，1萬(wàn)臺(tái)不嫌多，所以就選中了它，沒(méi)想到第一個(gè)md5破解版本后來(lái)演變成了主要是密碼數(shù)據(jù)庫(kù)的制造，雖然第一版沒(méi)有做成標(biāo)準(zhǔn)云計(jì)算，但也算有個(gè)結(jié)果，而且存儲(chǔ)效率、制造速度還是令人滿意的，也就是說(shuō)那個(gè)項(xiàng)目只是云計(jì)算研究的副產(chǎn)品，我的本意并不是想做一個(gè)md5破解或者qq密碼破解，但結(jié)果就產(chǎn)生了這么一個(gè)產(chǎn)品，也算是努力了一個(gè)多月的結(jié)果，期間對(duì)hash算法、存儲(chǔ)格式等絞盡腦汁思考了很久，也因此對(duì)云計(jì)算倒是考慮得不多，最終偏離了大目標(biāo)。

好在后續(xù)研究基于云計(jì)算的價(jià)格查詢終于又回到云計(jì)算上來(lái)了，而且仿照google的map/reduce做了一個(gè)標(biāo)準(zhǔn)的jobserver + tasknode形式的實(shí)現(xiàn)，雖然兄弟們未必對(duì)價(jià)格查詢項(xiàng)目看好，但對(duì)這個(gè)基于windows實(shí)現(xiàn)的云計(jì)算框架還是一致看好的，價(jià)格查詢項(xiàng)目第一階段基本完成預(yù)定目標(biāo)，所以昨天我又將以前md5破解的東西寫(xiě)了一個(gè)在線版的dll，拿到云計(jì)算框架里面來(lái)試圖云破解，不過(guò)這個(gè)不是特別成功，主要是即時(shí)計(jì)算耗時(shí)有些多，平均1個(gè)task計(jì)算1億組合大約需要30秒，因此在我現(xiàn)在只有2個(gè)點(diǎn)參與運(yùn)算的情況下遍歷很大區(qū)間是很耗時(shí)的，也因此我沒(méi)有做一個(gè)在線云破解md5的頁(yè)面，這個(gè)工作作為研究性探索也只在我的控制端下了幾個(gè)云計(jì)算的任務(wù)就告一段落，今后將致力于其他更實(shí)用的云計(jì)算實(shí)踐。

為了做這第二個(gè)云計(jì)算的dll，我將原來(lái)定義的jobtask接口（可參見(jiàn)《基于云計(jì)算的價(jià)格查詢實(shí)現(xiàn)》）修改了一下，不再使用原來(lái)的c風(fēng)格接口，直接改成c++風(fēng)格了，如下：

interface IJobTask

{

virtual HMODULE free() = 0;

//初始化函數(shù)，部署環(huán)境等

virtual bool init(bool tasknode) = 0;

//分割函數(shù)，分割輸入

virtual size_t split(const char *input, size_t len, std::vector<CAutoBuffer *> &vbuf) = 0;

//task執(zhí)行函數(shù)

virtual bool map(const char *cmdline, CAutoBuffer &buf, CAutoBuffer &ibuf) = 0;

//reduce打包輸出函數(shù)

virtual bool reduce(std::vector<CAutoBuffer *> &vbuf, CAutoBuffer &buf) = 0;

//獲取執(zhí)行錯(cuò)誤

virtual char *geterror() = 0;

};

有朋友批評(píng)我，說(shuō)我的接口使用stl容器，使用自定義類CAutoBuffer等不好，我以前也是這么跟別人講的，接口不要使用這些東西，但看了google的map/reduce實(shí)現(xiàn)用的都是MapInput、ReduceInput之后我改變了看法，暫時(shí)就這樣定義吧，大不了各個(gè)dll都用同一版本的vc編譯就是了，也沒(méi)有什么大不了的，如果不行整體升級(jí)一下總可以吧，為了短時(shí)間盯住主要目標(biāo)，也只能大刀闊斧不考慮過(guò)多細(xì)節(jié)了，這也算是一個(gè)平衡的結(jié)果吧。

這次修改除了修改了接口，簡(jiǎn)化了實(shí)現(xiàn)之外，還實(shí)現(xiàn)了一些特性，動(dòng)態(tài)卸載，上一個(gè)版本裝入之后就不卸載了，要關(guān)閉exe才能卸載這些dll，所以無(wú)法熱更新，這個(gè)版本實(shí)現(xiàn)動(dòng)態(tài)卸載之后就支持熱更新了，關(guān)鍵就在那個(gè)free函數(shù)，

virtual HMODULE free() = 0;

該函數(shù)實(shí)例如下：

virtual HMODULE free()

{

HMODULE h = m_hlib;

delete this;

return h;

// if(h) FreeLibrary(h); 這里釋放是有問(wèn)題的，所以不能這樣釋放

}

在外部調(diào)用的地方

FreeLibrary(jf->free());

這樣就實(shí)現(xiàn)了動(dòng)態(tài)卸載dll的功能

用上云計(jì)算布局的價(jià)格查詢的這段時(shí)間，還是有一些經(jīng)驗(yàn)教訓(xùn)的，基于這種相隔很遠(yuǎn)，網(wǎng)絡(luò)條件差別很大的機(jī)器布局的云計(jì)算環(huán)境，可靠性是很差的，大多數(shù)時(shí)間可能反應(yīng)還是比較快，但有的時(shí)候反應(yīng)就特別慢，可能網(wǎng)絡(luò)延時(shí)會(huì)相差200ms，或者500ms，或者更多，我特意記錄了每個(gè)task的實(shí)際執(zhí)行時(shí)間和包括網(wǎng)絡(luò)傳輸在內(nèi)的總時(shí)間，就是從這兩個(gè)時(shí)間看出差距的，所以如果要基于這種環(huán)境做實(shí)時(shí)性很高的計(jì)算還是不適合的，如果對(duì)節(jié)點(diǎn)反饋實(shí)時(shí)性要求很高，那一定要布置類似局域網(wǎng)形式的計(jì)算環(huán)境，點(diǎn)點(diǎn)反饋時(shí)間1ms內(nèi)，而且響應(yīng)穩(wěn)定不易受到影響。此外磁盤(pán)Log時(shí)間是不定的，我記錄最后一個(gè)task完成到job完成之間調(diào)用了兩次WriteLog，對(duì)大多數(shù)job來(lái)說(shuō)，最后一個(gè)完成的task的時(shí)間和job完成的時(shí)間一致，但偶爾有少數(shù)job時(shí)間和最后一個(gè)完成的task時(shí)間差別很大，甚至有超過(guò)1s的，原先沒(méi)有這么精細(xì)的測(cè)量，這次在jobserver寫(xiě)了很多log，起初是為了找錯(cuò)誤，后來(lái)是為了追蹤job和task執(zhí)行，倒是意外的發(fā)現(xiàn)了一些問(wèn)題，也獲得了一些意外的收獲。

云計(jì)算好啊，早年我做過(guò)一個(gè)遠(yuǎn)程控制的程序，當(dāng)時(shí)做了一條命令broadcast，可以廣播其他任意命令，當(dāng)時(shí)很得意于這個(gè)設(shè)計(jì)，也有指揮千軍萬(wàn)馬的感覺(jué)，但當(dāng)時(shí)各自執(zhí)行，結(jié)果并不匯總，各個(gè)任務(wù)完全獨(dú)立。現(xiàn)在給云計(jì)算環(huán)境下達(dá)一個(gè)任務(wù)，也有同樣的感覺(jué)，可能對(duì)使用我的價(jià)格查詢(http://www.oldworm.com/pps.aspx)的用戶或者使用google查詢的用戶根本感覺(jué)不到，他這一個(gè)查詢提交下去后面有那么多機(jī)器聯(lián)動(dòng)運(yùn)算，但作為開(kāi)發(fā)人員，真真切切的看到后面那么多機(jī)器在執(zhí)行任務(wù)，真的是很爽的一件事情，一起看下我兩臺(tái)機(jī)器聯(lián)動(dòng)執(zhí)行任務(wù)的場(chǎng)面共勉吧：

圖看得不是很清楚，實(shí)際上第一個(gè)taskmanager是一臺(tái)機(jī)器，另一個(gè)taskmanager是另一臺(tái)機(jī)器，那兩個(gè)都是在遠(yuǎn)程桌面里面運(yùn)行的，下面ie是我的網(wǎng)頁(yè)，可以看到我在網(wǎng)頁(yè)里面查詢nokia的時(shí)候，上面兩臺(tái)機(jī)器的tasknodeapp里面就接收到任務(wù)并執(zhí)行了任務(wù)，那個(gè)tasknodeapp是我臨時(shí)用來(lái)演示的，事實(shí)上里面都是調(diào)用tasknode.dll，tasknode的主要任務(wù)都是tasknode.dll執(zhí)行的，為這個(gè)dll做了好幾個(gè)不同的容器，有service的有普通mfc的還有console的，這也是我的得意設(shè)計(jì)哦。

未來(lái)還將繼續(xù)云計(jì)算實(shí)踐，期待有相同興趣愛(ài)好的朋友一起交流。

posted @ 2010-10-03 14:23 袁斌閱讀(362) | 評(píng)論 (0) | 編輯收藏

定時(shí)器模塊改造

之前的文章講過(guò)，我設(shè)計(jì)的網(wǎng)絡(luò)框架有幾組線程，分別是io、異步、同步、定時(shí)器，各個(gè)不同應(yīng)用server幾組線程組合形式不盡相同，簡(jiǎn)單的可只有io線程，復(fù)雜一點(diǎn)的可io+同步，更復(fù)雜一點(diǎn)的也可io+同步+異步+定時(shí)器，總之我以幾組線程的自由組合方式應(yīng)付各種應(yīng)用，在我負(fù)責(zé)的server全是這一套框架實(shí)現(xiàn)的，不管是支持幾萬(wàn)人連接的服務(wù)器，還是只有幾個(gè)用戶連接的內(nèi)部服務(wù)器，這套框架也算是久經(jīng)考驗(yàn)，穩(wěn)定運(yùn)行多年，內(nèi)部使用也非常簡(jiǎn)單，如給sync線程組發(fā)一個(gè)消息只要PostSyncEvent，如果要給異步線程發(fā)一個(gè)消息只要發(fā)PostAsyncEvent，雖然只能開(kāi)發(fā)的時(shí)候確定哪個(gè)任務(wù)在哪組線程執(zhí)行，但修改還是非常方便的，執(zhí)行體就是一組這樣的函數(shù)：

OnSyncEvent(DWORD dwEvent, DWORD wParam, DWORD lParam);

OnAsyncEvent(DWORD dwEvent, DWORD wParam, DWORD lParam);

一眼就知道是在哪個(gè)線程組里面執(zhí)行，當(dāng)然有的線程組是一個(gè)線程，有的線程組是多個(gè)，這涉及到有的資源是不是要加鎖，有經(jīng)驗(yàn)的開(kāi)發(fā)人員很容易理解。

說(shuō)了一下框架才容易理解我的問(wèn)題，之前定時(shí)器是一個(gè)獨(dú)立的線程組，同步線程組、異步線程組、io組都沒(méi)有定時(shí)器功能，定時(shí)器觸發(fā)后要發(fā)送消息到相應(yīng)線程組，有的要發(fā)給異步線程組，有的要發(fā)給同步線程組，這就會(huì)引起線程切換，這是問(wèn)題之一，還有一個(gè)問(wèn)題，之前的定時(shí)器是由windows的時(shí)鐘隊(duì)列實(shí)現(xiàn)的，這個(gè)定時(shí)器優(yōu)點(diǎn)是很明顯的，定時(shí)精確，功能強(qiáng)大，參數(shù)眾多，獨(dú)立線程組，但也有很明顯的問(wèn)題，如果要?jiǎng)h除一個(gè)定時(shí)器則有線程依賴，就是要在定時(shí)器線程才能刪除定時(shí)器，這個(gè)依賴約束很大，也很容易引起問(wèn)題，用起來(lái)很不方便，使得一些資源的釋放不能夠即時(shí)進(jìn)行。正因?yàn)橛羞@么些問(wèn)題，也為了使得時(shí)鐘模塊更容易移植，我設(shè)計(jì)了一個(gè)新時(shí)鐘模塊，為實(shí)現(xiàn)以下目標(biāo)：

1、無(wú)線程依賴，隨便調(diào)用者在哪個(gè)線程調(diào)用都可刪除指定的定時(shí)器。

2、和事件消息集成在一個(gè)線程內(nèi)，實(shí)現(xiàn)無(wú)需切換的定時(shí)器功能，這樣主線程、同步線程組、異步線程組都可在內(nèi)部處理定時(shí)器消息，無(wú)需單獨(dú)的定時(shí)器線程輔助，方便很多。

為實(shí)現(xiàn)以上目標(biāo)，我引入了libevent里面的minheap管理定時(shí)器，并根據(jù)之前管理事件的處理辦法，繼續(xù)使用iocp隊(duì)列管理線程消息，在每個(gè)線程組用iocp管理事件，根據(jù)最短觸發(fā)的定時(shí)器計(jì)算wait時(shí)間，這樣就在同一組線程內(nèi)實(shí)現(xiàn)了定時(shí)器和事件合并處理，當(dāng)然實(shí)現(xiàn)方法有很多，也可用iocp+WaitableTimer等，也可用apc，但那些實(shí)現(xiàn)的windows烙印都太深刻，雖然精度更高，實(shí)現(xiàn)更容易，我用minheap+iocp隊(duì)列方式的實(shí)現(xiàn)相對(duì)來(lái)說(shuō)對(duì)windows的依賴較少，因?yàn)樘鎿Q一個(gè)iocp隊(duì)列處理事件是很容易的，這樣也方便移植和復(fù)用代碼。經(jīng)這樣修改之后，各個(gè)線程組包括主線程都可處理定時(shí)器和事件消息，也使得以前雞肋式的主線程終于可當(dāng)同步線程發(fā)揮作用，以前的定時(shí)器線程組也不一定需要了，既減少了線程，也減少了切換，現(xiàn)在各個(gè)線程組（包括主線程）都有完全一致的消息處理和時(shí)鐘處理函數(shù)。

事件函數(shù)：

OnTimerEvent(DWORD dwEvent, DWORD wParam, DWORD lParam);

OnSyncEvent(DWORD dwEvent, DWORD wParam, DWORD lParam);

OnAsyncEvent(DWORD dwEvent, DWORD wParam, DWORD lParam);

OnServiceEvent(DWORD dwEvent, DWORD wParam, DWORD lParam);

定時(shí)器函數(shù)：

OnTimerTimer(TlsInfo *ptls, EventTimer *et);

OnSyncTimer(TlsInfo *ptls, EventTimer *et);

OnAsyncTimer(TlsInfo *ptls, EventTimer *et);

OnIoTimer(TlsInfo *ptls, EventTimer *et);

OnServiceTimer(TlsInfo *ptls, EventTimer *et);

可以給線程組增加定時(shí)器刪除定時(shí)器

AddTimer、AddSyncTimer、AddAsyncTimer、AddServiceTimer、AddIoTimer

DelTimer、DelSyncTimer、DelAsyncTimer、DelServiceTimer、DelIoTimer

可給各線程組發(fā)消息

PostTimerEvent、PostSyncEvent、PostAsyncEvent、PostServiceEvent

這套框架是我多年服務(wù)器端開(kāi)發(fā)的得意之作，體現(xiàn)了我簡(jiǎn)潔實(shí)用的設(shè)計(jì)思想，用起來(lái)非常方便，可任意組合，適應(yīng)各種需求的應(yīng)用，由于除主線程之外的io線程組、同步線程組、異步線程組、定時(shí)器線程都是可以關(guān)、開(kāi)1個(gè)、開(kāi)多個(gè)，所以組合非常靈活，開(kāi)1個(gè)可當(dāng)同步線程，開(kāi)多個(gè)可當(dāng)異步線程（內(nèi)部搶資源），關(guān)閉就不存在該組線程，即使是io線程組也是可關(guān)的，這樣就使得這套框架不僅僅用在標(biāo)準(zhǔn)server上，就算是當(dāng)作一般的消息隊(duì)列服務(wù)器也沒(méi)問(wèn)題，高度的靈活性使得這套框架可適應(yīng)各種規(guī)模的應(yīng)用，這次對(duì)定時(shí)器的改造使得這種組合更靈活，雖然現(xiàn)在的實(shí)現(xiàn)方法定時(shí)器的精度有一些下降，但瑕不掩瑜，這樣改造之后功能無(wú)疑是更強(qiáng)大了。

posted @ 2010-10-03 14:23 袁斌閱讀(708) | 評(píng)論 (0) | 編輯收藏

實(shí)用云計(jì)算環(huán)境簡(jiǎn)述

如今it領(lǐng)域沒(méi)聽(tīng)說(shuō)過(guò)云計(jì)算的絕對(duì)是out了，雖然大家都知道云計(jì)算，雖然很多高校很多專業(yè)都開(kāi)設(shè)了云計(jì)算專業(yè)，雖然很多人都在討論云計(jì)算，雖然也有少數(shù)人走在了應(yīng)用云計(jì)算的前列，然而，可悲的是，大多數(shù)人對(duì)云計(jì)算的認(rèn)識(shí)僅限于amazon、google、microsoft、ibm有能力架設(shè)云計(jì)算環(huán)境，其他公司都靠邊，甚至唯他們的云計(jì)算才叫云計(jì)算，別的企業(yè)根本不可能做云計(jì)算，各級(jí)政府部門(mén)最搞笑了，動(dòng)不動(dòng)花多少錢(qián)引進(jìn)某某云計(jì)算環(huán)境，填補(bǔ)某某空白，多少cpu多少機(jī)器每秒多少萬(wàn)億次計(jì)算，最終是不是一堆浪費(fèi)電力的擺設(shè)也沒(méi)有人知道，也沒(méi)人去過(guò)問(wèn)。

略感欣慰的是，很多企業(yè)都在務(wù)實(shí)地部署自己的云計(jì)算環(huán)境，大如騰訊、淘寶、百度、小如我們這樣剛成立的小公司，其實(shí)要部署一個(gè)私有云計(jì)算環(huán)境并沒(méi)有那么難，以我個(gè)人的經(jīng)驗(yàn)來(lái)看，如果有一個(gè)精干的小團(tuán)隊(duì)，幾個(gè)人一個(gè)月部署一個(gè)私有云計(jì)算環(huán)境是完全可能可行的。在我看來(lái)，所謂云計(jì)算就是分布式存儲(chǔ)+分布式計(jì)算，不局限于底下os是win還是*nix，也不局限于是局域網(wǎng)環(huán)境還是廣域網(wǎng)環(huán)境，也不管上面跑的是c++的程序還是javascript的程序，下面簡(jiǎn)單介紹下我設(shè)計(jì)的一個(gè)即時(shí)查詢價(jià)格的云計(jì)算體系：

我一直在win下開(kāi)發(fā)，win用得非常熟練，所以我把云計(jì)算環(huán)境部署在windows之上，當(dāng)然也考慮到windows的機(jī)器眾多，tasknode可輕易找到非常多的目標(biāo)機(jī)器，我部署的云計(jì)算環(huán)境主要分兩類節(jié)點(diǎn)，jobserver和tasknode，jobserver主管任務(wù)切割、任務(wù)調(diào)度，tasknode是計(jì)算節(jié)點(diǎn)。另外還有一些節(jié)點(diǎn)，jobowner可連接jobserver并提交任務(wù)，并可查詢?cè)撊蝿?wù)的執(zhí)行情況，admin可連接jobserver查詢jobserver的狀態(tài)。

其實(shí)這些上篇博客已經(jīng)寫(xiě)過(guò)，我再講的詳細(xì)一點(diǎn)，看具體的執(zhí)行情況，首先jobowner給jobserver提交package，這個(gè)package是一個(gè)zip文件，包含一組文件，jobowner提交package之后jobserver會(huì)根據(jù)約定的規(guī)則管理package，并在jobserver展開(kāi)該package，如下：

Jobowner連到jobserver之后，發(fā)出如下的命令到jobserver

0x49 0x0 0x0 0x0 0x2 0x0 0xb 0x0 127.0.0.1 0x0 ppsget.dll 0x0

{type:[0,1,2,3,4],rmax:5,wb:"pc",text:"諾基亞 e63"} 0x0

上面是用我設(shè)計(jì)的一種混合顯示格式顯示的包數(shù)據(jù)，可以看到里面帶上了ppsget.dll，這就是指定包內(nèi)部名，其實(shí)還可以這樣ppsget.dll:getpage，如此一個(gè)dll就可支持多個(gè)IJobTask輸出，getpage只是獲得其中一個(gè)IJobTask接口（關(guān)于IJobTask接口參考上一篇云計(jì)算實(shí)踐2的文章）。具體命令是json格式，主要是為了方便信息傳輸和解析。Jobserver接收到該命令之后，調(diào)用ppsget.dll的IJobTask接口中的split函數(shù)，將該任務(wù)分解，之后調(diào)度Tasknode執(zhí)行，tasknode收到jobserver發(fā)過(guò)來(lái)的任務(wù)之后，檢查包名稱，如果缺少就會(huì)主動(dòng)向jobserver要求發(fā)送相應(yīng)的包，并進(jìn)行部署，待部署完成之后從包獲取指定的IJobTask接口，執(zhí)行該接口的map函數(shù)，將結(jié)果按照約定的格式發(fā)給jobserver，最后由jobserver調(diào)用IJobTask中的reduce函數(shù)進(jìn)行打包，最后將結(jié)果發(fā)給jobowner并記錄相關(guān)Log。

上圖中還可看到一個(gè)HashCrackCloud.dll，這是另一個(gè)云計(jì)算環(huán)境下破解md5密碼的dll，這個(gè)上篇文章也寫(xiě)了一下，這里就不詳述了。

為使得tasknode可適應(yīng)各種機(jī)器環(huán)境，我把tasknode設(shè)計(jì)為一個(gè)dll，該dll內(nèi)部自己管理消息及任務(wù)執(zhí)行，該dll可被加載到各種容器進(jìn)程（如gui進(jìn)程、console進(jìn)程、service進(jìn)程）等執(zhí)行，看下我的tasknode和它的容器進(jìn)程：

這也算是我的得意設(shè)計(jì)吧，這樣設(shè)計(jì)的tasknode在windows系統(tǒng)下的確具有很高的靈活性。

這樣的tasknode甚至可直接加載在jobserver進(jìn)程，也可被任意win系列機(jī)器的任意進(jìn)程加載參與運(yùn)算，用主動(dòng)加載或被動(dòng)加載都很方便，極大的方便了云計(jì)算環(huán)境的部署，反正具體執(zhí)行的任務(wù)都由package完成，tasknode只要按照約定的規(guī)則部署 package即可，所以這種云計(jì)算環(huán)境是非常輕量級(jí)又非常靈活的，開(kāi)發(fā)一個(gè)新的任務(wù)只要做一個(gè)新的IJobTask即可，目前我這套體系除了沒(méi)有考慮太多安全性之外，這個(gè)云計(jì)算環(huán)境的實(shí)施還是非常容易的，實(shí)際上我們這個(gè)價(jià)格查詢的后臺(tái)云計(jì)算環(huán)境只用了不到2周的時(shí)間就開(kāi)發(fā)完成。

再看下jobserver記錄的每個(gè)job的log：

從log中可很容易的分析出一個(gè)job每個(gè)task的執(zhí)行情況，并可根據(jù)這些數(shù)據(jù)進(jìn)行相應(yīng)的優(yōu)化處理。

之所以把jobserver和tasknode以及package都寫(xiě)出來(lái)，主要是為了表達(dá)一個(gè)看法，要實(shí)現(xiàn)一個(gè)簡(jiǎn)單的云計(jì)算環(huán)境其實(shí)并不難，有經(jīng)驗(yàn)的團(tuán)隊(duì)很容易就能做出來(lái)，參考下google的map/reduce論文，按照自己的需要簡(jiǎn)化實(shí)現(xiàn)，真理在實(shí)踐中，如果只是仰望google、amazon，那就真的是在云中霧里，另一個(gè)想要表達(dá)的就是云的形式是多種多樣的，并不一定amazone、google的云計(jì)算環(huán)境才是標(biāo)準(zhǔn)的，對(duì)實(shí)用派來(lái)說(shuō)，形式都是次要的，實(shí)用才是關(guān)鍵的。

posted @ 2010-10-03 14:23 袁斌閱讀(1828) | 評(píng)論 (1) | 編輯收藏

基于云計(jì)算的價(jià)格查詢實(shí)現(xiàn)

上篇博客提到價(jià)格查詢功能，當(dāng)時(shí)正在考慮做成云計(jì)算模式，所以當(dāng)時(shí)連多線程都沒(méi)考慮，就是準(zhǔn)備將功能都交給云計(jì)算系統(tǒng)的，由云計(jì)算內(nèi)部管理線程和調(diào)度問(wèn)題，所以當(dāng)時(shí)實(shí)現(xiàn)就根本不用考慮多線程，現(xiàn)在功能基本實(shí)現(xiàn)，下面大致講講我的做法。

國(guó)內(nèi)很多人談到全文檢索就必提lucene，提到云計(jì)算就必提google的map/reduce、開(kāi)源的hadoop、amazon的ec2，似乎只有那些東西才叫云計(jì)算，咱是實(shí)戰(zhàn)派，沒(méi)興趣口舌之爭(zhēng)，在俺看來(lái)分布式存儲(chǔ)+分布式計(jì)算就叫云計(jì)算，俺就看了看google的map/reduce論文，照其思想在win下做了個(gè)簡(jiǎn)單的job/task調(diào)度系統(tǒng)，使其能支撐俺的第一個(gè)實(shí)戰(zhàn)應(yīng)用價(jià)格查詢，圖示如下：

① 、adminclient承擔(dān)管理功能，可查看任務(wù)及執(zhí)行情況，可查看Tasknode機(jī)器情況，如果需要可管理Task，目前只支持簡(jiǎn)單的幾條命令，adminclient主動(dòng)連jobserver登錄成功后可發(fā)送管理命令。

② 、JobOwner提交一個(gè)Job之后返回一個(gè)jobid，如果意外斷開(kāi)可通過(guò)下次重連的時(shí)候提交jobid和一個(gè)sessionid可提取job結(jié)果數(shù)據(jù)，job提交通過(guò)提交一個(gè)zip包即可，參數(shù)等文件都打在包里面，tasknode可直接解包執(zhí)行里面的dll。Jobowner主動(dòng)連jobserver，登錄成功后可發(fā)job命令。

③ TaskNode是執(zhí)行具體任務(wù)的客戶端，job包用zip打包后發(fā)布給tasknode，tasknode參與計(jì)算并反饋結(jié)果。TaskNode設(shè)計(jì)成多線程模式，一個(gè)線程保持和jobserver的通信，其他線程參與運(yùn)算，Tasknode可同時(shí)執(zhí)行多個(gè)不同的任務(wù)，如a線程執(zhí)行價(jià)格查詢，b線程執(zhí)行hash破解等。Tasknode主動(dòng)連jobserver，登錄后可接受jobserver分派的任務(wù)，由于tasknode是主動(dòng)連jobserver的，所以即使是內(nèi)網(wǎng)機(jī)器或者任意有閑置資源的機(jī)器都可作為Tasknode，不管它是家里的、公司的、還是網(wǎng)吧的，這也是該系統(tǒng)基于windows實(shí)現(xiàn)的一個(gè)重要前提，因?yàn)?/span>win的機(jī)器是如此的多，在國(guó)內(nèi)win的機(jī)器無(wú)處不在。

JobServer是job調(diào)度器，管理包分發(fā)以及任務(wù)分割、調(diào)度，典型的執(zhí)行流程是這樣，jobowner提交一個(gè)命名的包給jobserver，jobserver將該包部署管理，之后jobowner 可給jobserver提交任務(wù)，jobserver收到任務(wù)后根據(jù)任務(wù)指定的包配置執(zhí)行，如部署包后裝載dll并執(zhí)行任務(wù)分割操作，分割是將一個(gè)job分割為多個(gè)task，之后再將每個(gè)task提交給一個(gè)tasknode執(zhí)行，并管理tasknode的輸出以及可能的出錯(cuò)，出錯(cuò)現(xiàn)在的處理是交給另一個(gè)tasknode執(zhí)行，當(dāng)剩下最后一個(gè)tasknode的時(shí)候會(huì)將該tsaknode同步叫給另一個(gè)不同的tasknode執(zhí)行，不管誰(shuí)最后成功執(zhí)行這個(gè)tasknode，只要該task執(zhí)行成功立即結(jié)束整個(gè)job，并將結(jié)果反饋給jobowner，jobowner也可在執(zhí)行中提交查詢命令，jobserver會(huì)將被查詢job當(dāng)前的輸出返回，這樣碰到需要長(zhǎng)時(shí)間執(zhí)行的任務(wù)也能適用。

從以上介紹可以看到，具體任務(wù)是由包執(zhí)行的，這個(gè)包實(shí)際上可能是一個(gè)dll，也可能是幾個(gè)dll加上一些配置文件組成，之所以設(shè)計(jì)成這種模式，主要是考慮整個(gè)系統(tǒng)在win上方便部署，主dll需要支持幾個(gè)固定的接口：

//任務(wù)dll初始化函數(shù)

typedef bool (*jobtask_init_)(jobtaskfunc *jtfunc, bool tasknode);

//map分割函數(shù)

typedef size_t (*jobtask_split_)(jobtaskfunc *jtfunc,

const char *input, size_t len,

std::vector<CAutoBuffer *> &vbuf);

//reduce打包函數(shù)

typedef size_t (*jobtask_reduce_)(jobtaskfunc *jtfunc,

std::vector<CAutoBuffer *> &vbuf,

CAutoBuffer &buf);

//Task執(zhí)行函數(shù)

typedef bool (*jobtask_map_)(jobtaskfunc *jtfunc, const char *cmdline, CAutoBuffer &outbuf);

//釋放函數(shù)

typedef bool (*jobtask_free_)(jobtaskfunc *jtfunc);

上面init函數(shù)主要執(zhí)行線程相關(guān)的初始化，該函數(shù)典型的可能是空，或者是

CoInitialize(NULL); 等

Split函數(shù)是用來(lái)將job輸入分割為N個(gè)tasknode輸入的，該函數(shù)由jobserver調(diào)用，每個(gè)tasknode輸入就是map函數(shù)的輸入，tasknode的任務(wù)就是調(diào)用map函數(shù)，并傳遞輸入，最后將輸出返回給jobserver，jobserver在需要的時(shí)候調(diào)用reduce將各個(gè)tasknode的輸出打包返回，free函數(shù)是個(gè)輔助函數(shù)，釋放資源的。

熟悉google的map/reduce的應(yīng)該知道，我的實(shí)現(xiàn)簡(jiǎn)化了reduce，在我的實(shí)現(xiàn)里面并沒(méi)有獨(dú)立的reduce worker，該任務(wù)由jobserver自己做了，這一方面是簡(jiǎn)化實(shí)現(xiàn)，另方面也是適應(yīng)需求的結(jié)果，畢竟在我的需求里面輸入是很少的(一個(gè)典型任務(wù)100字節(jié)量級(jí))，tasknode的計(jì)算是很多的，輸出也是不多的（1k量級(jí)），所以由jobserver打包整個(gè)輸出也很輕松，用不著一組獨(dú)立的reduce來(lái)管理輸出。另外可以看到上面接口用了我的自定義類CAutoBuffer，這個(gè)類主要管理不定長(zhǎng)數(shù)據(jù)的，其實(shí)用vector<char>也可，但考慮方便，我的實(shí)現(xiàn)內(nèi)部都用了CAutoBuffer。一個(gè)典型的分布式應(yīng)用只要做一個(gè)dll，有上面幾個(gè)函數(shù)，并輸出一個(gè)

struct jobtaskfunc

{

//初始化函數(shù)

jobtask_init_ init;

//釋放函數(shù)

jobtask_free_ free;

//以下被tasknode調(diào)用

jobtask_map_ map;

//以下被jobserver調(diào)用

jobtask_split_ split;

jobtask_reduce_ reduce;

};

typedef jobtaskfunc *(WINAPI *create_jobtask_)();

函數(shù)即可。

學(xué)習(xí)map/reduce重要的是學(xué)習(xí)其思想，并不拘泥于實(shí)現(xiàn)形式，我想這大概正是國(guó)內(nèi)環(huán)境欠缺的，國(guó)內(nèi)能說(shuō)得頭頭是道的人太多，能動(dòng)手干出結(jié)果來(lái)的人很少，真正坐下來(lái)做實(shí)事的不多，只喜歡抄抄概念，拿別人的東西過(guò)來(lái)架設(shè)一下，就是這樣的人也能混成大拿。我從map/reduce思想出發(fā)，學(xué)習(xí)其思想，簡(jiǎn)化其實(shí)現(xiàn)，為實(shí)際應(yīng)用服務(wù)，雖然這個(gè)東西很簡(jiǎn)單，甚至可以說(shuō)有些簡(jiǎn)陋，但實(shí)際效果不錯(cuò)，雖然現(xiàn)在只部署了兩個(gè)點(diǎn)，但總體上還是令人滿意的。

實(shí)現(xiàn)這個(gè)jobserver/tasknode系統(tǒng)并部署價(jià)格查詢花了不到兩周時(shí)間，實(shí)際上花在jobserver、tasknode上的時(shí)間大概只有一周多一點(diǎn)，ppsget.dll（具體干活的dll）用正則表達(dá)式分析網(wǎng)頁(yè)并提取輸出，該dll被應(yīng)用到多線程環(huán)境后也出了一些問(wèn)題，用boost：：reg的時(shí)候居然偶爾會(huì)出現(xiàn)異常，原以為boost::reg這樣的應(yīng)用應(yīng)該是非常明確的，要么找到，要么沒(méi)有找到，除此不應(yīng)該有第三態(tài)，沒(méi)想到boost::reg這個(gè)不爭(zhēng)氣的東西不但不是二態(tài)的，還容易出現(xiàn)異常，試用了一下tr1::regex也是類似的問(wèn)題，無(wú)奈只能在外面包了一層異常處理，雖然不再被異常搞死，但一旦出現(xiàn)異常就是很慢的，要10s左右才返回，現(xiàn)在也沒(méi)有特別好的辦法，只在異常的時(shí)候?qū)㈨?yè)面保存，事后分析并改寫(xiě)正則表達(dá)式，盡量將正則表達(dá)式做小，將非貪婪式查找用少一點(diǎn)。

下面看看我們價(jià)格查詢網(wǎng)站 http://www.shprog.com/pps.aspx 的輸出：

那個(gè)360的價(jià)格居然是圖片，ocr模塊是俺同事搞的，現(xiàn)在識(shí)別率能達(dá)到99%以上，還是很不錯(cuò)的。

posted @ 2010-10-03 14:22 袁斌閱讀(226) | 評(píng)論 (0) | 編輯收藏

Json解析速度問(wèn)題

一直想測(cè)試一下json的解析速度，前些天終于花了一點(diǎn)時(shí)間測(cè)了一下，在我的破筆記本上，解析一個(gè)包含10個(gè)元素（各種類型都有）的object型json，1秒鐘大概只能解析不到10w次，就算把內(nèi)存池用到極致也只能解析12.5w次左右，換用自己定義的一種bjson格式，速度快了一些，但也不超過(guò)20w次，想想工作量也的確很大，生成一個(gè)包含10個(gè)子元素的object，需要?jiǎng)討B(tài)分配最少10次，還要做最少10次hash的insert，還有各種格式的轉(zhuǎn)換工作，里面有array和object還要額外分配容器并處理子對(duì)象，這可都是耗時(shí)操作，終于明白了為什么webserver為何一秒鐘只能處理幾千個(gè)請(qǐng)求甚至只能處理幾百個(gè)請(qǐng)求了，看來(lái)要將游戲協(xié)議完全用json暫時(shí)還是不大可取，從效率上看折中點(diǎn)的做法依然是struct+json或struct+string\0string\0…，這些我以前的blog都寫(xiě)過(guò)，只是現(xiàn)在找到了效率上的依據(jù)，畢竟游戲服務(wù)器一秒都是要處理幾萬(wàn)數(shù)據(jù)包的，要是全是json光解析json就把時(shí)間耗光了，更不用說(shuō)去處理其他任務(wù)了。

posted @ 2010-10-03 14:21 袁斌閱讀(908) | 評(píng)論 (0) | 編輯收藏

價(jià)格查詢網(wǎng)

花了四天寫(xiě)了個(gè)價(jià)格查詢的web體驗(yàn)版，大致結(jié)構(gòu)是這樣的，前端web界面：

該web通過(guò)tcp連接后臺(tái)一個(gè)ppsserver，ppsserver調(diào)用一個(gè)ppsget.dll從一些配置好的網(wǎng)站現(xiàn)拉網(wǎng)頁(yè)分析產(chǎn)品價(jià)格等信息，說(shuō)起來(lái)是很簡(jiǎn)單的，要是畫(huà)出結(jié)構(gòu)圖來(lái)也是很簡(jiǎn)單的，看看效果：

為了寫(xiě)這個(gè)東西查了比價(jià)網(wǎng)等很多資料，看來(lái)看去覺(jué)得現(xiàn)在的一些比價(jià)網(wǎng)都把自己當(dāng)購(gòu)物門(mén)戶了，上面什么信息都有，數(shù)據(jù)都是緩存的，有的還隱藏原始鏈接，用戶點(diǎn)進(jìn)去也都是緩存的數(shù)據(jù)，不再鏈接到原始出處，看了幾個(gè)網(wǎng)站數(shù)據(jù)誤差較大，有個(gè)網(wǎng)站排在最前面價(jià)格最低的鏈接點(diǎn)進(jìn)去之后發(fā)現(xiàn)根本沒(méi)有那個(gè)低價(jià)格，也不知道那個(gè)價(jià)格信息是什么時(shí)候的，或者根本就提取錯(cuò)了。看了那么多比價(jià)網(wǎng)站，時(shí)間誤差最小的也超過(guò)10個(gè)小時(shí)，很令我失望，總之我的出發(fā)點(diǎn)和這些網(wǎng)站不同，我希望做一個(gè)界面很簡(jiǎn)潔的、實(shí)時(shí)查詢的服務(wù)，而且速度要求很快，一次查詢速度最好小于1秒，當(dāng)然我現(xiàn)在技術(shù)預(yù)覽版離這個(gè)目標(biāo)還差得很遠(yuǎn)。界面簡(jiǎn)潔使得用戶即使是使用手機(jī)也能得到很好的輸出，也不占用多少帶寬，我還希望前端接上條碼掃描功能，這樣很多不會(huì)輸入的人就可直接對(duì)著條碼就能查詢網(wǎng)店價(jià)格，多方便啊，呵呵。不過(guò)做這個(gè)功能發(fā)現(xiàn)技術(shù)不是大問(wèn)題，我4天除了布好了架構(gòu)還做了5家網(wǎng)店的網(wǎng)頁(yè)分析，可見(jiàn)這些基本技術(shù)都不太難，最大的矛盾是實(shí)時(shí)查詢數(shù)據(jù)量太大，就算只查詢一個(gè)產(chǎn)品，分析5個(gè)網(wǎng)站的數(shù)據(jù)加在一起估計(jì)接近1M，這要是每秒有個(gè)幾百幾千人訪問(wèn)那還得了啊，得要多大的帶寬才能撐得住啊，難怪看了那么多比價(jià)網(wǎng)站沒(méi)有一家提供實(shí)時(shí)查詢的，不是他們做不了實(shí)時(shí)查詢，的確是因?yàn)閹捥螅晕蚁虢酉聛?lái)做一套分布式查詢模型，將很多無(wú)固定ip的機(jī)器接入ppscontrolserver，一起參與為用戶提供查詢服務(wù)，今天在看mapreduce，希望自己不要閉門(mén)造車，其實(shí)很多年前就想做這個(gè)功能了，只是一直沒(méi)有下手，加上那個(gè)時(shí)候也沒(méi)有一套穩(wěn)定的網(wǎng)絡(luò)庫(kù)，現(xiàn)在條件都具備了，希望最近可以做一個(gè)簡(jiǎn)單的分布式計(jì)算框架出來(lái)，那樣以后要做類似功能就容易了，可能只要加入一個(gè)簡(jiǎn)單的dll發(fā)布一個(gè)計(jì)算命令就可以了。這個(gè)分布式計(jì)算模型做出來(lái)之后，傳統(tǒng)的比價(jià)網(wǎng)站就只能望俺項(xiàng)背了。

posted @ 2010-10-03 14:21 袁斌閱讀(491) | 評(píng)論 (0) | 編輯收藏

HashCrack系統(tǒng)架構(gòu)

HashCrack跑起來(lái)了一段時(shí)間，一直沒(méi)有寫(xiě)架構(gòu)方面的總結(jié)，今天在地鐵上畫(huà)了一張圖：

照此架構(gòu)理論上是可以支持非常巨大的后端數(shù)據(jù)的，如果將web也弄成多個(gè)，分別連不同的SN則可支持非常巨大的用戶量。

posted @ 2010-10-03 14:20 袁斌閱讀(231) | 評(píng)論 (0) | 編輯收藏

HashCrack程序數(shù)據(jù)及索引設(shè)計(jì)2

上個(gè)月寫(xiě)了《HashCrack程序數(shù)據(jù)及索引設(shè)計(jì)》里面已經(jīng)提到早期設(shè)計(jì)的幾種存儲(chǔ)方法，最后達(dá)到了每條記錄15個(gè)字節(jié)左右的水平，但這個(gè)存儲(chǔ)效果還是很差的，而且是單體文件，受制于內(nèi)存限制，后來(lái)又設(shè)計(jì)了幾種復(fù)合索引格式，支持1萬(wàn)億記錄一個(gè)復(fù)合索引，下面簡(jiǎn)單講講之后的研究成果。

6、將內(nèi)容區(qū)和索引區(qū)合并，索引位置不再提供指向內(nèi)容區(qū)的size_t，內(nèi)容區(qū)不再需要，直接在索引區(qū)，這樣索引區(qū)indexnode

Struct indexnode

{

Size_t nextoffset;

Char str[0];

};

經(jīng)過(guò)此修改之后稍微不好的地方就是如果一個(gè)文件里面要管理不同長(zhǎng)度的字符串那么只能取最長(zhǎng)的字符串長(zhǎng)度，以便indexnode保持相同大小容易索引。

這種方法雖然效果不錯(cuò)，但平均下來(lái)一個(gè)字符串還是要占用11個(gè)左右的字節(jié)，而且不同長(zhǎng)度的字符串有一些浪費(fèi)的地方。

7、以上的存儲(chǔ)方法雖然已經(jīng)比較緊湊，但還不是最緊湊的方法，如果不保存字符串只是保存字符串在序列中的位置，那么不同字符串也沒(méi)有長(zhǎng)度不同，也可以用同樣的大小去保存，如果一個(gè)db保存42億以下的字符串，那么只要4個(gè)字節(jié)就可以了，如果一個(gè)db保存1萬(wàn)億以下的數(shù)據(jù)，那么只要5個(gè)字節(jié)就可以，這真是個(gè)非常有創(chuàng)意的想法，其實(shí)我當(dāng)初想到這個(gè)想法的時(shí)候很擔(dān)心計(jì)算效率，遲遲沒(méi)有動(dòng)手代碼，但思考了幾天之后打消了我對(duì)效率的擔(dān)心，相反，只保存一個(gè)position比復(fù)制N個(gè)字符串可能還要快一點(diǎn)，這樣我們就只要9個(gè)字節(jié)描述indexnode了，看定義：

Struct indexnode

{

Size_t lpos;

Byte hpos;

Size_t nextoffset;

};

精確到9個(gè)字節(jié)表示一條記錄，很不錯(cuò)，也沒(méi)有更多的限制。事實(shí)上9字節(jié)版本的速度比方法6的確是要快一點(diǎn)，還沒(méi)優(yōu)化的時(shí)候就比6方法要快一些了，當(dāng)然查詢的時(shí)候由于要多計(jì)算一些信息，理論上是要慢一點(diǎn)的，但由于都是內(nèi)存計(jì)算，其實(shí)影響不是很大。

8、上述9個(gè)字節(jié)的方法雖然已經(jīng)很緊湊，但如果給nextoffset做一點(diǎn)限制，讓一個(gè)區(qū)段的數(shù)據(jù)為1667w以下，那么描述nextoffset 只需要3個(gè)字節(jié)即可，這樣indexnode總的長(zhǎng)度就只需要8個(gè)字節(jié)，這真是很好的想法，我為這個(gè)想法驕傲，看下indexnode的8字節(jié)版本

Struct indexnode

{

Size_t lpos;

Size_t hpos:8;

Size_t nextoffset:24;

};

精確的8字節(jié)indexnode，如此我們最終實(shí)現(xiàn)了最緊湊的md5數(shù)據(jù)庫(kù)，每條記錄8個(gè)字節(jié)，幾乎無(wú)法再減少了，期待哪天突然靈光閃現(xiàn)再創(chuàng)造出更緊湊的存儲(chǔ)方法吧，呵呵，這個(gè)實(shí)現(xiàn)其實(shí)已經(jīng)超越了我最初的估計(jì)了，我以為能減少到12個(gè)字節(jié)已經(jīng)到頂了，沒(méi)想到還能減少到8個(gè)字節(jié)。

8字節(jié)的版本最初寫(xiě)出來(lái)的時(shí)候效率下降得很厲害，因?yàn)橐郧?/span>nextoffset當(dāng)指針用，現(xiàn)在3個(gè)字節(jié)無(wú)法當(dāng)指針，只能轉(zhuǎn)換，多一個(gè)轉(zhuǎn)換函數(shù)效率下降了一些，其他地方剛寫(xiě)的時(shí)候也是非優(yōu)化算法，所以第一個(gè)8字節(jié)版本效率比9字節(jié)降低了一半以上，但花了一個(gè)早上優(yōu)化之后效率又上去了，現(xiàn)在制造復(fù)合索引只需要82秒就可完成1億條記錄，速度比方法6快不少，方法6需要120秒左右。

或許我講得比較簡(jiǎn)單，如果不是深入研究這一塊的人或許看不明白，但精華我基本上講出來(lái)了，實(shí)現(xiàn)上其實(shí)有很多技巧，如果要做到象我一樣的速度其實(shí)是需要很深功力的，我測(cè)試用的機(jī)器是朋友的入門(mén)級(jí)服務(wù)器E5504 2.0cpu，4G內(nèi)存，普通7200轉(zhuǎn)硬盤(pán)。

posted @ 2010-10-03 14:19 袁斌閱讀(182) | 評(píng)論 (0) | 編輯收藏

HashCrack項(xiàng)目階段性總結(jié)

從開(kāi)始研究HashCrack兩個(gè)多月了，雖然中間忙其他項(xiàng)目間斷了近一個(gè)月，但總的耗在HashCrack上的時(shí)間也有一個(gè)多月，最近幾天又把web部分完善了一下，順便做了其他幾種加密算法，現(xiàn)在HashCrack支持MD5、SHA1、MYSQL5HASH、QQHASH四種算法，每種算法都制造了46億數(shù)據(jù)，總共占磁盤(pán)34.2 * 3G，qqhash和md5復(fù)用同一份數(shù)據(jù)。好在之前架構(gòu)做得比較好，換一種加密算法只要換兩個(gè)函數(shù)即可，所以加后面三種算法只花了1天時(shí)間。為了讓界面更友好一點(diǎn)，臨時(shí)學(xué)了下ajax，并學(xué)習(xí)了一下.net里面調(diào)用c++ dll，順便用c++做了一個(gè)dll提供四種算法的加密供web調(diào)用。新web頁(yè)面地址是 http://www.shprog.com/hashCrack.aspx，部分界面如下：

看上去一個(gè)簡(jiǎn)單頁(yè)面，背后2服務(wù)器程序（1web 1 hashcrackserver），103G數(shù)據(jù)，3個(gè)dll（hashencrypt.dll, page.dll, data.dll)，一個(gè)制造數(shù)據(jù)的exe，還有一個(gè)client工具，那工具好久沒(méi)升級(jí)了，client工具支持一次多條查詢。Hashcrackserver支持分布，client端工具也支持?jǐn)?shù)據(jù)分布和運(yùn)算，總的是一個(gè)云計(jì)算系統(tǒng)。

現(xiàn)在覺(jué)得我的這個(gè)頁(yè)面比www.cmd5.com www.md5.com.cn免費(fèi)版有價(jià)值一點(diǎn)，他們雖然總的數(shù)據(jù)可能多一些，但開(kāi)放的數(shù)據(jù)很少，特別mysql5 qqhash sha1要么沒(méi)有，要么沒(méi)開(kāi)放或只開(kāi)放了一點(diǎn)點(diǎn)數(shù)據(jù)，對(duì)免費(fèi)用戶實(shí)際用處不大。

posted @ 2010-10-03 14:19 袁斌閱讀(247) | 評(píng)論 (0) | 編輯收藏

HashCrack程序數(shù)據(jù)及索引設(shè)計(jì)

前文已經(jīng)講述，字母全排列是個(gè)驚人的數(shù)字，即使只遍歷小寫(xiě)字母和數(shù)字6個(gè)全排列也有36^6 = 2176782336，21億多個(gè)，7個(gè)排列36^7 = 78364164096，783億多，8個(gè)排列36^8 = 2821109907456，2.8萬(wàn)億多個(gè)，數(shù)字非常驚人。Md5反查是個(gè)string-string的映射，16-N個(gè)字符的映射，如果考慮hex模式的md5那就是32-N的映射，考慮映射人們最先想到的可能都是數(shù)據(jù)庫(kù)存儲(chǔ)方式，我也首先想到了用數(shù)據(jù)庫(kù)存儲(chǔ)，分別考察了一下sqlite和berkeleydb，但測(cè)試下來(lái)制造數(shù)據(jù)的速度很慢，sqlite加索引大概只能到5w條記錄/s，不加索引為10w條/s，berkeleydb用單條模式大概只能到4.5w條/s，這個(gè)速度已經(jīng)很慢了，更難于接受的是如果寫(xiě)1000w對(duì)sqlite加索引來(lái)說(shuō)不是耗時(shí)200s，而是2000s了，也就是說(shuō)耗時(shí)隨單個(gè)數(shù)據(jù)文件記錄的條數(shù)增多幾乎成平方模式遞增，而不是簡(jiǎn)單的線性遞增，這是很要命的，就算制造1億條數(shù)據(jù)耗時(shí)也是驚人，我的實(shí)測(cè)中沒(méi)有測(cè)試過(guò)用sqlite制造1000w條以上的數(shù)據(jù)，在我心目中已經(jīng)否定了那種模式。雖然我知道很多號(hào)稱有多少億條數(shù)據(jù)的網(wǎng)站其實(shí)都是用的數(shù)據(jù)庫(kù)，我不知道他們花了多少時(shí)間制造數(shù)據(jù)，或者幾天，或者幾個(gè)月，或者更長(zhǎng)時(shí)間，反正我對(duì)采用普通數(shù)據(jù)庫(kù)模式制造數(shù)據(jù)完全持否定態(tài)度，嵌入式速度太慢，其他數(shù)據(jù)庫(kù)則不光速度慢而且也不適合分布式應(yīng)用，難道用戶每裝個(gè)點(diǎn)還要裝個(gè)mysql之類的數(shù)據(jù)庫(kù)，幾乎不可能啊。

下面說(shuō)說(shuō)我的方法，我本來(lái)第一版本是計(jì)劃先不做文件式數(shù)據(jù)庫(kù)的，第一版本來(lái)只規(guī)劃了做內(nèi)存數(shù)據(jù)，充分榨取每一個(gè)字節(jié)，關(guān)于內(nèi)存數(shù)據(jù)庫(kù)我實(shí)現(xiàn)了好幾個(gè)版本，下面分別介紹一下：

版本1：hash模式

用char key[16];做鍵，char pass[n];做內(nèi)容，由于hash桶占用了一些字節(jié)：

DWORD h, nKeyLen; //hash鍵值, 字符串長(zhǎng)度

DWORD tag; //私有值，默認(rèn)為0提供給外部使用

bucket *pListNext; //hash表雙鏈的下一個(gè)節(jié)點(diǎn)

bucket *pListPrev; //hash表雙鏈的上一個(gè)節(jié)點(diǎn)

bucket *pNext; //拉鏈的下一個(gè)節(jié)點(diǎn)

VALUE second; //具體數(shù)據(jù)

_Elem first[0]; //first鍵

用這個(gè)hash模式大概存儲(chǔ)一個(gè)6個(gè)字符的串的md5信息花了50個(gè)字節(jié)，花費(fèi)太多，結(jié)果自然存不了多少數(shù)據(jù)，該方案作為第一驗(yàn)證方案，除了花費(fèi)內(nèi)存太多還是個(gè)能通過(guò)的方案。

版本2：hash簡(jiǎn)化方案

在上述版本基礎(chǔ)上簡(jiǎn)化桶設(shè)計(jì)，拋棄作為標(biāo)準(zhǔn)桶的一些字段，精簡(jiǎn)之后如下:

DWORD h; //hash鍵值

bucket *pNext; //拉鏈的下一個(gè)節(jié)點(diǎn)

byte nKeyLen; //字符串長(zhǎng)度

VALUE second; //具體數(shù)據(jù)

_Elem first[0]; //first鍵

該版本存儲(chǔ)一個(gè)6個(gè)字符的串的md5信息需要31個(gè)字節(jié)，比版本1少了很多，進(jìn)步一些了。

方案1和方案2速度都很快。

版本3：vector方案

考慮到hash占用內(nèi)存較多，采用vector方案，直接存儲(chǔ)

Char mm[16];

Char pass[n];

存儲(chǔ)一個(gè)6個(gè)字符的串的md5信息需要22個(gè)字節(jié)，該方案排序速度太慢，查找速度肯定也比不上版本1和版本2，之后還測(cè)試過(guò)將vector里面存儲(chǔ)指針，那種模式每個(gè)6個(gè)字符的串的md5信息占用內(nèi)存26個(gè)，接近hash版本，排序速度比直接存儲(chǔ)數(shù)據(jù)的好一點(diǎn)，但也還是很慢，總之這個(gè)方案作為一個(gè)過(guò)度方案最終也被放棄了。

方案4：全文件Hash緊縮方案

以上這些方案的特點(diǎn)是都存儲(chǔ)了char mm[16]; 也就是說(shuō)存儲(chǔ)部分都有計(jì)算出來(lái)的md5，經(jīng)過(guò)思考之后覺(jué)得可以放棄存儲(chǔ)md5，不存儲(chǔ)md5是個(gè)很妙的想法，繼續(xù)發(fā)揮hash思想，也不保存根據(jù)md5計(jì)算出來(lái)的hash值本身，只將該md5和串的信息關(guān)聯(lián)到hash值的模所在的索引節(jié)點(diǎn)，這樣就將索引節(jié)點(diǎn)信息減少到極致：

size_t coffset; //content offset low

unsigned short a:12; //切分為12, 4

unsigned short b:4; //4，為下一個(gè)沖突值的索引序數(shù)，如果沒(méi)有就為0

size_t nextindex; //沖突條目的存儲(chǔ)序號(hào)，為0表示沒(méi)有沖突

使用該索引可讓單文件最多支持內(nèi)容16T，最多687億記錄，具體實(shí)現(xiàn)的時(shí)候由于全使用文件所以速度比較慢，速度退化到sqlite之類同一級(jí)別了，不過(guò)這個(gè)設(shè)計(jì)思想為方案5提供了借鑒，如果跟方案5一樣用大塊內(nèi)存輔助，速度大概可以上升一個(gè)級(jí)別，不過(guò)由于沒(méi)有具體實(shí)現(xiàn)，待研究之后再做評(píng)估。

方案5：hash緊縮內(nèi)存方案

學(xué)習(xí)方案4的設(shè)計(jì)思想，考慮僅在內(nèi)存里面實(shí)現(xiàn)一個(gè)緊湊型文件，由于只考慮內(nèi)存可表示的32位范圍，所以簡(jiǎn)化索引節(jié)點(diǎn)定義如下：

Size_t coffset; pass相對(duì)于內(nèi)容區(qū)首的偏移

Size_t nindex; 沖突節(jié)點(diǎn)下一個(gè)序，如果為0則表示沒(méi)有沖突

內(nèi)容區(qū)存儲(chǔ)更簡(jiǎn)單，每個(gè)字符串直接保存，最后的0也保存，這樣每個(gè)字符串自然分開(kāi)，對(duì)一個(gè)6個(gè)字符長(zhǎng)的串來(lái)說(shuō)，保存一個(gè)信息只需要15個(gè)字節(jié)，真的是省啊，1億個(gè)字符串也只要大約1.5g左右硬盤(pán)就夠了。此方案雖然很妙，但實(shí)現(xiàn)的時(shí)候卻費(fèi)了一些周折，具體做的時(shí)候也做過(guò)好幾個(gè)版本，由于考慮該方案的內(nèi)容和索引最后都可以直接保存到文件，所以該方案對(duì)位置的保存都用的是相對(duì)位置，也由于想讓索引節(jié)點(diǎn)信息簡(jiǎn)單，最初是讓沖突索引采用線性步長(zhǎng)跳躍方法，測(cè)試之后發(fā)現(xiàn)這個(gè)方法速度奇慢，而且還有個(gè)非常討厭的問(wèn)題，隨著數(shù)據(jù)量的增多沖突擴(kuò)散越來(lái)越厲害，耗時(shí)非線性的陡峭增長(zhǎng)。放棄這個(gè)實(shí)現(xiàn)之后還是回到了經(jīng)典的拉鏈法，拉鏈法速度就是快，但拉鏈法處理索引節(jié)點(diǎn)雖然容易，但要讓索引信息可直接保存卻要花一些腦子，最后采用先用內(nèi)存擴(kuò)展拉鏈，待全部索引構(gòu)造好之后再把拉鏈出來(lái)的部分重新填到原始索引區(qū)中的空區(qū)，并修正對(duì)應(yīng)索引相對(duì)位置。這個(gè)方法的精妙之處在于既省空間又有速度，最令人興奮的是采用該方法耗時(shí)隨著數(shù)據(jù)量的增大是線性增長(zhǎng)，最后的實(shí)現(xiàn)在我的筆記本上大概100w/s，1億條記錄從字母組合到最終生成索引文件也只要不到2分鐘的時(shí)間，制造了一些數(shù)據(jù)之后統(tǒng)計(jì)了一下，沖突節(jié)點(diǎn)比例大概占26%-35%，也就是說(shuō)有65%以上的數(shù)據(jù)只要一次hash就直接命中，平均拉鏈長(zhǎng)度1.2左右，最長(zhǎng)拉鏈10，總體還是很滿意的。

原本第一版沒(méi)有考慮這個(gè)可存儲(chǔ)的方案，但花了幾天就搞定了一個(gè)基本可用的存儲(chǔ)方案還是很令人興奮的，雖然該存儲(chǔ)方案還有一些問(wèn)題沒(méi)有徹底解決，但已經(jīng)有進(jìn)一步處理的辦法，待下一個(gè)相對(duì)空閑時(shí)間段再仔細(xì)研究一下，定會(huì)有更簡(jiǎn)潔的實(shí)現(xiàn)做出來(lái)，至于待解決的是什么問(wèn)題以及如何解決那些問(wèn)題還是等我代碼寫(xiě)好了再寫(xiě)出來(lái)吧。

posted @ 2010-10-03 14:18 袁斌閱讀(204) | 評(píng)論 (0) | 編輯收藏

僅列出標(biāo)題

oldworm

云計(jì)算實(shí)踐2

定時(shí)器模塊改造

實(shí)用云計(jì)算環(huán)境簡(jiǎn)述

基于云計(jì)算的價(jià)格查詢實(shí)現(xiàn)

Json解析速度問(wèn)題

價(jià)格查詢網(wǎng)

HashCrack系統(tǒng)架構(gòu)

HashCrack程序數(shù)據(jù)及索引設(shè)計(jì)2

HashCrack項(xiàng)目階段性總結(jié)

HashCrack程序數(shù)據(jù)及索引設(shè)計(jì)

常用鏈接

留言簿(4)

隨筆分類

隨筆檔案

搜索

最新評(píng)論

閱讀排行榜

評(píng)論排行榜