爬
qq：286402937 架構(gòu)-開源交流 167813458 lomox群：41830909 https://github.com/caidongyun

多線程 md5 較驗(yàn) 和單線程校驗(yàn) 校驗(yàn)比較多的文件數(shù) 性能評價（初步成果）（2）

filecache 32m

內(nèi)存映射文件處理md5，io cpu都降下來了

254file 6.54g

多線程

線程數(shù) cpu_count()

cpu變?yōu)?8% io減為讀取16，348 寫入 2,000

[2013-04-19 12:09:02] check is ok!

[2013-04-19 12:10:06] check is ok!

64s

單線程

[2013-04-19 11:57:00] is ok

[2013-04-19 11:57:41] is ok

41s

-----------------------------------------------------------------------------------

多線程增加運(yùn)行線程數(shù)

cpu_count()*2;

線程分布給cpu親緣性設(shè)置一下

[2013-04-19 13:23:49] check is ok!

[2013-04-19 13:24:14] check is ok!

25s

cpu 占用53%最多峰值

cpu_count()*4;

線程分布給cpu親緣性設(shè)置一下

[2013-04-19 13:27:57] check is ok!

[2013-04-19 13:28:19] check is ok!

22s

cpu90%峰值

cpu_count()*8;

線程分布給cpu親緣性設(shè)置一下

[2013-04-19 13:30:44] check is ok!

[2013-04-19 13:30:51] check is ok!

7s

cpu100%峰值

cpu_count()*16

[2013-04-19 13:33:23] check is ok!

[2013-04-19 13:33:31] check is ok!

8s

cpu100%峰值

單線程：

2081 FILE

11.9G

[2013-04-24 15:32:28] is ok

[2013-04-24 15:41:31] is ok

9分鐘

磁盤到了讀取的極限 20-30m/s

cpu 未充滿 20%左右

io為瓶頸

總結(jié)：采用內(nèi)存映射文件，一次性加載文件到內(nèi)存塊計(jì)算md5 降io和io cpu損耗

采用線程和cpu親緣性，充分利用釋放出來的cpu計(jì)算能力。

實(shí)驗(yàn)記過254哥文件6.5g 4核機(jī)器開啟32哥線程分布到各個cpu 可以得到7秒的計(jì)算結(jié)果，比上面單線程未優(yōu)化提升6倍速度，比上面多線程未優(yōu)化提升9倍

一個解決方案：
一個文件：分段md5，特征為 md51|md52|md53……
一個連續(xù)讀取文件的線程，
每個md5作為一個任務(wù)計(jì)算。
讀取持續(xù)性讀取，到一個連續(xù)性內(nèi)存，分段任務(wù)給線程池分段計(jì)算，算完全體統(tǒng)計(jì)一下，
如果過程中出現(xiàn)里面局部有一個是失敗的，那么整個數(shù)據(jù)都不用驗(yàn)證了，其他任務(wù)也不用繼續(xù)了，直接認(rèn)為失敗，這個概率很高。減少計(jì)算一大堆，切分粒度中一點(diǎn)別切太多片。每個任務(wù)結(jié)束的時候都釋放內(nèi)存回收使用。
io在獨(dú)立線程，計(jì)算md5在線程池，這樣徹底分離，重復(fù)內(nèi)存持續(xù)復(fù)用。

posted on 2013-04-19 13:44 爬閱讀(2619) 評論(5) 編輯收藏引用所屬分類: life

評論:

# re: 多線程 md5 較驗(yàn) 和單線程校驗(yàn) 校驗(yàn)比較多的文件數(shù) 性能評價（初步成果）（2） 2013-04-19 17:17 | YzL

這個跟MD5有啥關(guān)系？？我還以為是單文件能多線程計(jì)算，這才跟MD5有點(diǎn)意義回復(fù) 更多評論

# re: 多線程 md5 較驗(yàn) 和單線程校驗(yàn) 校驗(yàn)比較多的文件數(shù) 性能評價（初步成果）（2） 2013-04-19 17:32 | 蔡東赟

@YzL
我這里有上w個文件，解決當(dāng)前問題為主要要務(wù)。

單文件多線程md5 沒有那個功力啊。回復(fù) 更多評論

# re: 多線程 md5 較驗(yàn) 和單線程校驗(yàn) 校驗(yàn)比較多的文件數(shù) 性能評價（初步成果）（2） 2013-05-03 12:08 | x x

磁盤的讀取極限絕對不止20M-30M. 回復(fù) 更多評論

# re: 多線程 md5 較驗(yàn) 和單線程校驗(yàn) 校驗(yàn)比較多的文件數(shù) 性能評價（初步成果）（2） 2013-05-05 21:42 | 蔡東赟

@x x

system占用 40m/s了
我程序也三四十m了。

回復(fù) 更多評論

# re: 多線程 md5 較驗(yàn) 和單線程校驗(yàn) 校驗(yàn)比較多的文件數(shù) 性能評價（初步成果）（2） 2013-05-05 21:43 | 蔡東赟

@x x

還有方案不？

上面是虛擬內(nèi)存用完了，卡在虛擬內(nèi)存了。
難道直接用系統(tǒng)的物理內(nèi)存
回復(fù) 更多評論

刷新評論列表

只有注冊用戶登錄后才能發(fā)表評論。
【推薦】100%開源！大型工業(yè)跨平臺軟件C++源碼提供，建模，組態(tài)！

相關(guān)文章: Nginx Openresty Windows v1.9.7.1002 發(fā)布，升級各種模塊。 RSA 后門是個什么鬼。 Deep Learning (Spark, Caffe, GPU) 多線程 md5 較驗(yàn) 和單線程校驗(yàn) 校驗(yàn)比較多的文件數(shù) 性能評價（初步成果）（2）多線程 md5 較驗(yàn) 和單線程校驗(yàn) 校驗(yàn)比較多的文件數(shù) 性能評價（1） webkit 移植要點(diǎn) 生活新的一年 zeromq 資料小記

網(wǎng)站導(dǎo)航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理