亚洲精品在线观,国产一区二区三区四区hd,在线成人中文字幕

muduo多機協作網絡編程示例一：單詞計數及排序

去年我寫了《Muduo 網絡編程示例》系列文章，這些文章已經收入《Linux 多線程服務端編程：使用 muduo C++ 網絡庫》一書。這些文章講的基本都是運行在單機上的網絡程序，每個例子都只有一個程序（第7.13節例外）。我接下來打算繼續寫幾篇文章，談一談分布在多臺機器上、協作發揮作用的網絡編程例子。

今天先講第一個，單詞計數及排序。單詞計數（word count），顧名思義就是統計一個文本文件里邊每個詞出現了多少次。排序指的是按出現次數從多到少排序，也可以把問題改為“找出出現次數最多的1000個單詞”。

這個問題有三個層次，第一是輸入文件比較小，能完全放入內存；第二是輸入文件比較大，不能一次性都放入內存；第三是輸入文件分布在多臺機器上，這需要用到網絡編程。

第一個層次很好解決，幾十行代碼就搞定了。https://gist.github.com/4519962

第二個層次不難解決，基本思路是分而治之，先hash分塊統計單詞出現次數，將每一塊按出現次數排序，最后歸并。代碼見 https://github.com/chenshuo/recipes/blob/master/puzzle/query_freq.cc ，分析見 http://www.cnblogs.com/baiyanhuang/archive/2012/11/11/2764914.html 。

第三個層次也不難，可以當做網絡編程的練習來做。如果有合適的框架，可以輕松解決，因為單詞計數是map reduce的經典范例，對出現次數排序也可以再用一步map reduce搞定（估計需要一個好的 shuffle 函數，簡單hash是不行的）。

如果用普通網絡編程，一種設計思路如下圖，其中方框代表機器，橢圓代表輸入輸出文件，圓角矩形代表進程。思路跟第二個層次一樣，先hash到多個shard文件（由hasher和receiver負責），再對每個shard文件排序（由sender負責），最后歸并（merger）。

topk

注意這種思路適合求top K元素，不適合按出現次數排序全部單詞，因為最終結果收集在一臺機器上。目前這個sender實現的一個限制是，每個shard必須能全部放入內存，因為sender對shard排序是在內存中進行的。如果數據更大，還需要實現單機外部排序。

圖中hasher和receiver的代碼見muduo示例中的 muduo/examples/wordcount ；sender和merger的代碼見 https://github.com/chenshuo/recipes/tree/master/topk 。注意merger沒有使用muduo，而是采用阻塞網絡編程。有興趣的讀者可以思考其背后的原因。要想發揮 merger 正常的性能，需要修改 /usr/include/boost/asio/basic_socket_streambuf.hpp ，增大緩沖區，即 enum { buffer_size = 8192 };

這可以看作是map reduce的原始實現，或者說用map reduce的思想手寫了一些原始工具。如果把map reduce比作C語言，這里的幾個程序相當于匯編寫的函數。

以后我再寫一個按出現次數全排序的例子吧，需要替換這里的sender和merger。

(.完.)

posted on 2013-01-13 04:01 陳碩閱讀(3618) 評論(2) 編輯收藏引用所屬分類: muduo

只有注冊用戶登錄后才能發表評論。
【推薦】100%開源！大型工業跨平臺軟件C++源碼提供，建模，組態！

相關文章: 《Linux 多線程服務端編程：使用 muduo C++ 網絡庫》電子版上市用muduo實現memcached協議的例子 muduo多機協作網絡編程示例一：單詞計數及排序《Linux 多線程服務端編程：使用 muduo C++ 網絡庫》網上書店預訂新書預告：《Linux 多線程服務端編程——使用 muduo C++ 網絡庫》《Muduo 網絡庫：現代非阻塞C++網絡編程》演講發布一個適合服務端C++程序的高效日志庫關于 TCP 并發連接的幾個思考題與試驗 Muduo 多線程模型：一個 Sudoku 服務器演變談一談網絡編程學習經驗(06-08更新)

網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

# re: muduo多機協作網絡編程示例一：單詞計數及排序[未登錄] 2013-01-14 10:58 春秋十二月

# re: muduo多機協作網絡編程示例一：單詞計數及排序 2013-01-16 11:38 UCoding

陳碩的Blog

muduo多機協作網絡編程示例一：單詞計數及排序

評論

導航

統計

常用鏈接

隨筆分類

隨筆檔案

相冊

搜索

最新評論

閱讀排行榜

評論排行榜