We do not always find visible happiness in proportion to visible virtue

夢幻白樺林

C++博客 :: 首頁 :: 聯系 :: 聚合

:: 管理

14 Posts :: 58 Stories :: 62 Comments :: 0 Trackbacks

公告

常用鏈接

留言簿(5)

隨筆檔案(14)

文章分類(58)

文章檔案(58)

相冊

THELASTONE

友情鏈接

rubypdf
VC知識庫
電子學歷信息平臺
哈嘟的blog
紅飛的blog
我的簡歷
我的資源網
許道松的blog

搜索

閱讀排行榜

分散數據庫壓力,分表處理設計思想和實現

一、概述

分表是個目前算是比較炒的比較流行的概念，特別是在大負載的情況下，分表是一個良好分散數據庫壓力的好方法。

首先要了解為什么要分表，分表的好處是什么。我們先來大概了解以下一個數據庫執行SQL的過程：

接收到SQL --> 放入SQL執行隊列 --> 使用分析器分解SQL --> 按照分析結果進行數據的提取或者修改 --> 返回處理結果

當然，這個流程圖不一定正確，這只是我自己主觀意識上這么我認為。那么這個處理過程當中，最容易出現問題的是什么？就是說，如果前一個SQL沒有執行完畢的話，后面的SQL是不會執行的，因為為了保證數據的完整性，必須對數據表文件進行鎖定，包括共享鎖和獨享鎖兩種鎖定。共享鎖是在鎖定的期間，其它線程也可以訪問這個數據文件，但是不允許修改操作，相應的，獨享鎖就是整個文件就是歸一個線程所有，其它線程無法訪問這個數據文件。一般MySQL中最快的存儲引擎MyISAM，它是基于表鎖定的，就是說如果一鎖定的話，那么整個數據文件外部都無法訪問，必須等前一個操作完成后，才能接收下一個操作，那么在這個前一個操作沒有執行完成，后一個操作等待在隊列里無法執行的情況叫做阻塞，一般我們通俗意義上叫做“鎖表”。

鎖表直接導致的后果是什么？就是大量的SQL無法立即執行，必須等隊列前面的SQL全部執行完畢才能繼續執行。這個無法執行的SQL就會導致沒有結果，或者延遲嚴重，影響用戶體驗。

特別是對于一些使用比較頻繁的表，比如SNS系統中的用戶信息表、論壇系統中的帖子表等等，都是訪問量大很大的表，為了保證數據的快速提取返回給用戶，必須使用一些處理方式來解決這個問題，這個就是我今天要聊到的分表技術。

分表技術顧名思義，就是把若干個存儲相同類型數據的表分成幾個表分表存儲，在提取數據的時候，不同的用戶訪問不同的表，互不沖突，減少鎖表的幾率。比如，目前保存用戶分表有兩個表，一個是user_1表，還有一個是 user_2 表，兩個表保存了不同的用戶信息，user_1 保存了前10萬的用戶信息，user_2保存了后10萬名用戶的信息，現在如果同時查詢用戶 heiyeluren1 和 heiyeluren2 這個兩個用戶，那么就是分表從不同的表提取出來，減少鎖表的可能。

我下面要講述的兩種分表方法我自己都沒有實驗過，不保證準確能用，只是提供一個設計思路。下面關于分表的例子我假設是在一個貼吧系統的基礎上來進行處理和構建的。（如果沒有用過貼吧的用戶趕緊Google一下）

二、基于基礎表的分表處理

這個基于基礎表的分表處理方式大致的思想就是：一個主要表，保存了所有的基本信息，如果某個項目需要找到它所存儲的表，那么必須從這個基礎表中查找出對應的表名等項目，好直接訪問這個表。如果覺得這個基礎表速度不夠快，可以完全把整個基礎表保存在緩存或者內存中，方便有效的查詢。

我們基于貼吧的情況，構建假設如下的3張表：

1. 貼吧版塊表: 保存貼吧中版塊的信息

2. 貼吧主題表：保存貼吧中版塊中的主題信息，用于瀏覽

3. 貼吧回復表：保存主題的原始內容和回復內容

“貼吧版塊表”包含如下字段：

版塊ID board_id int(10)

版塊名稱 board_name char(50)

子表ID table_id smallint(5)

產生時間 created datetime

“貼吧主題表”包含如下字段：

主題ID topic_id int(10)

主題名稱 topic_name char(255)

版塊ID board_id int(10)

創建時間 created datetime

“貼吧回復表”的字段如下：

回復ID reply_id int(10)

回復內容 reply_text text

主題ID topic_id int(10)

版塊ID board_id int(10)

創建時間 created datetime

那么上面保存了我們整個貼吧中的表結構信息，三個表對應的關系是：

版塊 --> 多個主題

主題 --> 多個回復

那么就是說，表文件大小的關系是：

版塊表文件 < 主題表文件 < 回復表文件

所以基本可以確定需要對主題表和回復表進行分表，已增加我們數據檢索查詢更改時候的速度和性能。

看了上面的表結構，會明顯發現，在“版塊表”中保存了一個"table_id"字段，這個字段就是用于保存一個版塊對應的主題和回復都是分表保存在什么表里的。

比如我們有一個叫做“PHP”的貼吧，board_id是1，子表ID也是1，那么這條記錄就是：

board_id | board_name | table_id | created

1 | PHP | 1 | 2007-01-19 00:30:12

相應的，如果我需要提取“PHP”吧里的所有主題，那么就必須按照表里保存的table_id來組合一個存儲了主題的表名稱，比如我們主題表的前綴是“topic_”，那么組合出來“PHP”吧對應的主題表應該是：“topic_1”，那么我們執行：

Select * FROM topic_1 Where board_id = 1 orDER BY topic_id DESC LIMIT 10

這樣就能夠獲取這個主題下面回復列表，方便我們進行查看，如果需要查看某個主題下面的回復，我們可以繼續使用版塊表中保存的“table_id”來進行查詢。比如我們回復表的前綴是“reply_”，那么就可以組合出“PHP”吧的ID為1的主題的回復：

Select * FROM reply_1 Where topic_id = 1 orDER BY reply_id DESC LIMIT 10

這里，我們能夠清晰的看到，其實我們這里使用了基礎表，基礎表就是我們的版塊表。那么相應的，肯定會說：基礎表的數據量大了以后如何保證它的速度和效率？

當然，我們就必須使得這個基礎表保持最好的速度和性能，比如，可以采用MySQL的內存表來存儲，或者保存在內存當中，比如Memcache之類的內存緩存等等，可以按照實際情況來進行調整。

一般基于基礎表的分表機制在SNS、交友、論壇等Web2.0網站中是個比較不錯的解決方案，在這些網站中，完全可以單獨使用一個表來來保存基本標識和目標表之間的關系。使用表保存對應關系的好處是以后擴展非常方便，只需要增加一個表記錄。

【優勢】增加刪除節點非常方便，為后期升級維護帶來很大便利

【劣勢】需要增加表或者對某一個表進行操作，還是無法離開數據庫，會產生瓶頸

三、基于 Hash 算法的分表處理

我們知道Hash表就是通過某個特殊的Hash算法計算出的一個值，這個值必須是惟一的，并且能夠使用這個計算出來的值查找到需要的值，這個叫做哈希表。

我們在分表里的hash算法跟這個思想類似：通過一個原始目標的ID或者名稱通過一定的hash算法計算出數據存儲表的表名，然后訪問相應的表。

繼續拿上面的貼吧來說，每個貼吧有版塊名稱和版塊ID，那么這兩項值是固定的，并且是惟一的，那么我們就可以考慮通過對這兩項值中的一項進行一些運算得出一個目標表的名稱。

現在假如我們針對我們這個貼吧系統，假設系統最大允許1億條數據，考慮每個表保存100萬條記錄，那么整個系統就不超過100個表就能夠容納。按照這個標準，我們假設在貼吧的版塊ID上進行hash，獲得一個key值，這個值就是我們的表名，然后訪問相應的表。

我們構造一個簡單的hash算法：

function get_hash($id){

$str = bin2hex($id);

$hash = substr($str, 0, 4);

if (strlen($hash)<4){

$hash = str_pad($hash, 4, "0");

}

return $hash;

}

算法大致就是傳入一個版塊ID值，然后函數返回一個4位的字符串，如果字符串長度不夠，使用0進行補全。

比如：get_hash(1)，輸出的結果是“3100”，輸入：get_hash(23819)，得到的結果是：3233，那么我們經過簡單的跟表前綴組合，就能夠訪問這個表了。那么我們需要訪問ID為1的內容時候哦，組合的表將是：topic_3100、reply_3100，那么就可以直接對目標表進行訪問了。

當然，使用hash算法后，有部分數據是可能在同一個表的，這一點跟hash表不同，hash表是盡量解決沖突，我們這里不需要，當然同樣需要預測和分析表數據可能保存的表名。

如果需要存儲的數據更多，同樣的，可以對版塊的名字進行hash操作，比如也是上面的二進制轉換成十六進制，因為漢字比數字和字母要多很多，那么重復幾率更小，但是可能組合成的表就更多了，相應就必須考慮一些其它的問題。

歸根結底，使用hash方式的話必須選擇一個好的hash算法，才能生成更多的表，然數據查詢的更迅速。

【 優點hash算法直接得出目標表名稱，效率很高 】通過

【劣勢】擴展性比較差，選擇了一個hash算法，定義了多少數據量，以后只能在這個數據量上跑，不能超過過這個數據量，可擴展性稍差

四、其它問題

1. 搜索問題

現在我們已經進行分表了，那么就無法直接對表進行搜索，因為你無法對可能系統中已經存在的幾十或者幾百個表進行檢索，所以搜索必須借助第三方的組件來進行，比如Lucene作為站內搜索引擎是個不錯的選擇。

2. 表文件問題

我們知道MySQL的MyISAM引擎每個表都會生成三個文件，*.frm、*.MYD、*.MYI 三個文件，分表用來保存表結構、表數據和表索引。Linux下面每個目錄下的文件數量最好不要超過1000個，不然檢索數據將更慢，那么每個表都會生成三個文件，相應的如果分表超過300個表，那么將檢索非常慢，所以這時候就必須再進行分，比如在進行數據庫的分離。

使用基礎表，我們可以新增加一個字段，用來保存這個表保存在什么數據。使用Hash的方式，我們必須截取hash值中第幾位來作為數據庫的名字。這樣，完好的解決這個問題。

五、總結

在大負載應用當中，數據庫一直是個很重要的瓶頸，必須要突破，本文講解了兩種分表的方式，希望對很多人能夠有啟發的作用。當然，本文代碼和設想沒有經過任何代碼測試，所以無法保證設計的完全準確實用，具體還是需要讀者在使用過程當中認真分析實施。

posted on 2007-09-18 09:51 colys 閱讀(592) 評論(0) 編輯收藏引用所屬分類: C#.Net 、oracle 、SqlServer

只有注冊用戶登錄后才能發表評論。


相關文章: 把多個文件寫入到一個文件中去并能分解利用客戶端緩存對網站進行優化[轉] nhibernate入門系列: many-to-many映射[轉] 分散數據庫壓力,分表處理設計思想和實現非遞歸遍歷文件夾如何獲得數據庫里所有表的名字（SQL+C#）兩個 DataTable 刪改的算法 c#時間格式化字符串詳解 c#操作excel后關閉excel.exe的方法進制介紹

網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

夢幻白樺林

公告

常用鏈接

留言簿(5)

隨筆檔案(14)

文章分類(58)

文章檔案(58)

相冊

友情鏈接

搜索

最新隨筆

最新評論

閱讀排行榜