亚洲欧美日韩成人高清在线一区,久久久久久久一区二区三区,欧美精品www

數(shù)據(jù)庫分表處理設計思想和實現(xiàn)

一、概述

分表是個目前算是比較炒的比較流行的概念，特別是在大負載的情況下，分表是一個良好分散數(shù)據(jù)庫壓力的好方法。

首先要了解為什么要分表，分表的好處是什么。我們先來大概了解以下一個數(shù)據(jù)庫執(zhí)行SQL的過程：
接收到SQL --> 放入SQL執(zhí)行隊列 --> 使用分析器分解SQL --> 按照分析結(jié)果進行數(shù)據(jù)的提取或者修改 --> 返回處理結(jié)果

當然，這個流程圖不一定正確，這只是我自己主觀意識上這么我認為。那么這個處理過程當中，最容易出現(xiàn)問題的是什么？就是說，如果前一個SQL沒有執(zhí)行完畢的話，后面的SQL是不會執(zhí)行的，因為為了保證數(shù)據(jù)的完整性，必須對數(shù)據(jù)表文件進行鎖定，包括共享鎖和獨享鎖兩種鎖定。共享鎖是在鎖定的期間，其它線程也可以訪問這個數(shù)據(jù)文件，但是不允許修改操作，相應的，獨享鎖就是整個文件就是歸一個線程所有，其它線程無法訪問這個數(shù)據(jù)文件。一般MySQL中最快的存儲引擎MyISAM，它是基于表鎖定的，就是說如果一鎖定的話，那么整個數(shù)據(jù)文件外部都無法訪問，必須等前一個操作完成后，才能接收下一個操作，那么在這個前一個操作沒有執(zhí)行完成，后一個操作等待在隊列里無法執(zhí)行的情況叫做阻塞，一般我們通俗意義上叫做“鎖表”。

鎖表直接導致的后果是什么？就是大量的SQL無法立即執(zhí)行，必須等隊列前面的SQL全部執(zhí)行完畢才能繼續(xù)執(zhí)行。這個無法執(zhí)行的SQL就會導致沒有結(jié)果，或者延遲嚴重，影響用戶體驗。

特別是對于一些使用比較頻繁的表，比如SNS系統(tǒng)中的用戶信息表、論壇系統(tǒng)中的帖子表等等，都是訪問量大很大的表，為了保證數(shù)據(jù)的快速提取返回給用戶，必須使用一些處理方式來解決這個問題，這個就是我今天要聊到的分表技術(shù)。

分表技術(shù)顧名思義，就是把若干個存儲相同類型數(shù)據(jù)的表分成幾個表分表存儲，在提取數(shù)據(jù)的時候，不同的用戶訪問不同的表，互不沖突，減少鎖表的幾率。比如，目前保存用戶分表有兩個表，一個是user_1表，還有一個是 user_2 表，兩個表保存了不同的用戶信息，user_1 保存了前10萬的用戶信息，user_2保存了后10萬名用戶的信息，現(xiàn)在如果同時查詢用戶 heiyeluren1 和 heiyeluren2 這個兩個用戶，那么就是分表從不同的表提取出來，減少鎖表的可能。

我下面要講述的兩種分表方法我自己都沒有實驗過，不保證準確能用，只是提供一個設計思路。下面關(guān)于分表的例子我假設是在一個貼吧系統(tǒng)的基礎(chǔ)上來進行處理和構(gòu)建的。（如果沒有用過貼吧的用戶趕緊Google一下）

二、基于基礎(chǔ)表的分表處理

這個基于基礎(chǔ)表的分表處理方式大致的思想就是：一個主要表，保存了所有的基本信息，如果某個項目需要找到它所存儲的表，那么必須從這個基礎(chǔ)表中查找出對應的表名等項目，好直接訪問這個表。如果覺得這個基礎(chǔ)表速度不夠快，可以完全把整個基礎(chǔ)表保存在緩存或者內(nèi)存中，方便有效的查詢。

我們基于貼吧的情況，構(gòu)建假設如下的3張表：

1. 貼吧版塊表: 保存貼吧中版塊的信息
2. 貼吧主題表：保存貼吧中版塊中的主題信息，用于瀏覽
3. 貼吧回復表：保存主題的原始內(nèi)容和回復內(nèi)容

“貼吧版塊表”包含如下字段：
版塊ID      board_id         int(10)
版塊名稱   board_name     char(50)
子表ID      table_id           smallint(5)
產(chǎn)生時間   created            datetime

“貼吧主題表”包含如下字段：
主題ID         topic_id       int(10)
主題名稱       topic_name    char(255)
版塊ID         board_id         int(10)
創(chuàng)建時間      created          datetime

“貼吧回復表”的字段如下：
回復ID       reply_id          int(10)
回復內(nèi)容     reply_text       text
主題ID       topic_id          int(10)
版塊ID       board_id        int(10)
創(chuàng)建時間     created           datetime

那么上面保存了我們整個貼吧中的表結(jié)構(gòu)信息，三個表對應的關(guān)系是：

版塊 --> 多個主題
主題 --> 多個回復

那么就是說，表文件大小的關(guān)系是：
版塊表文件 < 主題表文件 < 回復表文件

所以基本可以確定需要對主題表和回復表進行分表，已增加我們數(shù)據(jù)檢索查詢更改時候的速度和性能。

看了上面的表結(jié)構(gòu)，會明顯發(fā)現(xiàn)，在“版塊表”中保存了一個"table_id"字段，這個字段就是用于保存一個版塊對應的主題和回復都是分表保存在什么表里的。

比如我們有一個叫做“PHP”的貼吧，board_id是1，子表ID也是1，那么這條記錄就是：

board_id | board_name | table_id | created
1 | PHP | 1 | 2007-01-19 00:30:12

相應的，如果我需要提取“PHP”吧里的所有主題，那么就必須按照表里保存的table_id來組合一個存儲了主題的表名稱，比如我們主題表的前綴是“topic_”，那么組合出來“PHP”吧對應的主題表應該是：“topic_1”，那么我們執(zhí)行：

SELECT * FROM topic_1 WHERE board_id = 1 ORDER BY topic_id DESC LIMIT 10

這樣就能夠獲取這個主題下面回復列表，方便我們進行查看，如果需要查看某個主題下面的回復，我們可以繼續(xù)使用版塊表中保存的“table_id”來進行查詢。比如我們回復表的前綴是“reply_”，那么就可以組合出“PHP”吧的ID為1的主題的回復：

SELECT * FROM reply_1 WHERE topic_id = 1 ORDER BY reply_id DESC LIMIT 10

這里，我們能夠清晰的看到，其實我們這里使用了基礎(chǔ)表，基礎(chǔ)表就是我們的版塊表。那么相應的，肯定會說：基礎(chǔ)表的數(shù)據(jù)量大了以后如何保證它的速度和效率？

當然，我們就必須使得這個基礎(chǔ)表保持最好的速度和性能，比如，可以采用MySQL的內(nèi)存表來存儲，或者保存在內(nèi)存當中，比如Memcache之類的內(nèi)存緩存等等，可以按照實際情況來進行調(diào)整。

一般基于基礎(chǔ)表的分表機制在SNS、交友、論壇等Web2.0網(wǎng)站中是個比較不錯的解決方案，在這些網(wǎng)站中，完全可以單獨使用一個表來來保存基本標識和目標表之間的關(guān)系。使用表保存對應關(guān)系的好處是以后擴展非常方便，只需要增加一個表記錄。

【優(yōu)勢】增加刪除節(jié)點非常方便，為后期升級維護帶來很大便利
【劣勢】需要增加表或者對某一個表進行操作，還是無法離開數(shù)據(jù)庫，會產(chǎn)生瓶頸

三、基于Hash算法的分表處理

我們知道Hash表就是通過某個特殊的Hash算法計算出的一個值，這個值必須是惟一的，并且能夠使用這個計算出來的值查找到需要的值，這個叫做哈希表。

我們在分表里的hash算法跟這個思想類似：通過一個原始目標的ID或者名稱通過一定的hash算法計算出數(shù)據(jù)存儲表的表名，然后訪問相應的表。

繼續(xù)拿上面的貼吧來說，每個貼吧有版塊名稱和版塊ID，那么這兩項值是固定的，并且是惟一的，那么我們就可以考慮通過對這兩項值中的一項進行一些運算得出一個目標表的名稱。

現(xiàn)在假如我們針對我們這個貼吧系統(tǒng)，假設系統(tǒng)最大允許1億條數(shù)據(jù)，考慮每個表保存100萬條記錄，那么整個系統(tǒng)就不超過100個表就能夠容納。按照這個標準，我們假設在貼吧的版塊ID上進行hash，獲得一個key值，這個值就是我們的表名，然后訪問相應的表。

我們構(gòu)造一個簡單的hash算法：

function get_hash($id){
    $str = bin2hex($id);
    $hash = substr($str, 0, 4);
    if (strlen($hash)<4){
        $hash = str_pad($hash, 4, "0");
    }
    return $hash;
}

算法大致就是傳入一個版塊ID值，然后函數(shù)返回一個4位的字符串，如果字符串長度不夠，使用0進行補全。

比如：get_hash(1)，輸出的結(jié)果是“3100”，輸入：get_hash(23819)，得到的結(jié)果是：3233，那么我們經(jīng)過簡單的跟表前綴組合，就能夠訪問這個表了。那么我們需要訪問ID為1的內(nèi)容時候哦，組合的表將是：topic_3100、reply_3100，那么就可以直接對目標表進行訪問了。

當然，使用hash算法后，有部分數(shù)據(jù)是可能在同一個表的，這一點跟hash表不同，hash表是盡量解決沖突，我們這里不需要，當然同樣需要預測和分析表數(shù)據(jù)可能保存的表名。

如果需要存儲的數(shù)據(jù)更多，同樣的，可以對版塊的名字進行hash操作，比如也是上面的二進制轉(zhuǎn)換成十六進制，因為漢字比數(shù)字和字母要多很多，那么重復幾率更小，但是可能組合成的表就更多了，相應就必須考慮一些其它的問題。

歸根結(jié)底，使用hash方式的話必須選擇一個好的hash算法，才能生成更多的表，然數(shù)據(jù)查詢的更迅速。

【優(yōu)點hash算法直接得出目標表名稱，效率很高】通過
【劣勢】擴展性比較差，選擇了一個hash算法，定義了多少數(shù)據(jù)量，以后只能在這個數(shù)據(jù)量上跑，不能超過過這個數(shù)據(jù)量，可擴展性稍差

四、其它問題

1. 搜索問題
現(xiàn)在我們已經(jīng)進行分表了，那么就無法直接對表進行搜索，因為你無法對可能系統(tǒng)中已經(jīng)存在的幾十或者幾百個表進行檢索，所以搜索必須借助第三方的組件來進行，比如Lucene作為站內(nèi)搜索引擎是個不錯的選擇。

2. 表文件問題
我們知道MySQL的MyISAM引擎每個表都會生成三個文件，*.frm、*.MYD、*.MYI 三個文件，分表用來保存表結(jié)構(gòu)、表數(shù)據(jù)和表索引。Linux下面每個目錄下的文件數(shù)量最好不要超過1000個，不然檢索數(shù)據(jù)將更慢，那么每個表都會生成三個文件，相應的如果分表超過300個表，那么將檢索非常慢，所以這時候就必須再進行分，比如在進行數(shù)據(jù)庫的分離。

使用基礎(chǔ)表，我們可以新增加一個字段，用來保存這個表保存在什么數(shù)據(jù)。使用Hash的方式，我們必須截取hash值中第幾位來作為數(shù)據(jù)庫的名字。這樣，完好的解決這個問題。

五、總結(jié)

在大負載應用當中，數(shù)據(jù)庫一直是個很重要的瓶頸，必須要突破，本文講解了兩種分表的方式，希望對很多人能夠有啟發(fā)的作用。當然，本文代碼和設想沒有經(jīng)過任何代碼測試，所以無法保證設計的完全準確實用，具體還是需要讀者在使用過程當中認真分析實施。

posted on 2009-06-09 13:16 肥仔閱讀(212) 評論(0) 編輯收藏引用所屬分類: 數(shù)據(jù)庫

只有注冊用戶登錄后才能發(fā)表評論。
【推薦】100%開源！大型工業(yè)跨平臺軟件C++源碼提供，建模，組態(tài)！

相關(guān)文章: Berkeley DB 的DLL需要的包 Berkeley DB，用事務，可以避免數(shù)據(jù)丟失 Berkeley DB 簡單入門 BerkeleyDB 數(shù)據(jù)丟失，及使用感受 HamsterDB學習筆記從B樹談到R樹之B樹的c實現(xiàn) BerkeleyDB存儲算法差別 Berkeley DB的基本操作：創(chuàng)建，插入，檢索，刪除 BerkeleyDB的優(yōu)點 DBT - DB_DBT_MALLOC/DB_DBT_REALLOC

網(wǎng)站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

woaidongmao

數(shù)據(jù)庫分表處理設計思想和實現(xiàn)

導航

常用鏈接

留言簿(10)

隨筆分類

隨筆檔案

搜索

最新評論

閱讀排行榜

評論排行榜