http://doc.chinaunix.net/db2/201009/893927.shtml表分區是一種數據組織方案,它根據一列或多列中的值把表數據劃分為多個稱為數據分區 的存儲對象。分區的表能夠包含的數據比普通的表多得多;另外,通過利用稱為分區消除 的過程,針對分區表運行的查詢通常比針對非分區表運行時執行速度更快,需要的磁盤 I/O 更少
。(DB2 優化器能夠感知分區,在執行查詢時只掃描相關的數據分區。)
在這篇專欄文章中,我將討論如何創建分區表,解釋分區表的定義如何決定各個記錄的存儲位置。
范圍分區表
數據分區也稱為范圍(當前 DB2 只支持范圍分區方案),一個數據分區包含一個行子集,這些行存儲在與表中其他行集不同的地方。不同的數據分區可以駐留在不同的表空間中,也可以駐留在相同的表空間中。CREATE TABLE 語句的 PARTITION BY 子句中提供的信息決定表數據的分區方式。這個可選子句的語法取決于是希望讓 DB2 在指定的表數據范圍內均勻地生成每個分區范圍,還是要手工控制每個范圍的邊界。對于給定的表數據范圍自動生成分區的語法是:
PARTITION BY <RANGE>
([ColumnName] <NULLS LAST | NULLS FIRST> ,...)
(
STARTING <FROM> [Start | MINVALUE | MAXVALUE] |
STARTING <FROM> ([Start | MINVALUE | MAXVALUE] ,...)
<INCLUSIVE | EXCLUSIVE>
ENDING <AT> [End | MINVALUE | MAXVALUE] |
ENDING <AT> ([End | MINVALUE | MAXVALUE] ,...)
<INCLUSIVE | EXCLUSIVE>
EVERY <(>[Constant] <DurationLabel> <)>
,...)
手工指定分區的語法是:
PARTITION BY <RANGE>
([ColumnName] <NULLS LAST | NULLS FIRST> ,...)
(
<PARTITION [PartitionName]>
STARTING <FROM> [Start | MINVALUE | MAXVALUE] |
STARTING <FROM> ([Start | MINVALUE | MAXVALUE] ,...)
<INCLUSIVE | EXCLUSIVE>
ENDING <AT> [End | MINVALUE | MAXVALUE] |
ENDING <AT> ([End | MINVALUE | MAXVALUE] ,...)
<INCLUSIVE | EXCLUSIVE>
<IN [TSName]>
<INDEX IN [IndexTSName]>
<LONG IN [LongTSName]>
其中:
ColumnName:用名稱指定一個或多個列(最多 16 列),這些列的值用來決定數據行應該存儲在哪個數據分區中。(指定的列組成表的分區鍵 — 參見邊欄 “選擇表分區鍵”。)數據類型為 LONG VARCHAR、LONG VARGRAPHIC、BLOB、CLOB、DBCLOB、XML、基于這些數據類型的 distinct 類型和結構化數據類型的列都不能作為數據分區鍵的組成部分。
PartitionName:指定分配給要創建的數據分區的惟一名稱。
Start:指定每個數據分區的范圍下限。
End:指定每個數據分區的范圍上限。
Constant:在使用語法的自動生成形式時,指定每個數據分區范圍的寬度。從 STARTING FROM 值開始創建數據分區,數據分區的范圍內包含指定數量的值。支持這種語法的條件是分區鍵由單一列組成,這一列的數據類型是數字、日期、時間或時間戳。
DurationLabel:如果分區鍵列的數據類型是日期、時間或時間戳,這個參數指定與 Constant 值相關的時間單位。這個參數的有效值是:YEAR、YEARS、MONTH、MONTHS、DAY、DAYS、HOUR、HOURS、MINUTE、MINUTES、SECOND、SECONDS、MICROSECOND 和 MICROSECONDS。
TSName:指定存儲每個數據分區的表空間。
IndexTSName:指定存儲每個數據分區的分區索引的表空間。
LongTSName:指定存儲長列的值的表空間。
注意:尖括號 (< >) 中的參數是可選的;方括號 ([ ]) 中的參數或選項是必需的,必須提供它們;逗號后面跟著省略號 (...) 表示前面的參數可以重復出現多次。
因此,如果希望創建一個名為 SALES 的分區表,把每個季度的數據存儲在單獨的分區中,每個分區駐留在不同的表空間中,那么可以執行以下 CREATE TABLE 語句:
CREATE TABLE sales
(sales_date DATE,
sales_amt NUMERIC(5,2))
IN tbsp0, tbsp1, tbsp2, tbsp3
PARTITION BY RANGE (sales_date)
(STARTING '1/1/2010' ENDING '12/31/2010'
EVERY 3 MONTHS)
圖 1 說明生成的表是什么樣的。
圖 1. 一個簡單分區表中存儲的數據

另一方面,如果希望創建一個名為 INVENTORY 的分區表,把物品編號在 1 到 100 之間的行存儲在一個表空間中的一個分區中,把編號在 101 到 200 之間的行存儲在另一個表空間中的另一個分區中,以此類推,那么可以執行下面的 SQL 語句:
CREATE TABLE inventory
(item_no INT,
desc VARCHAR(20))
PARTITION BY (item_no NULLS FIRST)
(PARTITION PRODUCE STARTING MINVALUE ENDING 100 IN tbsp0,
PARTITION DAIRY STARTING 101 ENDING 200 IN tbsp1,
PARTITION BAKERY STARTING 201 ENDING 300 IN tbsp2,
PARTITION MEAT STARTING 301 ENDING 400 IN tbsp3)
選擇表分區鍵
選擇有效的表分區鍵列對于發揮表分區的優勢非常重要。最有效的表分區鍵列是有利于分區消除的列。例如,如果通常按日期查詢表中的記錄,那么應該用日期或時間列進行表分區。
同樣,如果希望隨著時間的推移把表數據的一部分刪除或存檔,應該根據期望的記錄存檔方式進行表分區。例如,如果希望把三年前的所有數據都存檔,應該按周、月或季度進行表分區,這樣就可以分別在每周、每月或每季度末刪除一個老分區。
對于這個示例,ITEM_NO 值在 1 到 100 之間的行將存儲在名為 PRODUCE 的分區中(這個分區的數據寫到表空間 TBSP0 中),ITEM_NO 值在 101 到 200 之間的行將存儲在名為 DAIRY 的分區中(這個分區的數據寫到表空間 TBSP1 中),依次類推;ITEM_NO 值為 NULL 的行將存儲在 PRODUCE 分區中。
一定要注意,當指定 NULLS FIRST 選項時,第一個分區必須從 MINVALUE 開始。(同樣,如果使用 NULLS LAST 選項,最后一個分區必須結束于 MAXVALUE。)否則,在插入分區鍵列為 NULL 值的記錄時,會產生 “data out of bounds” 錯誤。另外,每個分區的數據、索引和長列數據可以放在不同的表空間中。如果不為索引或長列指定表空間,分區索引和長列數據會存儲在與數據相同的表空間中。
在默認情況下,范圍包含邊界本身。要想防止在某一分區中存儲特定的記錄,可以用 EXCLUSIVE 選項創建范圍。例如:
CREATE TABLE sales
(sales_date DATE,
sales_amt NUMERIC(5,2))
IN tbsp0, tbsp1, tbsp2, tbsp3
PARTITION BY RANGE (sales_date)
(STARTING '1/1/2010' ENDING '3/31/2010' EXCLUSIVE,
STARTING '3/31/2010' ENDING '6/30/2010' EXCLUSIVE,
STARTING '6/30/2010' ENDING '9/30/2010' EXCLUSIVE,
STARTING '9/30/2010' ENDING '12/31/2010')
在這個示例中,銷售日期為 3/31/2010 的記錄不會存儲在表空間 TBSP0 中,而是存儲在表空間 TBSP1 中。
當在分區表中插入行時,會根據鍵值及其所處的范圍自動地把它放到適當的數據分區中。如果鍵值不處于表的任何范圍內,插入操作就會失敗并產生一個錯誤。
輕松地移入和移出數據
使用分區表的另一個優點是,可以輕松地在表中添加新數據(作為新的數據分區),同時可以輕松地刪除并存檔老數據。在下一篇專欄文章中,我將講解添加(移入)和刪除(移出)數據分區的過程。還要討論 DB2 9.7 中的改進如何大大加快移入和移出數據分區的速度,減少這些操作產生的干擾。