大龍的博客

留言簿(43)

收藏夾

ps (rss)

隨筆檔案

文章檔案

閱讀排行榜

評論排行榜

常用鏈接

統計

隨筆 - 864
文章 - 2
評論 - 378
引用 - 0

深入研究B樹索引（一）--- 轉

1.B樹索引的相關概念

索引與表一樣，也屬于段（segment）的一種。里面存放了用戶的數據，跟表一樣需要占用磁盤空間。只

不過，在索引里的數據存放形式與表里的數據存放形式非常的不一樣。在理解索引時，可以想象一本書，其中書的內容就相當于表里的數據，而書前面的目錄就相當于該表的索引。同時，通常情況下，索引所占用的磁盤空間要比表要小的多，其主要作用是為了加快對數據的搜索速度，也可以用來保證數據的唯一性。

但是，索引作為一種可選的數據結構，你可以選擇為某個表里的創建索引，也可以不創建。這是因為一旦創建了索引，就意味著oracle對表進行DML（包括INSERT、UPDATE、DELETE）時，必須處理額外的工作量（也就是對索引結構的維護）以及存儲方面的開銷。所以創建索引時，需要考慮創建索引所帶來的查詢性能方面的提高，與引起的額外的開銷相比，是否值得。

從物理上說，索引通常可以分為：分區和非分區索引、常規B樹索引、位圖（bitmap）索引、翻轉（reverse）索引等。其中，B樹索引屬于最常見的索引，由于我們的這篇文章主要就是對B樹索引所做的探討，因此下面只要說到索引，都是指B樹索引。

B樹索引是一個典型的樹結構，其包含的組件主要是：

1) 葉子節點（Leaf node）：包含條目直接指向表里的數據行。

2) 分支節點（Branch node）：包含的條目指向索引里其他的分支節點或者是葉子節點。

3) 根節點（Root node）：一個B樹索引只有一個根節點，它實際就是位于樹的最頂端的分支節點。

可以用下圖一來描述B樹索引的結構。其中，B表示分支節點，而L表示葉子節點。

對于分支節點塊（包括根節點塊）來說，其所包含的索引條目都是按照順序排列的（缺省是升序排列，也可以在創建索引時指定為降序排列）。每個索引條目（也可以叫做每條記錄）都具有兩個字段。第一個字段表示當前該分支節點塊下面所鏈接的索引塊中所包含的最小鍵值；第二個字段為四個字節，表示所鏈接的索引塊的地址，該地址指向下面一個索引塊。在一個分支節點塊中所能容納的記錄行數由數據塊大小以及索引鍵值的長度決定。比如從上圖一可以看到，對于根節點塊來說，包含三條記錄，分別為（0 B1）、（500 B2）、（1000 B3），它們指向三個分支節點塊。其中的0、500和1000分別表示這三個分支節點塊所鏈接的鍵值的最小值。而B1、B2和B3則表示所指向的三個分支節點塊的地址。

對于葉子節點塊來說，其所包含的索引條目與分支節點一樣，都是按照順序排列的（缺省是升序排列，也可以在創建索引時指定為降序排列）。每個索引條目（也可以叫做每條記錄）也具有兩個字段。第一個字段表示索引的鍵值，對于單列索引來說是一個值；而對于多列索引來說則是多個值組合在一起的。第二個字段表示鍵值所對應的記錄行的ROWID，該ROWID是記錄行在表里的物理地址。如果索引是創建在非分區表上或者索引是分區表上的本地索引的話，則該ROWID占用6個字節；如果索引是創建在分區表上的全局索引的話，則該ROWID占用10個字節。

知道這些信息以后，我們可以舉個例子來說明如何估算每個索引能夠包含多少條目，以及對于表來說，所產生的索引大約多大。對于每個索引塊來說，缺省的PCTFREE為10％，也就是說最多只能使用其中的90％。同時9i以后，這90％中也不可能用盡，只能使用其中的87％左右。也就是說，8KB的數據塊中能夠實際用來存放索引數據的空間大約為6488（8192×90％×88％）個字節。

假設我們有一個非分區表，表名為warecountd，其數據行數為130萬行。該表中有一個列，列名為goodid，其類型為char（8），那么也就是說該goodid的長度為固定值：8。同時在該列上創建了一個B樹索引。

在葉子節點中，每個索引條目都會在數據塊中占一行空間。每一行用2到3個字節作為行頭，行頭用來存放標記以及鎖定類型等信息。同時，在第一個表示索引的鍵值的字段中，每一個索引列都有1個字節表示數據長度，后面則是該列具體的值。那么對于本例來說，在葉子節點中的一行所包含的數據大致如下圖二所示：

從上圖可以看到，在本例的葉子節點中，一個索引條目占18個字節。同時我們知道8KB的數據塊中真正可以用來存放索引條目的空間為6488字節，那么在本例中，一個數據塊中大約可以放360（6488/18）個索引條目。而對于我們表中的130萬條記錄來說，則需要大約3611（1300000/360）個葉子節點塊。

而對于分支節點里的一個條目（一行）來說，由于它只需保存所鏈接的其他索引塊的地址即可，而不需要保存具體的數據行在哪里，因此它所占用的空間要比葉子節點要少。分支節點的一行中所存放的所鏈接的最小鍵值所需空間與上面所描述的葉子節點相同；而存放的索引塊的地址只需要4個字節，比葉子節點中所存放的ROWID少了2個字節，少的這2個字節也就是ROWID中用來描述在數據塊中的行號所需的空間。因此，本例中在分支節點中的一行所包含的數據大致如下圖三所示：

從上圖可以看到，在本例的分支節點中，一個索引條目占16個字節。根據上面葉子節點相同的方式，我們可以知道一個分支索引塊可以存放大約405（6488/16）個索引條目。而對于我們所需要的3611個葉子節點來說，則總共需要大約9個分支索引塊。

這樣，我們就知道了我們的這個索引有2層，第一層為1個根節點，第二層為9個分支節點，而葉子節點數為3611個，所指向的表的行數為1300000行。但是要注意，在oracle的索引中，層級號是倒過來的，也就是說假設某個索引有N層，則根節點的層級號為N，而根節點下一層的分支節點的層級號為N-1，依此類推。對本例來說，9個分支節點所在的層級號為1，而根節點所在的層級號為2。

轉自：http://space.itpub.net/?uid-9842-action-viewspace-itemid-321866

posted on 2009-08-31 15:25 大龍閱讀(434) 評論(0) 編輯收藏引用

只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品