3 不使用鏈表的散列表 分離鏈接散列算法的缺點是使用一些鏈表。由于給新單元分配地址需要時間,因此這就導致算法的速度有些緩慢,同時算法實際上還要求第二種數據結構的實現。解決沖突的另一個方法是當沖突發生時就嘗試選擇另一個單元,直到找到空的單元。更正式地,單元hi(x)=(hash(x)+f(i))mod TableSize,且f(0)=0.函數f是沖突解決函數。因為所有的數據都要置入表內,所以使用這個方案所需要的表要比分離鏈接散列需要的表大。一般說來,對不使用分離鏈接法的散列表來說,其裝填因子應該低于λ=0.5。我們稱這樣的表為探測散列表(probing hash tables)。 (1)當f是i的線性函數時,為線性探測,一般情況下f(i)=i,線性探測容易在占據的單元形成一些區塊,其結果成為一次聚集(primary clustering)。 (2)平方探測是消除線性探測中一次聚集問題的沖突解決方法。平方探測就是沖突函數為二次函數的探測方法。流行的選擇是f(i)=i2. 定理:如果使用平方探測,且表的大小是素數,那么當表至少有一半是空的時候,總能夠插入一個新的元素。 如果哪怕表有比一半多一個的位置被填滿,那么插入都有可能失敗(雖然這種可能性極小)。另外,表的大小是素數也非常重要。如果表的大小不是素數,則備選單元 的個數可能會銳減。例如,若表的大小是16,那么備選單元只能在距散列值1,4或9遠處。 在探測散列表中標準的刪除操作不能執行,因為相應的單元可能已經引起過沖突,元素繞過它存儲在別處。因此,探測散列表需要懶惰刪除。 實現探測散列表所需要的類接口在下圖中給出。這里不使用鏈表數組,而是使用散列表項單元數組。嵌套的類HashEntry存儲在info成員中一個項的狀態,這個狀態可 以是ACTIVE,EMPTY或DELETED。
(3)最后一個沖突解決方法是雙散列(double hashing)。對于雙散列,一種流行的選擇是f(i)=i*hash2(x)。這個公式是說,將第二個散列函數應用到x并在距離hash2(x),2hash2(x), ...等處探測。hash2(x)選擇不好將會非常糟糕。 .
posted on 2009-11-26 20:20 小羅羅 閱讀(482) 評論(0) 編輯 收藏 引用
Powered by: C++博客 Copyright © 小羅羅