3 不使用鏈表的散列表 分離鏈接散列算法的缺點(diǎn)是使用一些鏈表。由于給新單元分配地址需要時(shí)間,因此這就導(dǎo)致算法的速度有些緩慢,同時(shí)算法實(shí)際上還要求第二種數(shù)據(jù)結(jié)構(gòu)的實(shí)現(xiàn)。解決沖突的另一個(gè)方法是當(dāng)沖突發(fā)生時(shí)就嘗試選擇另一個(gè)單元,直到找到空的單元。更正式地,單元hi(x)=(hash(x)+f(i))mod TableSize,且f(0)=0.函數(shù)f是沖突解決函數(shù)。因?yàn)樗械臄?shù)據(jù)都要置入表內(nèi),所以使用這個(gè)方案所需要的表要比分離鏈接散列需要的表大。一般說來,對(duì)不使用分離鏈接法的散列表來說,其裝填因子應(yīng)該低于λ=0.5。我們稱這樣的表為探測(cè)散列表(probing hash tables)。 (1)當(dāng)f是i的線性函數(shù)時(shí),為線性探測(cè),一般情況下f(i)=i,線性探測(cè)容易在占據(jù)的單元形成一些區(qū)塊,其結(jié)果成為一次聚集(primary clustering)。 (2)平方探測(cè)是消除線性探測(cè)中一次聚集問題的沖突解決方法。平方探測(cè)就是沖突函數(shù)為二次函數(shù)的探測(cè)方法。流行的選擇是f(i)=i2. 定理:如果使用平方探測(cè),且表的大小是素?cái)?shù),那么當(dāng)表至少有一半是空的時(shí)候,總能夠插入一個(gè)新的元素。 如果哪怕表有比一半多一個(gè)的位置被填滿,那么插入都有可能失敗(雖然這種可能性極小)。另外,表的大小是素?cái)?shù)也非常重要。如果表的大小不是素?cái)?shù),則備選單元 的個(gè)數(shù)可能會(huì)銳減。例如,若表的大小是16,那么備選單元只能在距散列值1,4或9遠(yuǎn)處。 在探測(cè)散列表中標(biāo)準(zhǔn)的刪除操作不能執(zhí)行,因?yàn)橄鄳?yīng)的單元可能已經(jīng)引起過沖突,元素繞過它存儲(chǔ)在別處。因此,探測(cè)散列表需要懶惰刪除。 實(shí)現(xiàn)探測(cè)散列表所需要的類接口在下圖中給出。這里不使用鏈表數(shù)組,而是使用散列表項(xiàng)單元數(shù)組。嵌套的類HashEntry存儲(chǔ)在info成員中一個(gè)項(xiàng)的狀態(tài),這個(gè)狀態(tài)可 以是ACTIVE,EMPTY或DELETED。
(3)最后一個(gè)沖突解決方法是雙散列(double hashing)。對(duì)于雙散列,一種流行的選擇是f(i)=i*hash2(x)。這個(gè)公式是說,將第二個(gè)散列函數(shù)應(yīng)用到x并在距離hash2(x),2hash2(x), ...等處探測(cè)。hash2(x)選擇不好將會(huì)非常糟糕。 .
posted on 2009-11-26 20:20 小羅羅 閱讀(481) 評(píng)論(0) 編輯 收藏 引用
Powered by: C++博客 Copyright © 小羅羅