国产精品区免费视频,欧美三日本三级少妇三99,99国内精品久久

關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤

Posted on 2008-03-04 22:13 Wang Jinbo 閱讀(9339) 評(píng)論(18) 編輯收藏引用所屬分類: 算法與數(shù)學(xué)

Hash Table（哈希表）就是根據(jù)對(duì)象的特征進(jìn)行定位的一種數(shù)據(jù)結(jié)構(gòu)。一個(gè)簡(jiǎn)單的實(shí)現(xiàn)方法是將對(duì)象通過(guò)某種運(yùn)算得到一個(gè)整數(shù)，再讓這個(gè)整數(shù)除以哈希表的大小，取其余數(shù)，以此作為對(duì)象的存儲(chǔ)位置。
很多的書(shū)上認(rèn)為，哈希表的大小最好是選擇一個(gè)大的質(zhì)數(shù)，并且最好不要和2的整數(shù)冪接近。《算法導(dǎo)論》上還認(rèn)為，最不好的選擇是哈希表的大小恰好是2的整數(shù)冪，對(duì)此的解釋是（只記得大意）：因?yàn)橛?jì)算機(jī)是用二進(jìn)制存儲(chǔ)的，當(dāng)一個(gè)二進(jìn)制數(shù)除以一個(gè)2的整數(shù)冪的時(shí)候，結(jié)果就是這個(gè)二進(jìn)制數(shù)的后幾位，前面的位都丟失了，也就意味著丟失了一部分信息，進(jìn)而導(dǎo)致哈希表中的元素分布不均勻。
這個(gè)解釋看似合理，但我不認(rèn)同。不光是我，Java開(kāi)發(fā)小組的人也不認(rèn)同。Java里的HashSet類偏偏就把哈希表的大小設(shè)置成2的整數(shù)冪。可以設(shè)想一下，對(duì)于自然數(shù)集合中的任意一個(gè)數(shù)x，對(duì)于一個(gè)正整數(shù)M，難道x mod M為某些值的概率會(huì)大些嗎？顯然不是，因?yàn)閤是在自然數(shù)集合里任選的，當(dāng)選取的次數(shù)非常多時(shí)，x mod M的結(jié)果應(yīng)該是平均分布在[0,M-1]中。我認(rèn)為《算法導(dǎo)論》的錯(cuò)誤在于先引入了二進(jìn)制，其實(shí)二進(jìn)制和哈希表的“碰撞”根本沒(méi)有什么關(guān)系；然后說(shuō)對(duì)除以2^n的余數(shù)會(huì)丟失位，丟失信息，這顯然也不對(duì)，因?yàn)橹灰獂>=M，x mod M的結(jié)果總是要“丟失一些信息的”。照《算法導(dǎo)論》的說(shuō)法，如果計(jì)算機(jī)采用十進(jìn)制，那哈希表的容量是10^n的話豈不是很糟？這種解釋顯然站不住腳。
我認(rèn)為對(duì)于x mod M這樣的哈希函數(shù)來(lái)說(shuō)，好壞應(yīng)該取決于x的生成方式和M的值。比如一個(gè)字符串“ABC”，如果我讓x("ABC")=65*128^2+66*128+67，即把字符串當(dāng)成一個(gè)128進(jìn)制的整數(shù)，那么若M=128，那就很糟糕了。因?yàn)檫@樣無(wú)論是什么字符串，最終結(jié)果只取決于最后一個(gè)字符，這才會(huì)造成分布不均勻。

以上只是我個(gè)人的見(jiàn)解，有不妥之處歡迎指出。

Feedback

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論

2008-03-04 23:15 by turingbook

吹毛求疵一下：hash應(yīng)該譯為散列。
哈希這個(gè)譯法顯然是當(dāng)年初譯者誤以為人名了。

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論

2008-03-05 00:27 by helixapp

樓主理解很正確，假如10進(jìn)制的話, 10^n 次方就不好，任意非素?cái)?shù)都可以表示為 m1^n1 * m2^n2 * m3^n3 .... 所以說(shuō)素?cái)?shù)比其他的數(shù)字更加適合啊。

不過(guò)對(duì)于計(jì)算機(jī)，2^n 次方的確是很糟的hash size, 想想你對(duì)ip地址，對(duì)內(nèi)存地址求hash吧...

不過(guò)MOD的hash方法的確有缺陷，linux kernel里面用的乘以一個(gè)大素?cái)?shù)然后取高位的方法比這個(gè)好多了

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論

2008-03-05 00:29 by helixapp

BTW 我敢肯定java里面HashSet類沒(méi)有使用單純求余的方法來(lái)算hash

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤[未登錄](méi) 回復(fù) 更多評(píng)論

2008-03-05 08:46 by cppexplore

java里的hash是乘以31的：hash=hash<<5-hash+ch。
據(jù)說(shuō)就英文而言，乘以33的是最優(yōu)的：hash=hash<<5＋hash+ch，這個(gè)也是apache stl等一大堆著名項(xiàng)目或庫(kù)的hash方式。
特定應(yīng)用而言，還是要根據(jù)特定的數(shù)據(jù)，設(shè)計(jì)最優(yōu)的hash函數(shù)。

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論

2008-03-05 08:56 by cppexplore

上面的語(yǔ)句外面都是foreach(ch in str){}。
hash表的數(shù)量應(yīng)該不是影響hash的因素吧想不出來(lái)原因。貌似一般都把hash表的桶數(shù)量設(shè)置的很大，是實(shí)際使用到的3倍多。

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論

2008-03-05 11:25 by abettor

同意樓主的見(jiàn)解。

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論

2008-03-05 17:11 by #Ant

說(shuō)的有一些道理，感覺(jué)hash表的大小還是要根據(jù)實(shí)際情況來(lái)選取。

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論

2008-04-18 15:12 by 萬(wàn)鐵

有理，對(duì)于mod的方法，確實(shí)與素?cái)?shù)無(wú)關(guān)。
大于mod值的所謂信息只能“丟失”，只保留小于mod值的那些“位”。

要降低這個(gè)影響，在散列函數(shù)的計(jì)算過(guò)程中，這些低位所代表的信息也要能體現(xiàn)輸入。比如對(duì)于字符串的散列函數(shù)，最好能夠把高位的字符串折回到低位去，這樣即使取余，也會(huì)保證均勻性，只不過(guò)，有一個(gè)元素對(duì)于桶的密度會(huì)增大。

能力有限，太形式化的描述，不會(huì)。

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論

2008-08-18 19:46 by roofjava@163.com

關(guān)于這個(gè)，我也認(rèn)為和2的冪數(shù)無(wú)關(guān)。但是這可能跟哈希函數(shù)的設(shè)計(jì)有關(guān)，怎么說(shuō)呢，很多哈希函數(shù)的設(shè)計(jì)本身是根據(jù)二進(jìn)制進(jìn)行的，所以《算法導(dǎo)論》才會(huì)得出丟失信息的結(jié)論。

不過(guò)最好還是用大數(shù)據(jù)測(cè)試比較下。

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論

2008-10-19 18:23 by Phoenix

哎，樓主的思維還不夠嚴(yán)謹(jǐn)……

“如果計(jì)算機(jī)采用十進(jìn)制，那哈希表的容量是10^n的話豈不是很糟？”
給1234，容量是10，求余得4，僅由最后一位得出，前面的數(shù)直接被無(wú)視了，而對(duì)9求余就不是這樣了。

“不光是我，Java開(kāi)發(fā)小組的人也不認(rèn)同。”
你知道他們用的散列函數(shù)僅僅是求余？他們二者的思想沒(méi)有矛盾，是你糾結(jié)的這個(gè)矛盾。

樓主的質(zhì)疑態(tài)度還是很好的。

歡迎批評(píng)我：phoenix.0220@gmail.com

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論

2009-03-25 16:33 by ofan

正好看到《算法導(dǎo)論》中的hash table部分
我想《算法導(dǎo)論》中說(shuō)表的大小不應(yīng)為2的整數(shù)次方，應(yīng)該是有針對(duì)性的，不是普遍的規(guī)律。

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤[未登錄](méi) 回復(fù) 更多評(píng)論

2010-08-05 14:12 by steven

一個(gè)理想的HASH函數(shù)，輸出的值的每一位都“散列”的，無(wú)所謂丟失哪一部分來(lái)適應(yīng)“桶”的大小

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論

2012-03-12 02:32 by Wallace

豁然開(kāi)朗啊

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤[未登錄](méi) 回復(fù) 更多評(píng)論

2013-01-25 16:08 by richard

使用質(zhì)數(shù)是有意義的, 雖然準(zhǔn)確的證明我不會(huì)(我也沒(méi)看到哪里有證明),
但是可以簡(jiǎn)單說(shuō)明一下.

用最簡(jiǎn)單的hash函數(shù) h(k) = k mod m來(lái)說(shuō)明.
對(duì)于任意的k1, k2,
假設(shè)事件A為k1 mod m == k2 mod m, 即k1, k2產(chǎn)生沖突的概率為p(A).
事件B_i為k1 mod m取得某個(gè)余數(shù)i, p(B_i) = 1/m,
事件C_j為k2 mod m取得某個(gè)余數(shù)j, p(C_j) = 1/m,

1. 如果m為質(zhì)數(shù):
由于k1, k2是任意選取的, 所以事件B_i和C_j是相互獨(dú)立的,
p(A) = p(B_x) * p(C_x) = 1/(m^2)

2. 如果m不為質(zhì)數(shù):
這時(shí)m可以寫(xiě)成m = a * b, (a, b不等于1或m)
假設(shè)事件D為k1和k2具有公因數(shù)a(或b), 概率為p(D),
(用~D表示D不發(fā)生, 即k1,k2互質(zhì))
* 這里p(D)我不會(huì)求, 不好意思, 不過(guò)概率論里面有, 結(jié)果是6/(pi^2) *
1) 那么, 如果在D不發(fā)生的情況下, 概率和1是一樣的,
即p(A|~D) = 1/(m^2)
2) 如果D發(fā)生, 假設(shè)k1 = c1 * a, k2 = c2 * a,
事件A可轉(zhuǎn)化為c1 mod b == c2 mod b,
即p(A|D) = 1/(b^2)
于是, 我們得到了p(A) = p(A|~D) + p(A|D)
= (1-p(D)) * 1/(m^2) + p(D) * 1/(b^2)
= 1/(m^2) + p(D) * (1/(b^2) - 1/(m^2))
顯然p(D) >= 0, 1/(b^2) - 1/(m^2) > 0,
于是, p(A) = 1/(m^2) + p(D) * (1/(b^2) - 1/(m^2)) > 1/(m^2)

綜上所述, 當(dāng)m為質(zhì)數(shù)時(shí), 事件A即產(chǎn)生碰撞的概率比m不為質(zhì)數(shù)時(shí)要小.
推廣到任意選取多個(gè)數(shù)的情況下也是成立的.

有些人可能會(huì)覺(jué)得對(duì)于任意的m, k mod m都能取到[0, m-1]的數(shù)的概率是
一樣的, 這確實(shí)沒(méi)錯(cuò). 但我們關(guān)注的問(wèn)題是如何減少碰撞.

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤[未登錄](méi) 回復(fù) 更多評(píng)論

2013-01-25 16:54 by richard

不好意思，上面關(guān)于p(D)的說(shuō)明不太正確，改為
“
假設(shè)事件D為k1, k2, m具有公因數(shù)(a或b, 假設(shè)為a), 概率為p(D), (用~D表示D不發(fā)生)
* 這里p(D)我不會(huì)求, 不好意思, 不過(guò)兩個(gè)數(shù)互質(zhì)的概率是6/(pi^2) *
”

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論

2013-03-02 01:13 by Aule

上面的證明我覺(jué)得有問(wèn)題，

2) 如果D發(fā)生, 假設(shè)k1 = c1 * a, k2 = c2 * a,
事件A可轉(zhuǎn)化為c1 mod b == c2 mod b,

這一步隱含的內(nèi)容是：
(c1*a) mod (a*b) = c1 mod b
但是同余并不具有可除性這個(gè)等式是不成立的因此這一步我認(rèn)為是錯(cuò)了

例如k1=2*7=14,k2=5*7=35
即 c1=2,c2=5,b=u7
c1,c2在模b環(huán)境下并不同余

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論

2014-02-23 23:11 by rookieaca

沒(méi)看過(guò)算法導(dǎo)論，不過(guò)我的理解是否均勻，要看 x 的特征，以及選取的算法。
對(duì)于,實(shí)際應(yīng)用中, 基于內(nèi)存地址來(lái)做HASH的話，可以標(biāo)志內(nèi)存的某一塊數(shù)據(jù)（OOP可以是堆中分配的對(duì)象的地址)。在這種情況下由于很多實(shí)際的機(jī)器實(shí)現(xiàn)的地址的對(duì)齊方式,分配的內(nèi)存地址都是2的倍數(shù)。在這種情況下hash(address) = (address)MOD M,
你想想如果M=2*x的話，分布情況會(huì)是怎么樣？

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤 回復(fù) 更多評(píng)論

2014-03-25 16:13 by jaub

算法導(dǎo)論說(shuō)的是正確的！
樓主說(shuō)“，因?yàn)閤是在自然數(shù)集合里任選的，當(dāng)選取的次數(shù)非常多時(shí)，x mod M的結(jié)果應(yīng)該是平均分布在[0,M-1]中”。那么如果存在這樣一個(gè)集合，它的元素的低位嚴(yán)重偏斜到某幾個(gè)值，x對(duì)M=2^n取余后，剩下的低位值決定元素在哈希表中的位置，而低位會(huì)聚集在某些值上，導(dǎo)致哈希表嚴(yán)重沖突。

刷新評(píng)論列表

只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。
【推薦】100%開(kāi)源！大型工業(yè)跨平臺(tái)軟件C++源碼提供，建模，組態(tài)！

相關(guān)文章: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤一道Google面試題的解答

網(wǎng)站導(dǎo)航: 博客園 IT新聞 BlogJava 博問(wèn) Chat2DB 管理

深藍(lán)色的空間

導(dǎo)航

常用鏈接

留言簿(2)

隨筆分類

隨筆檔案

我的Blog

我的朋友

最新隨筆

搜索

最新評(píng)論

閱讀排行榜

評(píng)論排行榜

關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤

Feedback

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤[未登錄](méi) 回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤[未登錄](méi) 回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤[未登錄](méi) 回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤[未登錄](méi) 回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤 回復(fù) 更多評(píng)論

深藍(lán)色的空間

導(dǎo)航

常用鏈接

留言簿(2)

隨筆分類

隨筆檔案

我的Blog

我的朋友

最新隨筆

搜索

最新評(píng)論

閱讀排行榜

評(píng)論排行榜

關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤

Feedback

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤 回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤 回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤 回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤[未登錄](méi) 回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤 回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤 回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤 回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤 回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤 回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤 回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤 回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤[未登錄](méi) 回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤 回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤[未登錄](méi) 回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤[未登錄](méi) 回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤 回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤 回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤 回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論

# re: 關(guān)于哈希表——一個(gè)常見(jiàn)的謬誤回復(fù) 更多評(píng)論