牽著老婆滿街逛

嚴以律己,寬以待人. 三思而后行.
GMail/GTalk: yanglinbo#google.com;
MSN/Email: tx7do#yahoo.com.cn;
QQ: 3 0 3 3 9 6 9 2 0 .

統計

隨筆 - 1513
文章 - 45
評論 - 907
引用 - 0

公告

言論：
1.每日自省；
2.享受人生；
3.盡力而為；
4.堅持不懈；
5.切莫急躁；
6.慎言敏行；
7.動心忍性；
8.上善若水。

常用鏈接

留言簿(11)

隨筆分類(466)

隨筆檔案(1513)

文章分類(46)

文章檔案(45)

相冊

收藏夾(39)

搜索

積分與排名

積分 - 2539502
排名 - 2

閱讀排行榜

洗牌的學問

轉載自:http://www.thecodeway.com/blog/?p=680

    幾乎所有的程序員都寫過類似于“洗牌”的算法，也就是將一個數組隨機打亂后輸出，雖然很簡單，但是深入研究起來，這個小小的算法也是大有講究。我在面試程序員的時候，就會經常讓他們當場寫一個洗牌的函數，從中可以觀察到他們對于這個問題的理解和寫程序的基本功。
    在深入討論之前，必須先定義出一個基本概念：究竟洗牌算法的本質是什么？也就是說，什么樣的洗牌結果是“正確”的？
    云風曾經有一篇博文，專門討論了這個問題，他也給出了一個比較確切的定義，在經過洗牌函數后，如果能夠保證每一個數據出現在所有位置的概率是相等的，那么這種算法是符合要求的。在這個前提下，盡量降低時間復雜度和空間復雜度就能得到好的算法。

第一個洗牌算法：

隨機抽出一張牌，檢查這張牌是否被抽取過，如果已經被抽取過，則重新抽取，直到找到沒被抽出過的牌，然后把這張牌放入洗好的隊列中，重復該過程，直到所有的牌被抽出。

大概是比較符合大腦對于洗牌的直觀思維，這個算法經常出現在我遇到的面試結果中，雖然它符合我們對于洗牌算法的基本要求，但這個算法并不好，首先它的復雜度為O(N²)，而且需要額外的內存空間保存已經被抽出的牌的索引。所以當數據量比較大時，會極大降低效率。

第二個算法：

設牌的張數為n，首先準備n個不容易碰撞的隨機數，然后進行排序，通過排序可以得到一個打亂次序的序列，按照這個序列將牌打亂。

這也是一個符合要求的算法，但是同樣需要額外的存儲空間，在復雜度上也會取決于所采用的排序算法，所以仍然不是一個好的算法。

第三個算法：

每次隨機抽出兩張牌交換，重復交換一定次數次后結束

void shuffle(int* data, int length)
{
    for(int i=0; i<SWAP_COUNTS; i++)
    {
        //Rand(min, max)返回[min, max)區間內的隨機數
        int index1 = Rand(0, length); 
        int index2 = Rand(0, length);
        std::swap(data[index1], data[index2]);
    }
}

這又是一個常見的洗牌方法，比較有意思的問題是其中的“交換次數”，我們該如何確定一個合適的交換次數？簡單的計算，交換m次后，具體某張牌始終沒有被抽到的概率為((n-2)/n)^m，如果我們要求這個概率小于1/1000,那么m>-3*ln(10)/ln(1-2/n),對于52張牌，這個數大約是176次，需要注意的是，這是滿足“具體某張牌”始終沒有被抽到的概率，如果需要滿足“任意一張牌”沒被抽到的概率小于1/1000，需要的次數還要大一些，但這個概率計算起來比較復雜，有興趣的朋友可以試一下。
Update: 這個概率是，推算過程可以參考這里，根據這個概率，需要交換280次才能符合要求

第四個算法：

從第一張牌開始，將每張牌和隨機的一張牌進行交換

void shuffle(int* data, int length)
{
    for(int i=0; i<length; i++)
    {
        int index = Rand(0, length); 
        std::swap(data[i], data[index]);
     }
}

很明顯，這個算法是符合我們先前的要求的，時間復雜度為O(N)，而且也不需要額外的臨時空間，似乎我們找到了最優的算法，然而事實并非如此，看下一個算法。

第五個算法：

void shuffle(int* data, int length)
{
    for(int i=1; i<length; i++)
    {
        int index = Rand(0, i); 
        std::swap(data[i], data[index]);
     }
}

一個有意思的情況出現了，這個算法和第三種算法非常相似，從直覺來說，似乎使數據“雜亂”的能力還要弱于第三種，但事實上，這種算法要強于第三種。要想嚴格的證明這一點并不容易，需要一些數學功底，有興趣的朋友可以參照一下這篇論文，或者matrix67大牛的博文，也可以這樣簡單理解一下，對于n張牌的數據，實際排列的可能情況為n! 種，但第四種算法能夠產生n^n種排列，遠遠大于實際的排列情況，而且n^n不能被n!整除，所以經過算法四所定義的牌與牌之間的交換程序，很可能一張牌被換來換去又被換回到原來的位置，所以這個算法不是最優的。而算法五輸出的可能組合恰好是n!種，所以這個算法才是完美的。
事情并沒有結束，如果真的要找一個最優的算法，還是請出最終的冠軍吧！

第六個算法：

void shuffle(int* data, int length)
{
    std::random_shuffle(data, data+length);
}

沒錯，用c++的標準庫函數才是最優方案，事實上，std::random_shuffle在實現上也是采取了第四種方法，看來還是那句話，“不要重復制造輪子”

posted on 2010-02-24 20:53 楊粼波閱讀(984) 評論(1) 編輯收藏引用

# re: 洗牌的學問 2010-02-25 20:59 ccsdu2009

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

牽著老婆滿街逛

導航

統計

公告

常用鏈接

留言簿(11)

隨筆分類(466)

隨筆檔案(1513)

文章分類(46)

文章檔案(45)

相冊

收藏夾(39)

工具官網

技術網站

開源網站

其他窩點

收藏網站

銀行官網

友情鏈接

資源共享

搜索

積分與排名

最新評論

閱讀排行榜

洗牌的學問

評論

只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理