WisKeyのLullaby

    
            words : 822,529
        
            u-words : 12,591
        
            nodes : 34,266
        
            trie-mem : 1,247,308
        
            datrie-mem : 483,376

Trie的實現我已經做了一些優化，初始每個節點的指針數組 size 為0，當有節點插入時，再開 max(size, char) 大小的數組。trie-mem 顯示的是已經除去節點自身的大小，即該數值體現的是申請的指針數組總大小。

trie-mem / ptr-size / nodes = 9.1，說明平均每個節點（內節點+葉節點）分配了9.1個指針。相對完全Trie樹而言，已經節省了很多空間了。但這樣算浪費的量明顯是不夠精確的，nodes 應該換成內節點數（這里就用 u-words 代替葉節點，雖然兩者是不等同的），因為葉節點未分配指針數組，并應該減去真正有用的轉移邊。這個浪費的值應該是 (trie-mem / ptr-size – nodes) / (nodes – u-words) = 12.8。

DATrie的浪費值應該是 (datrie-mem / (2 * int-size) – nodes) / (nodes – u-words) – 1 = 1.2，可見 DATrie 的空間復雜度還是相當不錯的。當然DATrie的實現我還沒有進行深入的優化，基本就是上一篇文章里的代碼做的測試。如果按那文章里提到的優化方法繼續優化，空間的浪費值會更低。

但DATrie存在一個比較大的問題，就是它的空間是預先申請好的，因為根本無從得出它實際的大小，如果空間不夠大了再重新分配的話，那勢必又得消耗時間，而且還是無法解決空間是否足夠的問題。另外，附加的信息域最好保存為指針的形式，否則重排時復制的復雜度就可能會很高。

總結，DATrie還是比較適合在工程中應用，尤其對于數據集比較固定的。

posted on 2010-07-23 08:52 威士忌閱讀(1046) 評論(0) 編輯收藏引用

只有注冊用戶登錄后才能發表評論。
【推薦】100%開源！大型工業跨平臺軟件C++源碼提供，建模，組態！



網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

WisKeyのLullaby

公告

常用鏈接

留言簿(1)

我參與的團隊

隨筆檔案(12)

Link

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜