国产精品嫩草影院av蜜臀,欧美激情1区2区,国产精品人人做人人爽人人添

peakflys

關于hash_map的一點感悟

工作兩年中，關于查找敏感型的代碼不少用到了hash_map，關于它的實現細節和需要注意的地方這里梳理一下。因為工作在linux環境下，所以這里hash_map的評述都是根據SGI的源碼。
hash_map說簡單一點就是一個hashtable桶和對于這個桶基本操作的再次封裝。即包含(圖片太麻煩，文字代替吧)：1、_Hashtable* _M_ht;2、erase()、find()等函數。對應的iterator包含：1、_hashtable* _M_ht(這個就是hash_map中的hashtable指針);2、_Node* _M_cur(指向當前hashtable桶的某個節點)。_Node的結構為：

template <class _Val>
    struct _Hashtable_node
    {
      _Hashtable_node* _M_next;
      _Val _M_val; //桶的節點，具體是實現使用的Vector，后面有介紹
    };

所以hash_map的實現主要是hashtable的實現。下面看一下hashtable的組成(private成員)：

      hasher                _M_hash; //hasher，處理沖突時用到的，是hashtable性能如何的關鍵因素之一
      key_equal             _M_equals;//鍵值是否相等的函數，std::string等非基本數據類型做鍵值時需要提供此函數
      _ExtractKey           _M_get_key;//和Alloc相關的函數
      _Vector_type          _M_buckets;//hashtable桶的基本元素，SGI實現是 vector<_Node*, _Nodeptr_Alloc>
      size_type             _M_num_elements;//標示hashtable元素個數，size()函數返回的即是此值

撇去具體實現細節，hashtable基本上也就這些內容(基本也就是一個很大的vector，每個vector節點掛著一個形同list存放沖突節點)。
插入(方法有insert和operator[])過程：

調用resize() 判斷是否調整桶的大小，桶的不同大小SGI實現是很有講究的，具體參見__stl_prime_list 數組
得到key 通過_M_bkt_num(__obj)
通過hash函數得到hash值通過_M_hash(__key)
得到桶號(一般都為hash值對桶數求模) 通過_M_hash(__key) % __n
存放key和value在桶內。

取值(find后通過iterator或者operator[])過程:

得到key _M_bkt_num_key(__key)
通過hash函數得到hash值通過_M_hash(__key)
得到桶號(一般都為hash值對桶數求模) 通過_M_hash(__key) % __n
比較桶的鏈表上元素是否與key相等，若都不相等，則沒有找到。
取出相等的記錄的value。 find()方法返回 iterator(__first, this)

下面再說說iterator的操作，因為它是比較容易出錯的。
begin()操作是用一個for循環，在hashtable上面的vector里找到第一個即_M_buckets[__n]指針不為空的 iterator(_M_buckets[__n], this)
end()操作返回 iterator(0, this)
operator++ 操作是從_M_cur開始，優先_M_cur->_M_next，為空時遍歷vector直至找到一個_M_cur不為空的節點
迭代器操作使用不當，很容易出問題，hash_map的也不例外，具體看后面代碼例子。
注意到hash_map默認的構造函數 hash_map()

: _M_ht(100, hasher(), key_equal(), allocator_type()) {}

默認是初始化一個100個hashtable桶元素，如果你的hash_map用不到這么多元素，建議不要使用默認值。
hash_map的鍵值一經插入，使用期間不要更改(有時候時內存釋放等造成的)，否則會釀造悲劇，如下例：

/**
*\author peakflys
*\brief 演示hash_map鍵值更改造成的問題
*/
#include <iostream>
#include <ext/hash_map>
struct Unit
{
    char name[32];
    unsigned int score;
    Unit(const char *_name,const unsigned int _score) : score(_score)
    {
        strncpy(name,_name,32);
    }
};
int main()
{
    typedef __gnu_cxx::hash_map<char*,Unit*> uHMap;
    typedef uHMap::value_type hmType;
    typedef uHMap::iterator hmIter;
    uHMap hMap;
    Unit *unit1 = new Unit("peak",100);
    Unit *unit2 = new Unit("Joey",20);
    Unit *unit3 = new Unit("Rachel",40);
    Unit *unit4 = new Unit("Monica",90);
    hMap[unit1->name] = unit1;
    hMap[unit2->name] = unit2;
    hMap.insert(hmType(unit3->name,unit3));
    hMap.insert(hmType(unit4->name,unit4));
    for(hmIter it=hMap.begin();it!=hMap.end();++it)
    {
        std::cout<<it->first<<"\t"<<it->second->score<<std::endl;//正常操作
    }
    for(hmIter it=hMap.begin();it!=hMap.end();++it)
   {
        Unit *unit = it->second;
//hMap.erase(it++);
        delete unit; //delete釋放節點內存，但是hMap沒有除去,造成hMap內部錯亂，有可能宕機
    }
hmIter it = hMap.begin();
    strncpy(it->first,"cc",32);//強行更改
    for(hmIter it=hMap.begin();it!=hMap.end();++it)
    {
        std::cout<<it->first<<"\t"<<it->second->score<<std::endl;//死循環，原因參加上面++操作說明
    }
    return 0;
}

上面錯誤都是實際使用時很容易遇到的情況。暫時先寫到這里，VS下的hash_map的實現和SGI的相差比較大，例如hashtable動態大小的調整是完全按照vector2倍的策略增長等等。
原創內容，轉載注明作者和出處，謝謝。

posted on 2012-07-24 14:15 peakflys 閱讀(7385) 評論(5) 編輯收藏引用所屬分類: 數據結構

hmIter it = hMap.begin();
strncpy(it->first,"cc",32);//強行更改
for(hmIter it=hMap.begin();it!=hMap.end();++it)
{
std::cout<<it->first<<"\t"<<it->second->score<<std::endl;//死循環，原因參加上面++操作說明
}

這里會出現死循環的原因能否說明白一點？不是很理解啊。
只是簡單的修改begin（）單元里面的內容，怎么會出現這樣的現象？回復更多評論

# re: 關于hash_map的一點感悟 2012-07-24 18:29 peakflys

@likun原因很簡單，上面我也說過，operator++ 操作是從_M_cur開始，優先_M_cur->_M_next，為空時遍歷vector直至找到一個_M_cur不為空的節點，遍歷vector時需要取它對應的桶位置(參砍上面hash_map取值過程)，_M_bkt_num_key(key)中key的值是修改后的值，假如你改的鍵值，通過此函數得到的桶位置在你當前元素之前，這樣就造成了死循環。回復更多評論

# re: 關于hash_map的一點感悟[未登錄] 2012-07-25 12:23 Chipset

有時間試試gcc的unordered_map吧，注意版本號4.6.3以后的，4.6.2版本的哈希表比4.6.3的哈希表處理字符竄時慢的不是一點半點。處理大量字符竄，尤其字符竄很長時，因該比SGI_STL的哈希表快得多。gcc的哈希表處理整數可能比SGI_STL的哈希表要慢，主要是Allocator作怪。回復更多評論

# re: 關于hash_map的一點感悟 2012-08-05 22:39 egmkang

@likun
我跪了.這代碼你也寫的出啊. 回復更多評論

# re: 關于hash_map的一點感悟 2013-05-14 17:38 peakflys

呵呵，這種代碼大點的系統，很多都是存在的，而潛在的錯誤可能還沒爆發出來@egmkang
回復更多評論

刷新評論列表

只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

<

2012年11月

>

日

一

二

三

四

五

六

28

29

30

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

1

2

3

4

5

6

7

8

統計

隨筆 - 23
文章 - 18
評論 - 119
引用 - 0

公告

人不淡定的時候，就愛表現出來，敲代碼如此，偶爾的靈感亦如此……

# re: 關于hash_map的一點感悟 2012-07-24 15:12 likun

# re: 關于hash_map的一點感悟 2012-07-24 18:29 peakflys

# re: 關于hash_map的一點感悟[未登錄] 2012-07-25 12:23 Chipset

# re: 關于hash_map的一點感悟 2012-08-05 22:39 egmkang

# re: 關于hash_map的一點感悟 2013-05-14 17:38 peakflys

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

關于hash_map的一點感悟

評論

導航

統計

公告

常用鏈接

留言簿(4)

隨筆分類

隨筆檔案

文章檔案

搜索

最新評論

閱讀排行榜

評論排行榜