• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            jake1036

            larbin源碼分析(五) hashDup類對象的實現

            larbin源碼分析(五) hashDup類對象的實現

             一 類的成員變量及主要功能
                  (1) 成員變量 
                  ssize_t size; //表示hash 表的大小
                  char *table; //表示hash存儲區域
                  char *file;   //表示存儲的文件,內存中的hash表可以保存在外部磁盤中
                  (2) 主要功能
                     該類和hashTable代碼比較相似,但是hashTable處理的是url去重,而hashDup處理的是網頁內容的去重,
                    不會對完全相同的網頁進行爬取,但是不保證相似網頁的排重。改進的一個方向
              二 具體的成員函數
                   構造函數
                   hashDup (ssize_t size, char *init, bool scratch); size表示hash表的大小,單位為bit。
                               init參數表示 hash表存儲在磁盤的文件名稱。scratch若為true表示重新構建hash表,
                               若為false,則表示需要從磁盤文件中讀取hash表。
                ~hashDup()函數  具體操作為 情況table內存。
                下面主要講解網頁內容去重的函數
                 bool hashDup::testSet (char *doc) { //doc應該為網頁的具體內容 ,依次順序遍歷網頁內容,對其中A與z之間的字符進行驗證
                  unsigned int code = 0;
                   char c;
                 for (uint i=0; (c=doc[i])!=0; i++) {
                      if (c>'A' && c<'z')
                      code = (code*23 + c) % size;
                  }
                    unsigned int pos = code / 8;  //具體的判斷函數,若是執行插入返回true,否則返回false
                   unsigned int bits = 1 << (code % 8);
                    int res = table[pos] & bits;
                    table[pos] |= bits;
                   return !res;
                 }     

                save()函數 
                主要的作用就是,將table區域中的數據,存儲在外部磁盤中,進行持久化操作。
                 
               三 總結
                   該類為網頁內容去重hash函數的具體實現。





            posted on 2011-06-13 16:16 kahn 閱讀(437) 評論(0)  編輯 收藏 引用

            日韩人妻无码精品久久免费一| 国产精品日韩欧美久久综合| 久久精品国产亚洲AV香蕉| 无码人妻精品一区二区三区久久久 | 欧美伊人久久大香线蕉综合| 久久久久久久波多野结衣高潮| 国产精品久久久久久一区二区三区| 一级做a爰片久久毛片16| 久久婷婷是五月综合色狠狠| 91久久精一区二区三区大全| 亚洲精品美女久久久久99小说 | 超级碰碰碰碰97久久久久| 久久精品国产亚洲麻豆| 久久天天躁狠狠躁夜夜2020一| 青青草国产精品久久| 久久精品a亚洲国产v高清不卡| 开心久久婷婷综合中文字幕| 久久99精品综合国产首页| 久久亚洲日韩看片无码| 日韩欧美亚洲综合久久影院Ds| 久久精品国产一区二区三区日韩| 久久九九久精品国产免费直播| 久久久久亚洲爆乳少妇无| 久久精品国产91久久麻豆自制| 无码精品久久久天天影视 | 亚洲综合久久夜AV | 久久福利片| 国产福利电影一区二区三区,免费久久久久久久精 | 亚洲一区二区三区日本久久九| 亚洲va中文字幕无码久久| 亚洲精品午夜国产va久久| 婷婷久久综合九色综合九七| 久久久久综合国产欧美一区二区| 国产成人99久久亚洲综合精品| 久久精品国产91久久综合麻豆自制| 久久久久久国产精品免费无码| 91精品国产综合久久精品| 久久久久久久99精品免费观看| 日韩一区二区久久久久久| 久久精品国产亚洲一区二区三区| 国内精品久久久久久麻豆|