• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            jake1036

            larbin源碼分析(五) hashDup類對(duì)象的實(shí)現(xiàn)

            larbin源碼分析(五) hashDup類對(duì)象的實(shí)現(xiàn)

             一 類的成員變量及主要功能
                  (1) 成員變量 
                  ssize_t size; //表示hash 表的大小
                  char *table; //表示hash存儲(chǔ)區(qū)域
                  char *file;   //表示存儲(chǔ)的文件,內(nèi)存中的hash表可以保存在外部磁盤中
                  (2) 主要功能
                     該類和hashTable代碼比較相似,但是hashTable處理的是url去重,而hashDup處理的是網(wǎng)頁(yè)內(nèi)容的去重,
                    不會(huì)對(duì)完全相同的網(wǎng)頁(yè)進(jìn)行爬取,但是不保證相似網(wǎng)頁(yè)的排重。改進(jìn)的一個(gè)方向
              二 具體的成員函數(shù)
                   構(gòu)造函數(shù)
                   hashDup (ssize_t size, char *init, bool scratch); size表示hash表的大小,單位為bit。
                               init參數(shù)表示 hash表存儲(chǔ)在磁盤的文件名稱。scratch若為true表示重新構(gòu)建hash表,
                               若為false,則表示需要從磁盤文件中讀取hash表。
                ~hashDup()函數(shù)  具體操作為 情況table內(nèi)存。
                下面主要講解網(wǎng)頁(yè)內(nèi)容去重的函數(shù)
                 bool hashDup::testSet (char *doc) { //doc應(yīng)該為網(wǎng)頁(yè)的具體內(nèi)容 ,依次順序遍歷網(wǎng)頁(yè)內(nèi)容,對(duì)其中A與z之間的字符進(jìn)行驗(yàn)證
                  unsigned int code = 0;
                   char c;
                 for (uint i=0; (c=doc[i])!=0; i++) {
                      if (c>'A' && c<'z')
                      code = (code*23 + c) % size;
                  }
                    unsigned int pos = code / 8;  //具體的判斷函數(shù),若是執(zhí)行插入返回true,否則返回false
                   unsigned int bits = 1 << (code % 8);
                    int res = table[pos] & bits;
                    table[pos] |= bits;
                   return !res;
                 }     

                save()函數(shù) 
                主要的作用就是,將table區(qū)域中的數(shù)據(jù),存儲(chǔ)在外部磁盤中,進(jìn)行持久化操作。
                 
               三 總結(jié)
                   該類為網(wǎng)頁(yè)內(nèi)容去重hash函數(shù)的具體實(shí)現(xiàn)。





            posted on 2011-06-13 16:16 kahn 閱讀(427) 評(píng)論(0)  編輯 收藏 引用


            只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。
            網(wǎng)站導(dǎo)航: 博客園   IT新聞   BlogJava   博問(wèn)   Chat2DB   管理


            久久九九有精品国产23百花影院| 国产精品一区二区久久精品涩爱| 久久AV高清无码| 秋霞久久国产精品电影院| 久久青青草原亚洲av无码| 亚洲αv久久久噜噜噜噜噜| 无码人妻精品一区二区三区久久| 久久ZYZ资源站无码中文动漫| 久久国产高清一区二区三区| 午夜欧美精品久久久久久久| 亚洲国产精品久久久久婷婷软件| 欧美伊人久久大香线蕉综合| 97精品伊人久久大香线蕉app| 亚洲婷婷国产精品电影人久久| 国产精品久久久久久吹潮| 国产香蕉久久精品综合网| 青青草国产精品久久| 亚洲伊人久久精品影院| 日产久久强奸免费的看| 99久久夜色精品国产网站| 亚洲国产精品成人久久| 性做久久久久久久久| 久久亚洲天堂| 久久国产美女免费观看精品| 狠狠色丁香婷婷综合久久来| 久久香综合精品久久伊人| 久久久久高潮综合影院| 亚洲v国产v天堂a无码久久| 精品久久人人爽天天玩人人妻| 久久精品国产亚洲av麻豆色欲| 亚洲午夜精品久久久久久app| 久久精品国产第一区二区| 国内精品伊人久久久久网站| 国产福利电影一区二区三区久久老子无码午夜伦不 | 四虎影视久久久免费| 国产精品青草久久久久福利99 | 久久久久久久久久久| 亚洲精品无码久久久久AV麻豆| 久久精品这里只有精99品| 久久免费香蕉视频| 精品国产日韩久久亚洲|