• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            posts - 7,  comments - 64,  trackbacks - 0

            我現(xiàn)在需要統(tǒng)計(jì)一篇文章中的單詞數(shù)量,并排序輸出。
            格式

            單詞1 500
            單詞2 499
            單詞3 300
            .....
            ...
            ..
            .

            現(xiàn)在的思路是
            第一步:先將單詞讀入到map<string,size_t> ssmap;當(dāng)中;這樣每次掃描到一個(gè)新單詞后都可以++ssmap[str];來(lái)統(tǒng)計(jì)單詞數(shù);
            第二步:將map中的內(nèi)容拷貝到vector<pair<string*,size_t> > vec;當(dāng)中,之后對(duì)vec用sort進(jìn)行排序。(之所以要用string*是因?yàn)椴幌Ml(fā)生string的拷貝構(gòu)造,以免浪費(fèi)時(shí)間)。
            第三步:將vec輸出。

            試驗(yàn)了一下上述方法可以正確執(zhí)行。
            但我想應(yīng)該有更快的方法,請(qǐng)各位賜教一下!


            呵呵,謝謝大家這么積極。

            字符串長(zhǎng)度沒有限制,這個(gè)從一個(gè)分詞程序?qū)ξ恼逻M(jìn)行分詞處理以后的結(jié)果。單詞可能是“的,了”這種單個(gè)字,也可能是“中華人民共和國(guó)”這種字符串。還有可能遇到像“\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\...(n個(gè))”這種比較變態(tài)的符號(hào)。

            posted on 2009-09-03 16:05 HIT@ME 閱讀(1994) 評(píng)論(16)  編輯 收藏 引用

            FeedBack:
            # re: 有沒有更快的辦法來(lái)統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)![未登錄]
            2009-09-03 16:20 | foxriver
            map查找已經(jīng)足夠快了。你看看是不是單詞多,排序浪費(fèi)了太多的時(shí)間。可以修改成radix sort, 加快速度。不過(guò)可能會(huì)有點(diǎn)難度,你要把string轉(zhuǎn)換成int,還用到多重排序。

            個(gè)人測(cè)試大規(guī)模數(shù)據(jù),速度還能接受。貼點(diǎn)逼人的簡(jiǎn)陋代碼,僅供參考,核心算法見:http://www.codercorner.com/RadixSortRevisited.htm

            class vector_string : public vector<string>
            {
            public:
            vector_string()
            {
            }
            ~vector_string()
            {
            }

            public:
            void sort(vector<int>* r_offsetset = 0)
            {
            vector<string> swaplist;
            swaplist.resize(_Num);

            vector<uint> sorttable1;
            vector<uint> sorttable2;
            vector<uint> sorttable3;

            sorttable1.resize(_Num);
            sorttable2.resize(_Num);
            sorttable3.resize(_Num);

            int i;
            for (i=0;i<_Num;i++)
            {
            const string& str = _First[i];
            uint b;
            int n;

            b = 0;
            for (n=0;n<4 && n<str.size();n++)
            {
            if (n == 0) b |= (str[n] << 24) & 0xff000000;
            if (n == 1) b |= (str[n] << 16) & 0x00ff0000;
            if (n == 2) b |= (str[n] << 8) & 0x0000ff00;
            if (n == 3) b |= (str[n]) & 0x000000ff;
            }
            sorttable1[i] = b;

            b = 0;
            for (n=4;n<8 && n<str.size();n++)
            {
            if (n == 4) b |= (str[n] << 24) & 0xff000000;
            if (n == 5) b |= (str[n] << 16) & 0x00ff0000;
            if (n == 6) b |= (str[n] << 8) & 0x0000ff00;
            if (n == 7) b |= (str[n]) & 0x000000ff;
            }
            sorttable2[i] = b;

            b = 0;
            for (n=8;n<12 && n<str.size();n++)
            {
            if (n == 8) b |= (str[n] << 24) & 0xff000000;
            if (n == 9) b |= (str[n] << 16) & 0x00ff0000;
            if (n == 10) b |= (str[n] << 8) & 0x0000ff00;
            if (n == 11) b |= (str[n]) & 0x000000ff;
            }
            sorttable3[i] = b;
            }

            radixsort_t radix;
            uint* sorted = radix.Sort((uint*)&sorttable3[0], sorttable3.size(), false).Sort((uint*)&sorttable2[0], sorttable2.size(), false).Sort((uint*)&sorttable1[0], sorttable1.size(), false).GetIndices();

            resort(sorted, 0, _Num, swaplist);
            if (r_offsetset) r_offsetset->resort(sorted, 0, _Num);

            // ------- 2 ------
            vector<uint> swaptable;
            swaptable.resize(_Num);

            for (i=0;i<_Num;i++) swaptable[i] = sorttable1[i];
            for (i=0;i<_Num;i++) sorttable1[i] = swaptable[sorted[i]];

            for (i=0;i<_Num;i++) swaptable[i] = sorttable2[i];
            for (i=0;i<_Num;i++) sorttable2[i] = swaptable[sorted[i]];

            for (i=0;i<_Num;i++) swaptable[i] = sorttable3[i];
            for (i=0;i<_Num;i++) sorttable3[i] = swaptable[sorted[i]];

            // 測(cè)試 程序 文字 1
            // 測(cè)試 程序 文字
            // 測(cè)試 程序 文比
            uint tab1 = 0xFFFFFFFF;
            uint tab2 = 0xFFFFFFFF;
            uint tab3 = 0xFFFFFFFF;

            int samecount = 0;
            for (i=0;i<_Num;i++)
            {
            if (tab1 == sorttable1[i] && tab2 == sorttable2[i] && tab3 == sorttable3[i])
            {
            samecount++;
            continue;
            }

            if (samecount)
            {
            int start = i - samecount-1;
            int total = samecount + 1;

            bool exactsame = true;
            for (int n=start+1;n<start+total;n++)
            {
            if (_First[n-1] != _First[n])
            {
            exactsame = false;
            break;
            }
            }

            if (exactsame == false)
            {
            quicksort_t::sort((int*)sorted, _First+start, total, _cmp);
            resort(sorted, start, total, swaplist);
            if (r_offsetset) r_offsetset->resort(sorted, start, total);
            }
            }

            tab1 = sorttable1[i];
            tab2 = sorttable2[i];
            tab3 = sorttable3[i];
            samecount = 0;
            }

            if (samecount)
            {
            int start = i - samecount-1;
            int total = samecount + 1;

            quicksort_t::sort((int*)sorted, _First+start, total, _cmp);
            resort(sorted, start, total, swaplist);
            if (r_offsetset) r_offsetset->resort(sorted, start, total);
            }
            }

            protected:
            void resort(const uint* r_sorted, int r_offset, int r_num, vector<string>& r_swaplist)
            {
            int i;
            for (i=0;i<r_num;i++) r_swaplist[i].swap(_First[r_sorted[i]+r_offset]);
            for (i=0;i<r_num;i++) _First[i+r_offset].swap(r_swaplist[i]);
            }
            };

              回復(fù)  更多評(píng)論
              
            # re: 有沒有更快的辦法來(lái)統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)![未登錄]
            2009-09-03 16:32 | foxriver
            如果你用的是標(biāo)準(zhǔn)的new,stl的string會(huì)頻繁調(diào)用也耗費(fèi)不少時(shí)間。可以改用id software的那個(gè)idHeap,官網(wǎng)quake4 sdk里就有,速度號(hào)稱是vc版本的N倍。

            當(dāng)然,前提必須是單線程。  回復(fù)  更多評(píng)論
              
            # re: 有沒有更快的辦法來(lái)統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)!
            2009-09-03 16:38 | Vincent
            今年的astar就有一道牽扯到這個(gè)的題目.
            樓主的做法應(yīng)該就是利用hash表統(tǒng)計(jì)吧..
            我提出另外一個(gè)做法用trie樹..  回復(fù)  更多評(píng)論
              
            # re: 有沒有更快的辦法來(lái)統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)![未登錄]
            2009-09-03 16:42 | foxriver
            樓主應(yīng)該不是hash表,是rt樹,不過(guò)兩者速度也差不多了,沒什么可優(yōu)化的地方。hash只有在數(shù)據(jù)相當(dāng)大的情況下(>1000萬(wàn)條),才會(huì)有明顯優(yōu)勢(shì)。  回復(fù)  更多評(píng)論
              
            # re: 有沒有更快的辦法來(lái)統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)!
            2009-09-03 16:46 | Vincent
            哦..呵呵..我不太清楚rt樹是什么..
            而且樓主說(shuō)的這個(gè)還是太籠統(tǒng)..
            比如單詞字符串的長(zhǎng)度上限等等.
            不同的條件下不同的方法有著不同的效率..

            hash的話,就想到一個(gè)比較出名的elfhash..  回復(fù)  更多評(píng)論
              
            # re: 有沒有更快的辦法來(lái)統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)![未登錄]
            2009-09-03 16:46 | foxriver
            暈死,打錯(cuò)字了,是RB-TREE.  回復(fù)  更多評(píng)論
              
            # re: 有沒有更快的辦法來(lái)統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)!
            2009-09-03 16:48 | Vincent
            紅黑樹啊..
            呵呵...個(gè)人覺得只要能設(shè)計(jì)出合理的hash還是hash更快些吧..  回復(fù)  更多評(píng)論
              
            # re: 有沒有更快的辦法來(lái)統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)![未登錄]
            2009-09-03 16:49 | foxriver
            我喜歡用BKDR Hash Function,簡(jiǎn)單方便,散布率對(duì)本人而言,已經(jīng)相當(dāng)滿意了。  回復(fù)  更多評(píng)論
              
            # re: 有沒有更快的辦法來(lái)統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)!
            2009-09-03 16:51 | Vincent
            慚愧啊..事實(shí)上我只會(huì)寫elfhash...  回復(fù)  更多評(píng)論
              
            # re: 有沒有更快的辦法來(lái)統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)![未登錄]
            2009-09-03 16:53 | foxriver
            "個(gè)人覺得只要能設(shè)計(jì)出合理的hash還是hash更快些吧", 嚴(yán)重同意!不過(guò)對(duì)于樓主來(lái)說(shuō),寫一個(gè)hash查找來(lái)替換std::map挺費(fèi)時(shí)間的,內(nèi)存管理上弄不好的話,效率和穩(wěn)定性會(huì)下降,說(shuō)不定還沒人家stl的快,所以不是很推薦呢。  回復(fù)  更多評(píng)論
              
            # re: 有沒有更快的辦法來(lái)統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)!
            2009-09-03 16:56 | Vincent
            ^_^stl王道  回復(fù)  更多評(píng)論
              
            # re: 有沒有更快的辦法來(lái)統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)!
            2009-09-03 23:00 | wcdj
            用Unix or Linux下的使用程序 sort wc 是相當(dāng)?shù)目?nbsp; 回復(fù)  更多評(píng)論
              
            # re: 有沒有更快的辦法來(lái)統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)![未登錄]
            2009-09-03 23:26 | dskit
            map的底層用紅黑樹實(shí)現(xiàn),
            可以用trie樹,但是有中文,還有其他符號(hào),好像就不好處理了  回復(fù)  更多評(píng)論
              
            # re: 有沒有更快的辦法來(lái)統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)!
            2009-09-03 23:46 | gbb
            這個(gè)不是標(biāo)準(zhǔn)的mapreduce樣例么?  回復(fù)  更多評(píng)論
              
            # re: 有沒有更快的辦法來(lái)統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)!
            2009-09-04 14:30 | 凡客誠(chéng)品
            不錯(cuò)哦  回復(fù)  更多評(píng)論
              
            # re: 有沒有更快的辦法來(lái)統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)!
            2009-09-06 23:19 | 唐風(fēng)
            std::map
            本身不就是排序的嗎?為什么還要倒到vector里排?不解  回復(fù)  更多評(píng)論
              

            只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。
            網(wǎng)站導(dǎo)航: 博客園   IT新聞   BlogJava   博問(wèn)   Chat2DB   管理


            <2025年5月>
            27282930123
            45678910
            11121314151617
            18192021222324
            25262728293031
            1234567

            常用鏈接

            留言簿(5)

            隨筆檔案

            test

            搜索

            •  

            最新評(píng)論

            閱讀排行榜

            評(píng)論排行榜

            久久综合九色综合网站| 香蕉aa三级久久毛片| 日韩久久久久中文字幕人妻| avtt天堂网久久精品| 久久久久久久久久久久久久| 亚洲精品97久久中文字幕无码| 狠狠色伊人久久精品综合网| 国内精品久久久久久久coent | 青青热久久综合网伊人| 蜜臀久久99精品久久久久久小说 | 国产精品九九久久精品女同亚洲欧美日韩综合区 | 久久精品国产亚洲AV无码偷窥| 777午夜精品久久av蜜臀 | 久久亚洲AV无码西西人体| 精品久久久久久久久久中文字幕| 国产综合成人久久大片91| 久久国产免费直播| 久久亚洲精品无码VA大香大香 | 精品熟女少妇AV免费久久| 亚洲精品高清国产一线久久| 91精品国产91久久久久福利| 草草久久久无码国产专区| 日韩欧美亚洲国产精品字幕久久久| 欧美日韩中文字幕久久久不卡| 久久久久免费精品国产| 国产亚洲精久久久久久无码| 精品久久久久久亚洲| 久久露脸国产精品| 午夜欧美精品久久久久久久| 久久精品www| 久久91精品国产91久| 99久久精品毛片免费播放| 久久夜色撩人精品国产| 色欲综合久久躁天天躁蜜桃| 国产2021久久精品| 国内精品久久久久久久久电影网 | 久久久久国产一级毛片高清板| 亚洲国产精品无码久久久蜜芽| 99久久国产综合精品网成人影院 | 久久强奷乱码老熟女网站| 999久久久免费精品国产|