• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            海邊沫沫

            相濡以沫,不如相忘于江湖
            posts - 9, comments - 113, trackbacks - 0, articles - 0
              C++博客 :: 首頁 :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理
            俗話說得好:“光說不練是假把式。”學(xué)習(xí)C++也是這樣,無論看再多的書,如果不自己動手練一練,是體會不到C++的真諦的。在這里,我給自己找了一個簡單的練習(xí)題:

            有一個文本文件,其中保存了100萬條email地址的紀(jì)錄,每一條記錄為一行,要求對這個文件中的記錄進(jìn)行排序,并去除重復(fù)的項,結(jié)果寫入另外一個文件。

            經(jīng)常逛CSDN的朋友對這個題目肯定不陌生,因為在CSDN上就曾經(jīng)有一個討論是C++更快還是Python更快的帖子,使用的測試題就是這樣的,不過他們使用的記錄只有78萬條,我這里只是增加到了100萬條而已。

            現(xiàn)代C++的觀點更以前相比已經(jīng)發(fā)生了轉(zhuǎn)變,效率已經(jīng)不是最重要的考慮因素了,最重要的是怎樣更快更正確的編寫程序,這一點通過《C++ Primer》第四版和第三版的比較就可以看出來。在第四版中,作者更加偏重于介紹STL中的vector和bitset,而不再是數(shù)組指針和位操作符;更加偏重于std::string而不是char * ,雖然對于某些在效率方面的要求有些偏執(zhí)狂的人來說,std::string的實現(xiàn)并不是最完美的。

            因此,使用標(biāo)準(zhǔn)庫來完成這個題目是很簡單的,代碼如下:
            ?1?#include?<iostream>
            ?2?#include?<fstream>
            ?3?#include?<vector>
            ?4?#include?<string>
            ?5?#include?<algorithm>
            ?6?
            ?7?int?main()
            ?8?{
            ?9?????//讀取文件中的email地址到vector中
            10?????std::ifstream?input_file("emails100w.txt");
            11?????std::string?tmp;
            12?????std::vector<std::string>?emails;
            13?????while(input_file?>>?tmp)
            14?????{
            15?????????emails.push_back(tmp);
            16?????}
            17?????
            18?????//排序
            19?????std::sort(emails.begin(),emails.end());
            20?????
            21?????//去除重復(fù)項
            22?????std::vector<std::string>::iterator?end_after_unique?=?std::unique(emails.begin(),emails.end());
            23?????
            24?????//寫入結(jié)果文件
            25?????std::ofstream?output_file("results.txt");
            26?????for(std::vector<std::string>::iterator?it?=?emails.begin();?it?!=?end_after_unique;?it++)
            27?????{
            28?????????output_file?<<?*it?<<?std::endl;
            29?????}
            30?????
            31?????return?0;
            32?}

            加上注釋和程序中的空行,也只需要32行代碼。使用標(biāo)準(zhǔn)庫的好處是顯而易見的,整個程序的意義都非常清晰,而且不容易出錯,使用STL真的是太方便了。那么,運行效率如何呢?我使用Linux中自帶的time命令對程序的運行時間進(jìn)行分析,如下:
            $?time?./SortAndUnique

            real?0m35.786s
            user?0m26.613s
            sys??0m9.437s

            那么,STL中的容器還有別的可以完成這個任務(wù)嗎?我想到了std::set,該容器在插入數(shù)據(jù)的時候,會自動拋棄重復(fù)的值,而且它里面的內(nèi)容都是排好序的,這么看來,這個容器更加適合于我們的任務(wù)。那么,寫個代碼試一下:
            ?1?#include?<iostream>
            ?2?#include?<fstream>
            ?3?#include?<set>
            ?4?#include?<string>
            ?5?#include?<algorithm>
            ?6?
            ?7?int?main()
            ?8?{
            ?9?????//讀取文件中的email地址到std::set中
            10?????std::ifstream?input_file("emails100w.txt");
            11?????std::string?tmp;
            12?????std::set<std::string>?emails;
            13?????while(input_file?>>?tmp)
            14?????{
            15?????????emails.insert(tmp);
            16?????}
            17?????
            18?????//寫入結(jié)果文件
            19?????std::ofstream?output_file("results.txt");
            20?????for(std::set<std::string>::iterator?it?=?emails.begin();?it?!=?emails.end();?it++)
            21?????{
            22?????????output_file?<<?*it?<<?std::endl;
            23?????}
            24?????
            25?????return?0;
            26?}

            嗯,不錯,這個代碼的行數(shù)更少。那它的運行效率呢?比使用std::vector的那個版本是快些還是慢些呢?請看下面的測試數(shù)據(jù):
            $?time?./SortWithSet

            real?0m21.544s
            user?0m12.370s
            sys?0m9.609s

            哇塞,這個程序比前一個整整快了14秒多,其中sys的時間是差不多的,說明這兩個版本在輸入輸出的操作上沒多大區(qū)別,而排序和去除重復(fù)項的工作,使用std::set只有使用std::vector一半不到的時間。

            為什么會這樣?我認(rèn)為主要有以下幾個原因:

            1、std::sort算法使用的排序方法我們不清楚,我們知道,排序有很多種方法,如簡單排序、快速排序、堆排序等,簡單排序是最慢的,它的時間復(fù)雜度為O(n2) ,而快速排序呢,它在最好情況下能達(dá)到O(n*log2n),而最壞情況下就只有O(n2)了,堆排序速度最快,時間復(fù)雜度為O(n*log2n)。我不知道std::sort算法使用的是不是堆排序,但是我可以肯定它絕對不會使用簡單排序,編寫STL的人可不會那么笨。而std::set使用的是什么數(shù)據(jù)結(jié)構(gòu)呢?一般都是使用的紅黑樹(平衡二叉樹、AVL樹),使用該結(jié)構(gòu)的特點是查找一個元素的時間復(fù)雜度絕對不會超過log2n+1,因此,使用std::set進(jìn)行排序,它的時間復(fù)雜度肯定是O(n*log2n)了。另外,在C++ 0x標(biāo)準(zhǔn)中,會加入另外一些標(biāo)準(zhǔn)容器,如std::unordered_set,從名字上可以看出,它是一個沒有排序的set,它使用的數(shù)據(jù)結(jié)構(gòu)就是哈希表,雖然沒有排序,但是它查找數(shù)據(jù)的時間復(fù)雜度卻是一個常數(shù)。

            2、使用std::set容器減少了std::string的復(fù)制次數(shù),我們知道STL的容器中保存的是我們的數(shù)據(jù)的副本,因此,將std::string對象放到std::vector容器中的時侯,會發(fā)生一個復(fù)制操作,而在使用std::sort算法的時候,容器中的元素交換位置,又會發(fā)生很多次的復(fù)制操作,再使用std::unique算法的時候,移動容器中的元素也要發(fā)生復(fù)制操作。使用std::set容器,它只在insert的時候復(fù)制一次而已。所以,使用std::set的這個版本比較快那是理所當(dāng)然的了。

            當(dāng)然,如果你不使用std::string而是用char *,不使用容器和算法而是自己實現(xiàn)平衡二叉樹,當(dāng)然可以寫出更快的版本,不過要付出更多的調(diào)試代價。

            最后,為了讓大家都能夠找個100w行記錄的文本練練手,下面給出一個隨機(jī)生成100w個email地址的小程序,寫得不好,請不要見笑:
            ?1?#include?<iostream>
            ?2?#include?<fstream>
            ?3?#include?<cstdlib>
            ?4?#include?<string>
            ?5?#include?<vector>
            ?6?using?namespace?std;
            ?7?
            ?8?int?main()
            ?9?{
            10?????//創(chuàng)建1000個用戶名
            11?????char?letters[]?=?"abcdefghijklmnopqrstuvwxyz1234567890_";
            12?????vector<string>?names;
            13?????for(unsigned?int?i=0;?i<1000;?i++)
            14?????{
            15?????????//獲取一個30以內(nèi)的隨機(jī)數(shù)作為用戶名的長度
            16?????????int?length?=?rand()%30?+?1;
            17?????????string?name;
            18?????????for(unsigned?int?j=0;?j<length;?j++){
            19?????????????int?index?=?rand()%37;
            20?????????????name.append(1,letters[index]);
            21?????????}
            22?????????names.push_back(name);
            23?????}
            24?????
            25?????//創(chuàng)建700個網(wǎng)站名
            26?????string?domains[]?=?{".com",".cn",".com.cn",".gov",".gov.cn",".net",".net.cn"};
            27?????vector<string>?sites;
            28?????for(unsigned?int?i=0;?i<100;?i++)
            29?????{
            30?????????//獲取一個10以內(nèi)的隨機(jī)數(shù)作為網(wǎng)站名的長度
            31?????????int?length?=?rand()%10?+?1;
            32?????????string?name;
            33?????????for(unsigned?int?j=0;?j<length;?j++){
            34?????????????int?index?=?rand()%37;
            35?????????????name.append(1,letters[index]);
            36?????????}
            37?????????for(int?k=0;?k<7;?k++){
            38?????????????name.append(domains[k]);
            39?????????????sites.push_back(name);
            40?????????}
            41?????}
            42?
            43?????//構(gòu)建100萬個email地址
            44?????ofstream?emails("emails100w.txt");
            45?????for(int?i=0;?i<1000000;?i++){
            46?????????emails?<<?names[rand()%1000]?<<?"@"?<<?sites[rand()%700]?<<?endl;
            47?????}
            48?????
            49?????return?0;
            50?}

            Feedback

            # re: 從一道簡單的練習(xí)題說開去  回復(fù)  更多評論   

            2007-11-14 10:27 by <a href=http://minidx.com>minidxer</a>
            這里用Vector肯定效率不好的

            # re: 從一道簡單的練習(xí)題說開去  回復(fù)  更多評論   

            2007-11-14 11:54 by ok
            vector版本的emails先預(yù)分配100w大小的空間,效率應(yīng)該會有所提高
            emails.reserve(1000000);

            # re: 從一道簡單的練習(xí)題說開去  回復(fù)  更多評論   

            2007-11-14 16:03 by 海邊沫沫
            按樓上的建議修改后,運行結(jié)果如下:
            real 0m35.157s
            user 0m26.005s
            sys 0m9.219s

            效率的提升并不大,由此可見,你說的并不是關(guān)鍵問題。

            # re: 從一道簡單的練習(xí)題說開去  回復(fù)  更多評論   

            2007-11-14 16:41 by chenger
            如果用非標(biāo)準(zhǔn)的散列表話,應(yīng)該會更好
            對付這種應(yīng)用,散列表一般是最佳選擇
            還好0x里散列表要進(jìn)標(biāo)準(zhǔn)庫了

            # re: 從一道簡單的練習(xí)題說開去[未登錄]  回復(fù)  更多評論   

            2007-11-15 07:25 by Louis.G
            修正下樓主的錯誤,堆排序并不最快,它的算法是先把小的數(shù)據(jù)放在右邊然后再移到左邊,兩次移動的代價并不低。如果是一個有序程度較高的數(shù)組堆排序遠(yuǎn)不如快速排序,快排優(yōu)化時還可在每個partition長度小的時候使用插入或冒泡以節(jié)省時間,而且劃分每個partition的種子是隨機(jī)選取的,可以認(rèn)為它不會慢到n^2的級別。

            不過像這種數(shù)據(jù)量很大的東西要效率還是自己特殊實現(xiàn)吧,靠標(biāo)準(zhǔn)庫是不行的。過分標(biāo)準(zhǔn)的東西往往失去了特性。

            # re: 從一道簡單的練習(xí)題說開去  回復(fù)  更多評論   

            2007-11-23 23:21 by 地獄門神
            hashtable

            # re: 從一道簡單的練習(xí)題說開去[未登錄]  回復(fù)  更多評論   

            2007-11-24 10:33 by 海邊沫沫
            Hash table在VC++ 2005和VC++ 2008中,有hash_map、hash_set、hash_multimap、hash_multiset可用,在下一代C++標(biāo)準(zhǔn)中,它們將被更名為unordered_map和unordered_set。

            用它們來去除重復(fù)項,的確很快,但是它們不能排序。

            # re: 從一道簡單的練習(xí)題說開去  回復(fù)  更多評論   

            2007-12-04 16:44 by 新手看法
            VECTOR是一塊連續(xù)內(nèi)存,當(dāng)SIZE很大時尋址比較慢,STD::SET是HASH的話就不用多說了

            # re: 從一道簡單的練習(xí)題說開去  回復(fù)  更多評論   

            2007-12-04 17:55 by 海邊沫沫
            內(nèi)存大小和尋址快慢有關(guān)系嗎?vector是可以隨機(jī)訪問的,像數(shù)組一樣,尋址任何一個元素的時間花費都是常數(shù)。list是不能隨機(jī)訪問的,才會出現(xiàn)容器越大尋址越慢的情況。

            std::set和std::tr1::unordered_set是不同的,它們的底層實現(xiàn)不同。std::set不是hash,而是紅黑樹。

            # re: 從一道簡單的練習(xí)題說開去  回復(fù)  更多評論   

            2013-10-22 16:41 by booirror
            生成100w個email的程序是有問題的,name.append()之后添加到vector,然后繼續(xù)append,共7次,這樣就不對了
            久久免费美女视频| 无码人妻精品一区二区三区久久久| 中文国产成人精品久久亚洲精品AⅤ无码精品 | 久久播电影网| 久久精品国产一区二区| 99热热久久这里只有精品68| 久久青草国产精品一区| 91精品观看91久久久久久| 久久亚洲国产午夜精品理论片 | 国产精品久久久久久久久软件 | 日产精品久久久久久久| 中文无码久久精品| 久久亚洲AV成人出白浆无码国产| 丁香色欲久久久久久综合网| 久久久久波多野结衣高潮| 九九精品久久久久久噜噜| 日韩精品久久久久久久电影蜜臀| 久久国产色AV免费看| 久久国产精品久久久| 情人伊人久久综合亚洲| 九九热久久免费视频| 国产69精品久久久久观看软件| 国产成人精品综合久久久| 国产午夜免费高清久久影院| 99久久精品国产一区二区三区| 久久久久国产亚洲AV麻豆| 欧美亚洲色综久久精品国产 | 国产精品午夜久久| 一级做a爰片久久毛片毛片| 91精品国产91久久久久福利| 国产三级观看久久| 亚洲国产精品无码久久一区二区| 久久电影网2021| 久久亚洲精品无码aⅴ大香| 91精品婷婷国产综合久久| 综合久久一区二区三区| 亚洲国产精品久久久久婷婷软件| 久久久久亚洲av成人无码电影| 久久国产欧美日韩精品| 国产精品亚洲综合久久| 国产成人久久久精品二区三区|