青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

海邊沫沫

相濡以沫,不如相忘于江湖
posts - 9, comments - 113, trackbacks - 0, articles - 0
  C++博客 :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理
俗話說得好:“光說不練是假把式。”學習C++也是這樣,無論看再多的書,如果不自己動手練一練,是體會不到C++的真諦的。在這里,我給自己找了一個簡單的練習題:

有一個文本文件,其中保存了100萬條email地址的紀錄,每一條記錄為一行,要求對這個文件中的記錄進行排序,并去除重復的項,結果寫入另外一個文件。

經常逛CSDN的朋友對這個題目肯定不陌生,因為在CSDN上就曾經有一個討論是C++更快還是Python更快的帖子,使用的測試題就是這樣的,不過他們使用的記錄只有78萬條,我這里只是增加到了100萬條而已。

現代C++的觀點更以前相比已經發生了轉變,效率已經不是最重要的考慮因素了,最重要的是怎樣更快更正確的編寫程序,這一點通過《C++ Primer》第四版和第三版的比較就可以看出來。在第四版中,作者更加偏重于介紹STL中的vector和bitset,而不再是數組指針和位操作符;更加偏重于std::string而不是char * ,雖然對于某些在效率方面的要求有些偏執狂的人來說,std::string的實現并不是最完美的。

因此,使用標準庫來完成這個題目是很簡單的,代碼如下:
?1?#include?<iostream>
?2?#include?<fstream>
?3?#include?<vector>
?4?#include?<string>
?5?#include?<algorithm>
?6?
?7?int?main()
?8?{
?9?????//讀取文件中的email地址到vector中
10?????std::ifstream?input_file("emails100w.txt");
11?????std::string?tmp;
12?????std::vector<std::string>?emails;
13?????while(input_file?>>?tmp)
14?????{
15?????????emails.push_back(tmp);
16?????}
17?????
18?????//排序
19?????std::sort(emails.begin(),emails.end());
20?????
21?????//去除重復項
22?????std::vector<std::string>::iterator?end_after_unique?=?std::unique(emails.begin(),emails.end());
23?????
24?????//寫入結果文件
25?????std::ofstream?output_file("results.txt");
26?????for(std::vector<std::string>::iterator?it?=?emails.begin();?it?!=?end_after_unique;?it++)
27?????{
28?????????output_file?<<?*it?<<?std::endl;
29?????}
30?????
31?????return?0;
32?}

加上注釋和程序中的空行,也只需要32行代碼。使用標準庫的好處是顯而易見的,整個程序的意義都非常清晰,而且不容易出錯,使用STL真的是太方便了。那么,運行效率如何呢?我使用Linux中自帶的time命令對程序的運行時間進行分析,如下:
$?time?./SortAndUnique

real?0m35.786s
user?0m26.613s
sys??0m9.437s

那么,STL中的容器還有別的可以完成這個任務嗎?我想到了std::set,該容器在插入數據的時候,會自動拋棄重復的值,而且它里面的內容都是排好序的,這么看來,這個容器更加適合于我們的任務。那么,寫個代碼試一下:
?1?#include?<iostream>
?2?#include?<fstream>
?3?#include?<set>
?4?#include?<string>
?5?#include?<algorithm>
?6?
?7?int?main()
?8?{
?9?????//讀取文件中的email地址到std::set中
10?????std::ifstream?input_file("emails100w.txt");
11?????std::string?tmp;
12?????std::set<std::string>?emails;
13?????while(input_file?>>?tmp)
14?????{
15?????????emails.insert(tmp);
16?????}
17?????
18?????//寫入結果文件
19?????std::ofstream?output_file("results.txt");
20?????for(std::set<std::string>::iterator?it?=?emails.begin();?it?!=?emails.end();?it++)
21?????{
22?????????output_file?<<?*it?<<?std::endl;
23?????}
24?????
25?????return?0;
26?}

嗯,不錯,這個代碼的行數更少。那它的運行效率呢?比使用std::vector的那個版本是快些還是慢些呢?請看下面的測試數據:
$?time?./SortWithSet

real?0m21.544s
user?0m12.370s
sys?0m9.609s

哇塞,這個程序比前一個整整快了14秒多,其中sys的時間是差不多的,說明這兩個版本在輸入輸出的操作上沒多大區別,而排序和去除重復項的工作,使用std::set只有使用std::vector一半不到的時間。

為什么會這樣?我認為主要有以下幾個原因:

1、std::sort算法使用的排序方法我們不清楚,我們知道,排序有很多種方法,如簡單排序、快速排序、堆排序等,簡單排序是最慢的,它的時間復雜度為O(n2) ,而快速排序呢,它在最好情況下能達到O(n*log2n),而最壞情況下就只有O(n2)了,堆排序速度最快,時間復雜度為O(n*log2n)。我不知道std::sort算法使用的是不是堆排序,但是我可以肯定它絕對不會使用簡單排序,編寫STL的人可不會那么笨。而std::set使用的是什么數據結構呢?一般都是使用的紅黑樹(平衡二叉樹、AVL樹),使用該結構的特點是查找一個元素的時間復雜度絕對不會超過log2n+1,因此,使用std::set進行排序,它的時間復雜度肯定是O(n*log2n)了。另外,在C++ 0x標準中,會加入另外一些標準容器,如std::unordered_set,從名字上可以看出,它是一個沒有排序的set,它使用的數據結構就是哈希表,雖然沒有排序,但是它查找數據的時間復雜度卻是一個常數。

2、使用std::set容器減少了std::string的復制次數,我們知道STL的容器中保存的是我們的數據的副本,因此,將std::string對象放到std::vector容器中的時侯,會發生一個復制操作,而在使用std::sort算法的時候,容器中的元素交換位置,又會發生很多次的復制操作,再使用std::unique算法的時候,移動容器中的元素也要發生復制操作。使用std::set容器,它只在insert的時候復制一次而已。所以,使用std::set的這個版本比較快那是理所當然的了。

當然,如果你不使用std::string而是用char *,不使用容器和算法而是自己實現平衡二叉樹,當然可以寫出更快的版本,不過要付出更多的調試代價。

最后,為了讓大家都能夠找個100w行記錄的文本練練手,下面給出一個隨機生成100w個email地址的小程序,寫得不好,請不要見笑:
?1?#include?<iostream>
?2?#include?<fstream>
?3?#include?<cstdlib>
?4?#include?<string>
?5?#include?<vector>
?6?using?namespace?std;
?7?
?8?int?main()
?9?{
10?????//創建1000個用戶名
11?????char?letters[]?=?"abcdefghijklmnopqrstuvwxyz1234567890_";
12?????vector<string>?names;
13?????for(unsigned?int?i=0;?i<1000;?i++)
14?????{
15?????????//獲取一個30以內的隨機數作為用戶名的長度
16?????????int?length?=?rand()%30?+?1;
17?????????string?name;
18?????????for(unsigned?int?j=0;?j<length;?j++){
19?????????????int?index?=?rand()%37;
20?????????????name.append(1,letters[index]);
21?????????}
22?????????names.push_back(name);
23?????}
24?????
25?????//創建700個網站名
26?????string?domains[]?=?{".com",".cn",".com.cn",".gov",".gov.cn",".net",".net.cn"};
27?????vector<string>?sites;
28?????for(unsigned?int?i=0;?i<100;?i++)
29?????{
30?????????//獲取一個10以內的隨機數作為網站名的長度
31?????????int?length?=?rand()%10?+?1;
32?????????string?name;
33?????????for(unsigned?int?j=0;?j<length;?j++){
34?????????????int?index?=?rand()%37;
35?????????????name.append(1,letters[index]);
36?????????}
37?????????for(int?k=0;?k<7;?k++){
38?????????????name.append(domains[k]);
39?????????????sites.push_back(name);
40?????????}
41?????}
42?
43?????//構建100萬個email地址
44?????ofstream?emails("emails100w.txt");
45?????for(int?i=0;?i<1000000;?i++){
46?????????emails?<<?names[rand()%1000]?<<?"@"?<<?sites[rand()%700]?<<?endl;
47?????}
48?????
49?????return?0;
50?}

Feedback

# re: 從一道簡單的練習題說開去  回復  更多評論   

2007-11-14 10:27 by <a href=http://minidx.com>minidxer</a>
這里用Vector肯定效率不好的

# re: 從一道簡單的練習題說開去  回復  更多評論   

2007-11-14 11:54 by ok
vector版本的emails先預分配100w大小的空間,效率應該會有所提高
emails.reserve(1000000);

# re: 從一道簡單的練習題說開去  回復  更多評論   

2007-11-14 16:03 by 海邊沫沫
按樓上的建議修改后,運行結果如下:
real 0m35.157s
user 0m26.005s
sys 0m9.219s

效率的提升并不大,由此可見,你說的并不是關鍵問題。

# re: 從一道簡單的練習題說開去  回復  更多評論   

2007-11-14 16:41 by chenger
如果用非標準的散列表話,應該會更好
對付這種應用,散列表一般是最佳選擇
還好0x里散列表要進標準庫了

# re: 從一道簡單的練習題說開去[未登錄]  回復  更多評論   

2007-11-15 07:25 by Louis.G
修正下樓主的錯誤,堆排序并不最快,它的算法是先把小的數據放在右邊然后再移到左邊,兩次移動的代價并不低。如果是一個有序程度較高的數組堆排序遠不如快速排序,快排優化時還可在每個partition長度小的時候使用插入或冒泡以節省時間,而且劃分每個partition的種子是隨機選取的,可以認為它不會慢到n^2的級別。

不過像這種數據量很大的東西要效率還是自己特殊實現吧,靠標準庫是不行的。過分標準的東西往往失去了特性。

# re: 從一道簡單的練習題說開去  回復  更多評論   

2007-11-23 23:21 by 地獄門神
hashtable

# re: 從一道簡單的練習題說開去[未登錄]  回復  更多評論   

2007-11-24 10:33 by 海邊沫沫
Hash table在VC++ 2005和VC++ 2008中,有hash_map、hash_set、hash_multimap、hash_multiset可用,在下一代C++標準中,它們將被更名為unordered_map和unordered_set。

用它們來去除重復項,的確很快,但是它們不能排序。

# re: 從一道簡單的練習題說開去  回復  更多評論   

2007-12-04 16:44 by 新手看法
VECTOR是一塊連續內存,當SIZE很大時尋址比較慢,STD::SET是HASH的話就不用多說了

# re: 從一道簡單的練習題說開去  回復  更多評論   

2007-12-04 17:55 by 海邊沫沫
內存大小和尋址快慢有關系嗎?vector是可以隨機訪問的,像數組一樣,尋址任何一個元素的時間花費都是常數。list是不能隨機訪問的,才會出現容器越大尋址越慢的情況。

std::set和std::tr1::unordered_set是不同的,它們的底層實現不同。std::set不是hash,而是紅黑樹。

# re: 從一道簡單的練習題說開去  回復  更多評論   

2013-10-22 16:41 by booirror
生成100w個email的程序是有問題的,name.append()之后添加到vector,然后繼續append,共7次,這樣就不對了
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            欧美人与禽性xxxxx杂性| 亚洲欧美电影院| 噜噜噜久久亚洲精品国产品小说| 国产一区二区三区免费观看| 欧美主播一区二区三区| 久久成人精品无人区| 尤物九九久久国产精品的特点 | 日韩网站在线| 国产精品久久网| 久久婷婷国产综合国色天香| 久久综合激情| 一区二区电影免费观看| 亚洲资源在线观看| 国内久久精品| 亚洲精品久久嫩草网站秘色| 欧美午夜无遮挡| 麻豆视频一区二区| 欧美日在线观看| 久久久成人网| 欧美理论电影网| 久久久久国产精品www| 欧美xart系列高清| 性色av一区二区三区在线观看| 久久精品国产在热久久| 亚洲视频在线一区| 欧美有码在线观看视频| 日韩午夜在线观看视频| 亚洲影视九九影院在线观看| 亚洲欧洲午夜| 欧美一区二区三区视频在线观看 | 夜夜嗨av一区二区三区| 亚洲欧美影院| 亚洲一区二区三区中文字幕在线| 久久精品午夜| 欧美一区二区三区免费观看视频| 欧美大尺度在线观看| 久久久久久午夜| 国产精品裸体一区二区三区| 欧美承认网站| 国产专区精品视频| 亚洲私人影吧| 亚洲视频在线观看一区| 欧美ed2k| 欧美激情一区二区三区在线视频观看| 国产美女精品免费电影| 99精品视频免费观看视频| 亚洲精品久久久蜜桃| 久久久久久尹人网香蕉| 久久久久久久成人| 国产乱人伦精品一区二区| 正在播放欧美一区| 中日韩美女免费视频网址在线观看 | 亚洲欧美日韩精品久久久久| 亚洲一区二区视频| 欧美日韩高清在线观看| 亚洲国产裸拍裸体视频在线观看乱了中文| 国产亚洲欧美激情| 久久av老司机精品网站导航| 欧美中文在线免费| 国产亚洲精品bt天堂精选| 亚洲天堂网在线观看| 午夜精品久久久久影视| 欧美少妇一区| 一区二区三区久久精品| 亚洲视频日本| 欧美电影免费观看高清完整版| 国产精品久久国产精品99gif| 亚洲精选国产| 一本大道久久a久久精品综合| 欧美精品色综合| 亚洲精品欧美精品| 亚洲手机视频| 国产精品推荐精品| 欧美一区二区三区四区高清| 噜噜噜91成人网| 最新成人av网站| 欧美日韩精品在线| 在线亚洲+欧美+日本专区| 午夜精品成人在线| 精品动漫3d一区二区三区| 久热精品视频在线| 日韩一级二级三级| 欧美中文字幕不卡| 亚洲黄色在线| 国产精品扒开腿爽爽爽视频| 午夜免费电影一区在线观看| 另类图片综合电影| 99精品视频免费观看视频| 国产精品日日摸夜夜摸av| 久久精品噜噜噜成人av农村| 91久久精品国产91性色tv| 亚洲影院色在线观看免费| 国产日韩精品电影| 欧美高清免费| 亚洲欧美一区二区三区极速播放| 免费不卡欧美自拍视频| 亚洲一区二区三区精品动漫| 黑人巨大精品欧美一区二区小视频| 欧美福利电影在线观看| 亚洲欧美一区二区精品久久久| 欧美国产第一页| 午夜精品免费在线| 91久久国产综合久久蜜月精品| 国产精品福利网站| 免费成人小视频| 亚洲欧美在线磁力| 亚洲国产精品va在看黑人| 欧美亚洲午夜视频在线观看| 亚洲国产三级网| 国产午夜精品一区二区三区欧美 | 亚洲久久成人| 久久婷婷麻豆| 亚洲欧美激情视频在线观看一区二区三区| 国内精品美女av在线播放| 国产精品www994| 欧美久久电影| 欧美不卡视频一区发布| 欧美一区二区在线看| 一本久久综合亚洲鲁鲁| 欧美成人精品激情在线观看| 欧美在线播放一区二区| 日韩一区二区久久| 亚洲国产视频直播| 韩日视频一区| 国产香蕉久久精品综合网| 国产精品成人在线| 欧美精品成人| 欧美—级高清免费播放| 久久夜色精品国产| 久久精品亚洲乱码伦伦中文| 亚洲欧美伊人| 性欧美暴力猛交另类hd| 亚洲中午字幕| 欧美亚洲免费电影| 亚洲综合欧美| 亚洲欧美日韩在线一区| 亚洲香蕉成视频在线观看| 中文日韩欧美| 亚洲自拍偷拍色片视频| 亚洲宅男天堂在线观看无病毒| 国产精品免费看片| 欧美性久久久| 国产精品美女| 国产精品一区二区女厕厕| 国产精品久久久久久亚洲毛片| 国产精品福利网站| 国产精品婷婷午夜在线观看| 国产日韩亚洲欧美精品| 国产日韩欧美在线| 国产主播一区二区三区| 1000部国产精品成人观看| 亚洲国产精品久久久久婷婷884 | 国产伦精品一区二区三| 国产欧美精品在线播放| 国产精品综合不卡av| 国产一区二区三区久久悠悠色av | 久久精品成人一区二区三区蜜臀 | 亚洲免费小视频| 久久不射电影网| 欧美高清在线| 欧美特黄一级大片| 国产欧美 在线欧美| 激情综合久久| 一区二区三区高清不卡| 午夜宅男欧美| 欧美二区视频| 亚洲午夜激情网页| 久久精品国产99精品国产亚洲性色| 久久综合狠狠综合久久综合88| 欧美极品影院| 国产午夜亚洲精品羞羞网站| 亚洲人成人一区二区在线观看| 中文欧美日韩| 久久蜜桃精品| 99精品视频免费| 久久久综合网站| 欧美性视频网站| 亚洲福利在线观看| 午夜精品久久久久久久久久久久| 美女网站在线免费欧美精品| 亚洲理伦在线| 久久国产主播精品| 欧美视频不卡中文| 亚洲激情小视频| 久久精品一区二区三区中文字幕| 亚洲国产影院| 久久久免费观看视频| 欧美日韩一区成人| 亚洲第一天堂无码专区| 性欧美1819性猛交| 亚洲人成艺术| 看片网站欧美日韩| 国产亚洲精品成人av久久ww| 亚洲一区二区三区免费在线观看 | 亚洲男同1069视频| 欧美日韩视频在线一区二区观看视频| 国产日韩免费| 午夜精品国产| 99精品黄色片免费大全| 免费观看亚洲视频大全|