• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            hdqqq

              C++博客 :: 首頁(yè) :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理 ::
              35 隨筆 :: 0 文章 :: 104 評(píng)論 :: 0 Trackbacks

            這幾天在寫一個(gè)linux下的統(tǒng)計(jì)程序,主要是將一個(gè)文本文件讀取后,按行進(jìn)行分類統(tǒng)計(jì).
            用C++加 Stl實(shí)現(xiàn),在windows平臺(tái)下用vc編寫,然后上傳到linux機(jī)器上用gcc編譯.

            在處理上,我用了一個(gè)list<string>作為讀取行的緩沖,讀了一定的行數(shù)后就進(jìn)行處理.
            在讀取文件的函數(shù)中是這樣寫的.

             

            while (!infile.eof()) {
                  memset(buf, 
            0, sizeof(char)*2048);
                  infile.getline(buf, 
            2048);
                  tt 
            = buf;
                  
            if (tt.length()) {
                    log_list.push_back(tt);
                  }

                  
            //if the file is too big, so we do statistic per 5000 lines
                  
            if (log_list.size() >= 5000) {
                    line_statistic(result, log_list);
                    log_list.clear();
                  }
            }


            一切ok, 但是這幾天要處理的文件變地很大,有100多M,我沒(méi)有多想,隨便的把
                  if (log_list.size() >= 5000) {
            改成了
                  if (log_list.size() >= 50000) {
            想在50000行后再進(jìn)行計(jì)算處理.不料想,在linux下運(yùn)行效率居然出奇的慢.
            原先統(tǒng)計(jì)5萬(wàn)行大概要20秒左右,現(xiàn)在居然要2分多.應(yīng)該是list::size()這個(gè)函數(shù)出了問(wèn)題.
            我以前看過(guò)vc中的list的實(shí)現(xiàn),是用一個(gè)成員變量進(jìn)行記數(shù)的,在size()中就直接返回這個(gè)
            值,應(yīng)該不會(huì)有問(wèn)題.

            接著我看了gcc使用的stl的list::size()的實(shí)現(xiàn),它是用
            std::distance(begin(), end())
            來(lái)計(jì)算的.
            但是在std::distance的實(shí)現(xiàn)中,它按照iterator類型的不同,實(shí)現(xiàn)的方式也不同.
            而list的iterator,是屬于雙向iterator,而非隨機(jī)iterator,因此,在std::distance()
            中使用了一個(gè)循環(huán)來(lái)計(jì)算值.也就是說(shuō)在gcc的stl庫(kù)中,每次調(diào)用list::size()函數(shù),它都會(huì)從頭
            到尾遍歷一遍.再看看我的代碼,循環(huán)里面每一步size()都要遍歷一遍list,難怪會(huì)變得
            如此的慢.


            沒(méi)想到stl的不同實(shí)現(xiàn)還會(huì)有這種陷阱,一不留神就撞上了.

            總之 gcc中l(wèi)ist的size()是不能隨便用的,list越大,size()函數(shù)花的時(shí)間越長(zhǎng).

            posted on 2007-12-11 11:56 hdqqq 閱讀(10556) 評(píng)論(19)  編輯 收藏 引用 所屬分類: c/c++

            評(píng)論

            # re: gcc 中std::list 的size()成員函數(shù) 2007-12-11 12:44 海邊沫沫
            呵呵,為什么要用list?為什么不用vector?

            還有,讀取文件的代碼寫得太不C++了,像C的代碼。

            C++的代碼,要么是
            ifstream inputfile("filename);
            string tmpstr;
            vector<string> log_vector;
            while(inputfile >> tmpstr)
            {
            log_vector.push_back(tmpstr);
            }

            要么是
            ifstream inputfile("filename);
            istream_iterator input_begin(inputfile);
            istream_iterator input_end();
            vector<string> log_vector(input_begin,input_end);  回復(fù)  更多評(píng)論
              

            # re: gcc 中std::list 的size()成員函數(shù)[未登錄](méi) 2007-12-11 13:20 hdqqq
            不用vector是考慮到在大數(shù)據(jù)量的情況下,vector會(huì)進(jìn)行內(nèi)存的拷貝復(fù)制,所以采用了list  回復(fù)  更多評(píng)論
              

            # re: gcc 中std::list 的size()成員函數(shù) 2007-12-11 14:03 金慶
            @海邊沫沫
            用istream_iterator<string>不行啊?好象是vector不能接受istream_iterator。貼個(gè)調(diào)試能過(guò)的代碼讓我們瞧瞧吧。  回復(fù)  更多評(píng)論
              

            # re: gcc 中std::list 的size()成員函數(shù) 2007-12-11 14:20 歲月流冰
            可以考慮使用deque。  回復(fù)  更多評(píng)論
              

            # re: gcc 中std::list 的size()成員函數(shù) 2007-12-11 14:43
            #include<iostream>
            #include<vector>
            #include<iterator>
            #include<string>
            #include<fstream>
            using namespace std;
            int main()
            {
            ifstream inputfile("q.cpp");
            vector<string> vec;
            string str;
            while( getline(inputfile,str) )
            vec.push_back(str);
            copy(vec.begin(),vec.end(),ostream_iterator<string>(cout,"\n"));
            return 0;
            }  回復(fù)  更多評(píng)論
              

            # re: gcc 中std::list 的size()成員函數(shù) 2007-12-11 15:09 海邊沫沫
            #include <iostream>
            #include <fstream>
            #include <string>
            #include <vector>
            #include <iterator>
            #include <algorithm>

            int main()
            {
            std::ifstream input_file("D:\\emails100w.txt");
            std::istream_iterator<std::string> input_begin(input_file);
            std::istream_iterator<std::string> input_end;

            std::vector<std::string> log_vector(input_begin,input_end);

            //寫入到另外一個(gè)文件
            std::ofstream output_file("D:\\emails100w_copy.txt");
            std::ostream_iterator<std::string> output_begin(output_file,"\n");
            std::copy(log_vector.begin(),log_vector.end(),output_begin);
            }

            上面的代碼是可以編譯通過(guò)的,其中的D:\\emails100w.txt是一個(gè)包含一百萬(wàn)條記錄的文本。

            剛才我給出的代碼通不過(guò)編譯,確實(shí)是我的問(wèn)題,主要是
            std::istream_iterator<std::string> input_end;
            這一行,最后應(yīng)該沒(méi)有括號(hào)。如果加上括號(hào),編譯器就不會(huì)認(rèn)為這是一個(gè)iterator,就會(huì)調(diào)用vector的錯(cuò)誤構(gòu)造函數(shù),就會(huì)出現(xiàn)博主所敘的錯(cuò)誤。  回復(fù)  更多評(píng)論
              

            # re: gcc 中std::list 的size()成員函數(shù) 2007-12-11 17:10 winsty
            自己拿個(gè)變量統(tǒng)計(jì)?
            雖然這樣不太好...  回復(fù)  更多評(píng)論
              

            # re: gcc 中std::list 的size()成員函數(shù) 2007-12-12 11:02 金慶
            @海邊沫沫
            可惜istream_iterator<string>是按string輸入的,以空白符分隔,而不是以'\n'分隔。好像沒(méi)有辦法改變這個(gè)分隔符的吧?  回復(fù)  更多評(píng)論
              

            # re: gcc 中std::list 的size()成員函數(shù) 2007-12-13 14:21 海邊沫沫
            不錯(cuò),是沒(méi)有辦法改變分隔符。
            不過(guò)可以重載operator << 和自定義一個(gè)自己的string來(lái)實(shí)現(xiàn)這樣的功能。

            不過(guò)這樣搞劃不來(lái),不如使用getline  回復(fù)  更多評(píng)論
              

            # re: gcc 中std::list 的size()成員函數(shù) 2007-12-14 13:10 lymons
            bz里描述的問(wèn)題是 關(guān)于list容器的size函數(shù)帶來(lái)的效率的問(wèn)題,而不是
            怎么提高讀寫效率的問(wèn)題,大家不要跑題啊。

            而且,在讀取的過(guò)程中,還要對(duì)超過(guò)固定行數(shù)之后的容器進(jìn)行統(tǒng)計(jì)處理。

            各位高手們,請(qǐng)仔細(xì)看bz的source的機(jī)能要求吧。  回復(fù)  更多評(píng)論
              

            # re: gcc 中std::list 的size()成員函數(shù) 2007-12-16 20:14 TD
            re: gcc 中std::list 的size()成員函數(shù)[未登錄](méi) 2007-12-11 13:20 hdqqq
            不用vector是考慮到在大數(shù)據(jù)量的情況下,vector會(huì)進(jìn)行內(nèi)存的拷貝復(fù)制,所以采用了list 回復(fù) 更多評(píng)論

            vector構(gòu)造的時(shí)候指定一個(gè)大小,比如你程序中的5000之類的,就不會(huì)有內(nèi)存的拷貝復(fù)制了吧  回復(fù)  更多評(píng)論
              

            # re: gcc 中std::list 的size()成員函數(shù)[未登錄](méi) 2007-12-16 21:36 hdqqq
            @TD
            是的,如果開(kāi)始的時(shí)候指定vector是可以的,但是限定了vector的大小。  回復(fù)  更多評(píng)論
              

            # re: gcc 中std::list 的size()成員函數(shù) 2008-01-31 21:29 abettor
            真沒(méi)想到,list會(huì)有這種弊端。  回復(fù)  更多評(píng)論
              

            # re: gcc 中std::list 的size()成員函數(shù) 2008-09-19 23:12 hgyxb
            list怎么會(huì)這樣啊,設(shè)計(jì)的怎么搞的  回復(fù)  更多評(píng)論
              

            # re: gcc 中std::list 的size()成員函數(shù) 2008-12-12 16:00 bianshj
            呵呵,真是太感謝了。
            最近在寫一個(gè)linux的服務(wù)器程序,用了list,剛開(kāi)始的時(shí)候我自己處理list的元素?cái)?shù)量,后來(lái)想stl既然這么優(yōu)秀,它肯定會(huì)用成員變量來(lái)計(jì)數(shù),使用size不回影響效率。結(jié)果用了size后果然出了很多問(wèn)題。  回復(fù)  更多評(píng)論
              

            # re: gcc 中std::list 的size()成員函數(shù) 2009-04-22 10:51 abettor
            以前發(fā)現(xiàn)過(guò)這種情況,而且只在gcc中發(fā)現(xiàn),不知gcc4有沒(méi)有把這個(gè)問(wèn)題修正過(guò)來(lái)。
              回復(fù)  更多評(píng)論
              

            # re: gcc 中std::list 的size()成員函數(shù) 2010-12-15 12:15 qci133
            @abettor
            這個(gè)不是gcc的問(wèn)題,而是c++標(biāo)準(zhǔn)中確實(shí)沒(méi)有規(guī)定list的size函數(shù)需要O(1)時(shí)間,反而規(guī)定了list的分割和合并需要O(1)時(shí)間。在后面一個(gè)限制之下,前面的要求是達(dá)不到的。網(wǎng)上有人貼過(guò)具體的分析  回復(fù)  更多評(píng)論
              

            # re: gcc 中std::list 的size()成員函數(shù)[未登錄](méi) 2011-08-29 17:14 Chipset
            關(guān)std::list屁事,是你自己沒(méi)有用明白。每個(gè)string的字符個(gè)數(shù)相等嗎?如果不等的話,那行數(shù)有什么用?如果一定要用行數(shù)標(biāo)記,那就設(shè)置一個(gè)變量啊。

            list::size本來(lái)就沒(méi)有規(guī)定是O(1)還是O(n),純屬依賴于實(shí)現(xiàn)。  回復(fù)  更多評(píng)論
              

            # re: gcc 中std::list 的size()成員函數(shù)[未登錄](méi) 2016-04-25 10:01 hdqqq
            @Chipset
            麻煩看清楚文章再噴  回復(fù)  更多評(píng)論
              

            日本免费一区二区久久人人澡| 亚洲精品无码久久不卡| 国产成人精品久久亚洲高清不卡 | 国产免费久久精品99久久| 亚洲国产精品嫩草影院久久| 色综合久久久久综合体桃花网| 青青草国产精品久久| 囯产极品美女高潮无套久久久 | 无遮挡粉嫩小泬久久久久久久 | 99久久综合国产精品免费| 青青热久久综合网伊人| 亚洲精品无码久久一线| 国产激情久久久久影院| 久久精品国产亚洲AV大全| 久久国产AVJUST麻豆| 国产精品伊人久久伊人电影 | 久久亚洲av无码精品浪潮| 久久国产精品成人片免费| 久久99久久99精品免视看动漫| 久久精品国产第一区二区| 91久久精品91久久性色| 久久久久久精品免费免费自慰 | 国产精品久久午夜夜伦鲁鲁| 欧洲国产伦久久久久久久| 91精品国产91久久久久久青草| 国产精品对白刺激久久久| 99久久夜色精品国产网站| 久久亚洲中文字幕精品一区四| 国产精品内射久久久久欢欢| 国产一区二区精品久久| 99久久99久久精品免费看蜜桃| 日产精品久久久久久久| 亚洲日韩中文无码久久| 色狠狠久久AV五月综合| 色综合久久久久久久久五月| 亚洲精品tv久久久久久久久| 狠狠综合久久AV一区二区三区| 久久精品国产免费观看| 无码久久精品国产亚洲Av影片| 99精品久久久久久久婷婷| 少妇久久久久久久久久|