• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            夢(mèng)想的天堂

            常用鏈接

            統(tǒng)計(jì)

            最新評(píng)論

            XML字符串解析介紹

                    前些天在做一個(gè)小項(xiàng)目,需要實(shí)現(xiàn)從字符串到XML文件的逆向轉(zhuǎn)換過程。該字符串由XML文件所得。由于使用環(huán)境對(duì)解析時(shí)間和內(nèi)存使用量有嚴(yán)格的要求,因此必須確保解析速度和所占用內(nèi)存。
                  下面簡(jiǎn)單敘述一下我的實(shí)現(xiàn)過程。最開始采用的方法是每次從文件字符串里面讀入一個(gè)節(jié)點(diǎn)的值,具體讀取過程有xml文件各個(gè)節(jié)點(diǎn)屬性決定。再利用一個(gè)stack對(duì)xml文件節(jié)點(diǎn)進(jìn)行管理。大致思路是每讀入一個(gè)字符串,先判斷其類型,如果是Element或者text, comment, cdata類型則入棧,若為EndElement則出棧,這樣就可以順利建立起各個(gè)父子節(jié)點(diǎn)之間的關(guān)系。
                 采用這樣的方法是思路比較的明確,實(shí)現(xiàn)起來比較的簡(jiǎn)單,缺點(diǎn)是解析速度太慢了,解析一個(gè)2M左右的XML文件要10多分鐘,而且所費(fèi)時(shí)間與文件的大小成幾何級(jí)別增長(zhǎng),根本不可能接受。在采用這種方法過程中,也出現(xiàn)了一個(gè)小插曲。就是在解析比較大的xml文件時(shí),當(dāng)解析的xml節(jié)點(diǎn)超過1500個(gè)時(shí),就會(huì)導(dǎo)致內(nèi)存分配錯(cuò)誤,堆棧溢出,開始是百思不得其解,后來才知道是由于我在解析字符串過程中,采用了遞歸的方法,因此內(nèi)存消耗很厲害,特別是我開始傳入一個(gè)const字符串時(shí),一個(gè)小小的幾百K(以200k為例)的文件就可能導(dǎo)致內(nèi)存一下子消耗幾百M(fèi),因?yàn)槊看沃蛔x入一個(gè)節(jié)點(diǎn)字符串,這樣最終大小可以達(dá)到200K+19.96k+....+0 ~=200*(200-1)k/2~ = 200M.因此導(dǎo)致編譯器堆棧溢出,解決方法有幾種,一是將堆棧設(shè)置大些,另外就是改遞歸為循環(huán)。我采用了后者。
                 在進(jìn)行字符串解析時(shí),我大量采用了STL的字符串find,find_first_of(),substr等

            函數(shù),但是這通常只在搜索小字符串時(shí)速度較快,在長(zhǎng)達(dá)幾M的字符串時(shí),由于大塊的內(nèi)存操作,程序運(yùn)行慢如蝸牛。而且我在前面的實(shí)現(xiàn)方法中,每次是提取一個(gè)節(jié)點(diǎn),然后再進(jìn)行解析,這樣在讀取和解析過程中,會(huì)導(dǎo)致許多重復(fù)的步驟,嚴(yán)重影響工作效率。 于是我就采用一個(gè)了for循環(huán)對(duì)讀入的一個(gè)個(gè)字節(jié)進(jìn)行處理,這樣速度得到顯著的提高。但是程序在解析大字符串時(shí)還是運(yùn)行很慢,我開始 意識(shí)到是長(zhǎng)字符串的問題,因此得想方法分段解析才行。于是決定每次從字符串里面提取一定的字符處理。在解析長(zhǎng)達(dá)幾M的字符串時(shí),我先后試驗(yàn)了每次提取64bit,128bit,256bit,512bit, 1k, 2k, 4k等不同長(zhǎng)度的字符串,發(fā)現(xiàn)在處理大字符串時(shí),4K的效果最好。在解析一個(gè)8M左右的xml字符串時(shí),速度可以達(dá)到30S,但是內(nèi)存消耗有點(diǎn)厲害了,達(dá)100M。因此也很難滿足要求。
                 最后還是采用了一種比較折中的方法,就是在初次解析時(shí),只解析根節(jié)點(diǎn)以及其下一層子節(jié)點(diǎn),在保存過程中再分段解析,主要可以極大的減少內(nèi)存消耗,8M左右的文件可以降低到20M左右內(nèi)存。速度也有所提高,最終耗時(shí)3s左右。

            posted on 2007-06-17 23:02 IT民工 閱讀(2617) 評(píng)論(2)  編輯 收藏 引用

            評(píng)論

            # re: XML字符串解析介紹 2007-08-27 18:17 c++ FANS

            你好,看了你的XML解析,想和你交流交流,可否?
            QQ:4427598
            謝謝!  回復(fù)  更多評(píng)論   

            # re: XML字符串解析介紹[未登錄] 2014-08-25 14:25 12

            12  回復(fù)  更多評(píng)論   


            只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。
            網(wǎng)站導(dǎo)航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


            国产精品99久久免费观看| 久久综合伊人77777| 久久久久99精品成人片欧美| 欧美噜噜久久久XXX| 精品久久国产一区二区三区香蕉| 久久成人精品| 久久青青草原亚洲av无码app| 久久电影网一区| 狠狠色丁香久久婷婷综合_中| 久久人爽人人爽人人片AV | 精品国产乱码久久久久久浪潮| 久久影院午夜理论片无码| 久久亚洲精品人成综合网| 久久精品国产欧美日韩| 国产精品久久午夜夜伦鲁鲁| 久久综合五月丁香久久激情| 91麻豆精品国产91久久久久久| 久久成人小视频| 国内精品免费久久影院| 久久久久亚洲AV无码永不| 亚洲成av人片不卡无码久久| 国产成人精品久久一区二区三区av | 99国内精品久久久久久久| 久久AV无码精品人妻糸列| 欧美久久久久久精选9999| 国产精品一区二区久久精品| 亚洲级αV无码毛片久久精品| 久久亚洲高清综合| 国产叼嘿久久精品久久| 777米奇久久最新地址| 久久综合综合久久综合| 亚洲第一极品精品无码久久| 欧美日韩精品久久免费| 亚洲欧洲久久av| 亚洲第一永久AV网站久久精品男人的天堂AV| 亚洲国产精品婷婷久久| 国产精品久久久久9999高清| 欧洲人妻丰满av无码久久不卡| 五月丁香综合激情六月久久| 久久精品国产亚洲AV无码娇色 | 欧美精品丝袜久久久中文字幕 |