• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            飄雪

            C++博客 首頁 新隨筆 聯(lián)系 聚合 管理
              31 Posts :: 0 Stories :: 60 Comments :: 0 Trackbacks
                最近在做嵌入式開發(fā),這個嵌入式平臺上,支持標(biāo)準(zhǔn)c庫,但不支持mbcs,也不支持unicode。里面的wchar_t被直接定義為char(typedef char wchar_t;),可見這個wchar_t是假的,只是為了讓含有wchar_t的程序能通過編譯,并不是支持unicode,當(dāng)然也就沒有對應(yīng)的wcs函數(shù)族?,F(xiàn)在要讓這個系統(tǒng)上的程序支持中文,有下面幾種想法。
                首先要弄清支持中文的含義,先分析一下需求,這個程序?qū)ψ址牟僮髦饕侨缦铝鞒?,從文件中讀進(jìn)字符串(文件編碼可自己定義),對字符串進(jìn)行查找、截取、拼接操作,最后把完成的字符串作為參數(shù)傳到另一個庫里(暫且叫它libn吧)。需要說明的是,libn由公司別的小組實現(xiàn),它不關(guān)注字符集,里面不再處理(截取、拼接)字符串,只是把輸入的字符串輸出到文件或屏幕,目前已經(jīng)有一個比較穩(wěn)定的跨平臺版本。
                需求確定以后,接下來要確定中文在程序中的存儲編碼。對中文來說,通常有三種編碼方案可供選擇:
                1. 用mbcs編碼存儲(gb2312/gbk/gb18030)。
                2. 用unicode編碼存儲。
                3. 用utf-8編碼存儲。
                這個系統(tǒng)里針對這三種編碼的字符串函數(shù)都沒有,不管采用哪種方案,字符串函數(shù)都得自己寫,從這點來說,三種方案的工作量都差不多。
                先來看看mbcs,這個方案純粹是為了中文而支持中文,如果將來要兼容其他語言,mbcs函數(shù)都得重寫,而且mbcs跟unicode的轉(zhuǎn)換沒有固定的公式,必須依賴于一張大表。用mbcs沒有什么特別的好處,這個方案只能早早的就否決了。
                再來看看unicode和utf-8。一般說來,unicode是國際化的終極解決方案,大部分c編譯器支持wchar_t數(shù)據(jù)類型,如果編譯器不支持wchar_t,可以自己使用unsigned short或unsigned int來模擬。不管什么語言,每個字符都被放到2字節(jié)的wchar_t類型里(linux下是4字節(jié)),通常對于新的程序,都推薦使用unicode。而utf-8是unicode的一種存儲方案。
                下面我們從不同方面來比較一下unicode和utf-8各自的優(yōu)勢:
                1. 內(nèi)存空間。unicode對于每個字符都是2個字節(jié),utf-8對英文是一個字節(jié),對漢字是2個或3個字節(jié)。對于英文來說,utf-8占優(yōu),但在漢字占多數(shù)的情況下,unicode占優(yōu)勢。當(dāng)然,如果字符串的數(shù)量不是很大的話,這個問題不是很突出。這里列出來,對文件存儲也可以起到一個參考作用。
                2. 程序編寫難度。unicode是定長類型,而utf-8是變長的,每操作一個字符的時候,都要考慮這個字符的長度,毫無疑問unicode的字符串函數(shù)編寫起來應(yīng)該更簡單。目前,這兩種字符串函數(shù)都有大量的實現(xiàn)可供參考,對于寫程序來說,問題不大。
                3. 程序執(zhí)行效率。unicode定長,utf-8變長。對于strlen,substr之類的操作,unicode很方便,utf-8卻要從頭到尾掃描,而且需要邊掃描邊判斷字符長度。因此unicode比utf-8要快很多,但如果這種操作不是很多,效率影響也不會特別明顯。
                4. 現(xiàn)有程序的數(shù)量。unicode程序我們見得多了,但采用utf-8的程序也不少,gtk+就是。它們都運行得很好。
                5. 兼容性。英文的utf-8編碼跟ascii完全一樣,因此也兼容標(biāo)準(zhǔn)c庫的字符串函數(shù),如果不需要操作字符,完全不用關(guān)心語言。對于unicode,標(biāo)準(zhǔn)c庫的字符串函數(shù)不能工作,字符串函數(shù)都得重寫,常常用一個宏來控制在unicode和ascii直接切換(比如windows下的TCHAR)。
                從上面幾點來看,跟utf-8相比,unicode占據(jù)絕對優(yōu)勢。只有unicode的世界真美好...
                但事實上,libn因為它并不關(guān)心字符集,所以它把接口的字符串類型全部聲明成char*了,如果libn也用unicode實現(xiàn),那就完美了,可惜,這不在我的控制范圍之內(nèi)。
                另外還有一種方案,在我的程序內(nèi)部使用unicode,在調(diào)用libn的接口處,轉(zhuǎn)換成utf-8,傳給libn,從libn返回的utf-8字符串,先轉(zhuǎn)成unicode再使用。這個方法聽起來也不錯,但是很多對象并不是調(diào)用接口時才生成,也不是調(diào)用完就銷毀,這樣會導(dǎo)致我的程序內(nèi)會長期存在字符串的unicode和utf-8兩種拷貝,浪費大量內(nèi)存,對于嵌入式系統(tǒng)來說,這很難容忍。
                最終,我決定在我的程序內(nèi)部使用utf-8編碼,作出這個決定的最主要原因是因為我要使用libn,雖然這樣我的程序會消耗更多的內(nèi)存、需要編寫冗長難懂的字符串函數(shù)、效率也會下降,但不得不這樣。gtk+沒有使用unicode而采用utf-8,恐怕也是這樣妥協(xié)的結(jié)果吧。
                后記:utf-8函數(shù)參考了glib中的實現(xiàn)。



            posted on 2009-02-17 15:44 飄雪 閱讀(2169) 評論(13)  編輯 收藏 引用 所屬分類: c/c++

            Feedback

            # re: 嵌入式系統(tǒng)的中文支持與國際化 2009-02-17 16:08 路人丁
            你說的unicode其實特指UCS-2。
            UCS-2 和 utf-8 相比較,自然是選 utf-8

            "c編譯器支持wchar_t數(shù)據(jù)類型" --- wchar_t在C/C++是寬字符,而沒有規(guī)定寬字符必須是ucs-2編碼,VC的wchar_t是用ucs2編碼,而其他編譯器大部分用ucs4編碼。  回復(fù)  更多評論
              

            # re: 嵌入式系統(tǒng)的中文支持與國際化 2009-02-17 16:16 飄雪
            @路人丁
            你說的很對,我上面也注明了“l(fā)inux下是4字節(jié)”,不過沒有具體說ucs-2或ucs-4,另外我也提到了在沒有wchar_t支持的情況下,用short或int來模擬,其實說的也是這個問題

            因為我的程序主要是嵌入式系統(tǒng),所以幾乎肯定不會考慮ucs-4,這個是我沒說清楚語境  回復(fù)  更多評論
              

            # re: 嵌入式系統(tǒng)的中文支持與國際化 2009-02-17 16:20 飄雪
            @路人丁
            另外你說的“UCS-2 和 utf-8 相比較,自然是選 utf-8 ”
            這個我不這么認(rèn)為,如果不是要使用別人的庫,我肯定不會考慮utf-8的  回復(fù)  更多評論
              

            # re: 嵌入式系統(tǒng)的中文支持與國際化 2009-02-17 17:47 路人丁
            utf-8也是unicode的一種編碼,“unicode比utf-8要快很多”的說法不夠嚴(yán)謹(jǐn)。  回復(fù)  更多評論
              

            # re: 嵌入式系統(tǒng)的中文支持與國際化 2009-02-17 17:48 路人丙
            上面的一條是“路人丙”回的,路人丙道歉。  回復(fù)  更多評論
              

            # re: 嵌入式系統(tǒng)的中文支持與國際化 2009-02-17 17:51 路人丙
            一直沒搞懂,Windows使用UTF-16,超過UNICODE編碼中兩個字節(jié)編碼范圍的漢字是怎么處理的。  回復(fù)  更多評論
              

            # re: 嵌入式系統(tǒng)的中文支持與國際化 2009-02-17 18:06 飄雪
            @路人丁
            utf-8也是unicode的一種編碼,“unicode比utf-8要快很多”的說法不夠嚴(yán)謹(jǐn)

            我本來想說的是處理直接用unicode(ucs-2)存儲的字符串比處理用utf-8存儲的字符串快得多,表達(dá)不夠清楚  回復(fù)  更多評論
              

            # re: 嵌入式系統(tǒng)的中文支持與國際化 2009-02-17 20:49 路人戊
            好奇那個libn是什么,為何能夠不依賴編碼。畢竟mbcs和utf8結(jié)構(gòu)上差別還是挺大的。如果只是寫成char*來拿raw data的話,直接把unsigned short*轉(zhuǎn)成char*不行么……  回復(fù)  更多評論
              

            # re: 嵌入式系統(tǒng)的中文支持與國際化 2009-02-18 05:52 路人乙
            @路人丙
            還要再查表,對于某些超出unicode編碼范圍的字符,內(nèi)存里的其實是外表的表id和表內(nèi)索引,去那個外表再取字。  回復(fù)  更多評論
              

            # re: 嵌入式系統(tǒng)的中文支持與國際化 2009-02-18 11:06 飄雪
            好奇那個libn是什么,為何能夠不依賴編碼。畢竟mbcs和utf8結(jié)構(gòu)上差別還是挺大的。如果只是寫成char*來拿raw data的話,直接把unsigned short*轉(zhuǎn)成char*不行么……


            libn對于字符串的處理很簡單,不做substr之類的操作,實際上里面用得最多的可能是strcmp,只比較字符串,這樣的話utf-8能正常工作,unsigned short就不能工作了  回復(fù)  更多評論
              

            # re: 嵌入式系統(tǒng)的中文支持與國際化 2009-02-23 17:21 Agaric
            @路人丙
            UTF16不一定是"雙字節(jié)"。

            代碼點存在于“代碼空間”中。代碼空間由許多標(biāo)量值組成,這些值被劃分在兩個平面中:

            基本多語種平面(64k 大小)。
            在 Unicode 中,此下平面中的值的十六進(jìn)制表示位于 U+0000 到 U+FFFF 的范圍中。

            輔助多語種平面(16 個 64k 大小的附加節(jié))。
            在 Unicode 中,此上平面中的值的十六進(jìn)制表示位于 U+10000 到 U+10FFFF 的范圍中。
              回復(fù)  更多評論
              

            # re: 嵌入式系統(tǒng)的中文支持與國際化 2009-03-05 12:04 飄雪
            @路人丙
            一直沒搞懂,Windows使用UTF-16,超過UNICODE編碼中兩個字節(jié)編碼范圍的漢字是怎么處理的。

            可參看 http://www.ietf.org/rfc/rfc2781.txt,
            rfc2279: UTF-8, a transformation format of ISO 10646
              回復(fù)  更多評論
              

            # re: 嵌入式系統(tǒng)的中文支持與國際化 2009-03-05 12:04 飄雪
            @路人丙
            一直沒搞懂,Windows使用UTF-16,超過UNICODE編碼中兩個字節(jié)編碼范圍的漢字是怎么處理的。

            可參看 http://www.ietf.org/rfc/rfc2781.txt,
            rfc2781: UTF-16, an encoding of ISO 10646

              回復(fù)  更多評論
              

            久久中文娱乐网| 狠狠色丁香婷婷久久综合五月| 国产午夜福利精品久久| 大伊人青草狠狠久久| 久久精品国内一区二区三区| 久久精品女人天堂AV麻| 亚洲人成伊人成综合网久久久| 亚洲国产精品无码久久| 91精品国产高清91久久久久久| 韩国免费A级毛片久久| 久久亚洲高清观看| 国产69精品久久久久APP下载| 久久精品免费全国观看国产| 久久精品国产亚洲AV麻豆网站| 国产精品久久国产精品99盘 | 亚洲国产精品久久66| 久久夜色精品国产| 国产精品天天影视久久综合网| 无码国内精品久久人妻麻豆按摩| 色综合久久久久无码专区| 久久综合九色综合精品| 亚洲国产精品无码久久久蜜芽| 久久久精品视频免费观看| 欧美亚洲色综久久精品国产| 伊人久久大香线蕉综合网站| 99久久精品无码一区二区毛片 | 国产精品永久久久久久久久久| 久久久av波多野一区二区| 亚洲AV无码久久精品成人 | 色8久久人人97超碰香蕉987| 热99re久久国超精品首页| 久久精品水蜜桃av综合天堂| 国产精品一区二区久久精品涩爱 | 伊人久久综合热线大杳蕉下载| 一本久久a久久精品综合夜夜| 久久福利资源国产精品999| 亚洲精品美女久久777777| 亚洲国产精品无码久久SM| 精品多毛少妇人妻AV免费久久| 久久中文字幕视频、最近更新| 99久久亚洲综合精品网站|