欧美午夜片欧美片在线观看,久久久久久一区二区,亚洲福利国产

嵌入式系統(tǒng)的中文支持與國際化

    最近在做嵌入式開發(fā)，這個嵌入式平臺上，支持標準c庫，但不支持mbcs，也不支持unicode。里面的wchar_t被直接定義為char（typedef char wchar_t;），可見這個wchar_t是假的，只是為了讓含有wchar_t的程序能通過編譯，并不是支持unicode，當(dāng)然也就沒有對應(yīng)的wcs函數(shù)族。現(xiàn)在要讓這個系統(tǒng)上的程序支持中文，有下面幾種想法。
    首先要弄清支持中文的含義，先分析一下需求，這個程序?qū)ψ址牟僮髦饕侨缦铝鞒蹋瑥奈募凶x進字符串（文件編碼可自己定義），對字符串進行查找、截取、拼接操作，最后把完成的字符串作為參數(shù)傳到另一個庫里（暫且叫它libn吧）。需要說明的是，libn由公司別的小組實現(xiàn)，它不關(guān)注字符集，里面不再處理（截取、拼接）字符串，只是把輸入的字符串輸出到文件或屏幕，目前已經(jīng)有一個比較穩(wěn)定的跨平臺版本。
    需求確定以后，接下來要確定中文在程序中的存儲編碼。對中文來說，通常有三種編碼方案可供選擇：
   1. 用mbcs編碼存儲（gb2312/gbk/gb18030）。
    2. 用unicode編碼存儲。
    3. 用utf-8編碼存儲。
   這個系統(tǒng)里針對這三種編碼的字符串函數(shù)都沒有，不管采用哪種方案，字符串函數(shù)都得自己寫，從這點來說，三種方案的工作量都差不多。
   先來看看mbcs，這個方案純粹是為了中文而支持中文，如果將來要兼容其他語言，mbcs函數(shù)都得重寫，而且mbcs跟unicode的轉(zhuǎn)換沒有固定的公式，必須依賴于一張大表。用mbcs沒有什么特別的好處，這個方案只能早早的就否決了。
    再來看看unicode和utf-8。一般說來，unicode是國際化的終極解決方案，大部分c編譯器支持wchar_t數(shù)據(jù)類型，如果編譯器不支持wchar_t，可以自己使用unsigned short或unsigned int來模擬。不管什么語言，每個字符都被放到2字節(jié)的wchar_t類型里（linux下是4字節(jié)），通常對于新的程序，都推薦使用unicode。而utf-8是unicode的一種存儲方案。
    下面我們從不同方面來比較一下unicode和utf-8各自的優(yōu)勢：
    1. 內(nèi)存空間。unicode對于每個字符都是2個字節(jié)，utf-8對英文是一個字節(jié)，對漢字是2個或3個字節(jié)。對于英文來說，utf-8占優(yōu)，但在漢字占多數(shù)的情況下，unicode占優(yōu)勢。當(dāng)然，如果字符串的數(shù)量不是很大的話，這個問題不是很突出。這里列出來，對文件存儲也可以起到一個參考作用。
    2. 程序編寫難度。unicode是定長類型，而utf-8是變長的，每操作一個字符的時候，都要考慮這個字符的長度，毫無疑問unicode的字符串函數(shù)編寫起來應(yīng)該更簡單。目前，這兩種字符串函數(shù)都有大量的實現(xiàn)可供參考，對于寫程序來說，問題不大。
    3. 程序執(zhí)行效率。unicode定長，utf-8變長。對于strlen，substr之類的操作，unicode很方便，utf-8卻要從頭到尾掃描，而且需要邊掃描邊判斷字符長度。因此unicode比utf-8要快很多，但如果這種操作不是很多，效率影響也不會特別明顯。
    4. 現(xiàn)有程序的數(shù)量。unicode程序我們見得多了，但采用utf-8的程序也不少，gtk+就是。它們都運行得很好。
    5. 兼容性。英文的utf-8編碼跟ascii完全一樣，因此也兼容標準c庫的字符串函數(shù)，如果不需要操作字符，完全不用關(guān)心語言。對于unicode，標準c庫的字符串函數(shù)不能工作，字符串函數(shù)都得重寫，常常用一個宏來控制在unicode和ascii直接切換（比如windows下的TCHAR）。
    從上面幾點來看，跟utf-8相比，unicode占據(jù)絕對優(yōu)勢。只有unicode的世界真美好...
    但事實上，libn因為它并不關(guān)心字符集，所以它把接口的字符串類型全部聲明成char*了，如果libn也用unicode實現(xiàn)，那就完美了，可惜，這不在我的控制范圍之內(nèi)。
    另外還有一種方案，在我的程序內(nèi)部使用unicode，在調(diào)用libn的接口處，轉(zhuǎn)換成utf-8，傳給libn，從libn返回的utf-8字符串，先轉(zhuǎn)成unicode再使用。這個方法聽起來也不錯，但是很多對象并不是調(diào)用接口時才生成，也不是調(diào)用完就銷毀，這樣會導(dǎo)致我的程序內(nèi)會長期存在字符串的unicode和utf-8兩種拷貝，浪費大量內(nèi)存，對于嵌入式系統(tǒng)來說，這很難容忍。
    最終，我決定在我的程序內(nèi)部使用utf-8編碼，作出這個決定的最主要原因是因為我要使用libn，雖然這樣我的程序會消耗更多的內(nèi)存、需要編寫冗長難懂的字符串函數(shù)、效率也會下降，但不得不這樣。gtk+沒有使用unicode而采用utf-8，恐怕也是這樣妥協(xié)的結(jié)果吧。
    后記：utf-8函數(shù)參考了glib中的實現(xiàn)。

posted on 2009-02-17 15:44 飄雪閱讀(2189) 評論(13) 編輯收藏引用所屬分類: c/c++

Feedback

# re: 嵌入式系統(tǒng)的中文支持與國際化 2009-02-17 16:08 路人丁

你說的unicode其實特指UCS-2。
UCS-2 和 utf-8 相比較，自然是選 utf-8

"c編譯器支持wchar_t數(shù)據(jù)類型" --- wchar_t在C/C++是寬字符，而沒有規(guī)定寬字符必須是ucs-2編碼，VC的wchar_t是用ucs2編碼，而其他編譯器大部分用ucs4編碼。回復(fù) 更多評論

# re: 嵌入式系統(tǒng)的中文支持與國際化 2009-02-17 16:16 飄雪

@路人丁
你說的很對，我上面也注明了“l(fā)inux下是4字節(jié)”，不過沒有具體說ucs-2或ucs-4，另外我也提到了在沒有wchar_t支持的情況下，用short或int來模擬，其實說的也是這個問題

因為我的程序主要是嵌入式系統(tǒng)，所以幾乎肯定不會考慮ucs-4，這個是我沒說清楚語境回復(fù) 更多評論

# re: 嵌入式系統(tǒng)的中文支持與國際化 2009-02-17 16:20 飄雪

@路人丁
另外你說的“UCS-2 和 utf-8 相比較，自然是選 utf-8 ”
這個我不這么認為，如果不是要使用別人的庫，我肯定不會考慮utf-8的回復(fù) 更多評論

# re: 嵌入式系統(tǒng)的中文支持與國際化 2009-02-17 17:47 路人丁

utf-8也是unicode的一種編碼，“unicode比utf-8要快很多”的說法不夠嚴謹。回復(fù) 更多評論

# re: 嵌入式系統(tǒng)的中文支持與國際化 2009-02-17 17:48 路人丙

上面的一條是“路人丙”回的，路人丙道歉。回復(fù) 更多評論

# re: 嵌入式系統(tǒng)的中文支持與國際化 2009-02-17 17:51 路人丙

一直沒搞懂，Windows使用UTF-16,超過UNICODE編碼中兩個字節(jié)編碼范圍的漢字是怎么處理的。回復(fù) 更多評論

# re: 嵌入式系統(tǒng)的中文支持與國際化 2009-02-17 18:06 飄雪

@路人丁
utf-8也是unicode的一種編碼，“unicode比utf-8要快很多”的說法不夠嚴謹

我本來想說的是處理直接用unicode(ucs-2)存儲的字符串比處理用utf-8存儲的字符串快得多，表達不夠清楚回復(fù) 更多評論

# re: 嵌入式系統(tǒng)的中文支持與國際化 2009-02-17 20:49 路人戊

好奇那個libn是什么，為何能夠不依賴編碼。畢竟mbcs和utf8結(jié)構(gòu)上差別還是挺大的。如果只是寫成char*來拿raw data的話，直接把unsigned short*轉(zhuǎn)成char*不行么…… 回復(fù) 更多評論

# re: 嵌入式系統(tǒng)的中文支持與國際化 2009-02-18 05:52 路人乙

@路人丙
還要再查表，對于某些超出unicode編碼范圍的字符，內(nèi)存里的其實是外表的表id和表內(nèi)索引，去那個外表再取字。回復(fù) 更多評論

# re: 嵌入式系統(tǒng)的中文支持與國際化 2009-02-18 11:06 飄雪

好奇那個libn是什么，為何能夠不依賴編碼。畢竟mbcs和utf8結(jié)構(gòu)上差別還是挺大的。如果只是寫成char*來拿raw data的話，直接把unsigned short*轉(zhuǎn)成char*不行么……

libn對于字符串的處理很簡單，不做substr之類的操作，實際上里面用得最多的可能是strcmp，只比較字符串，這樣的話utf-8能正常工作，unsigned short就不能工作了回復(fù) 更多評論

# re: 嵌入式系統(tǒng)的中文支持與國際化 2009-02-23 17:21 Agaric

@路人丙
UTF16不一定是"雙字節(jié)"。

代碼點存在于“代碼空間”中。代碼空間由許多標量值組成，這些值被劃分在兩個平面中：

基本多語種平面（64k 大小）。
在 Unicode 中，此下平面中的值的十六進制表示位于 U+0000 到 U+FFFF 的范圍中。

輔助多語種平面（16 個 64k 大小的附加節(jié)）。
在 Unicode 中，此上平面中的值的十六進制表示位于 U+10000 到 U+10FFFF 的范圍中。
回復(fù) 更多評論

# re: 嵌入式系統(tǒng)的中文支持與國際化 2009-03-05 12:04 飄雪

@路人丙
一直沒搞懂，Windows使用UTF-16,超過UNICODE編碼中兩個字節(jié)編碼范圍的漢字是怎么處理的。

可參看 http://www.ietf.org/rfc/rfc2781.txt,
rfc2279: UTF-8, a transformation format of ISO 10646
回復(fù) 更多評論

# re: 嵌入式系統(tǒng)的中文支持與國際化 2009-03-05 12:04 飄雪

@路人丙
一直沒搞懂，Windows使用UTF-16,超過UNICODE編碼中兩個字節(jié)編碼范圍的漢字是怎么處理的。

可參看 http://www.ietf.org/rfc/rfc2781.txt,
rfc2781: UTF-16, an encoding of ISO 10646

回復(fù) 更多評論

刷新評論列表

只有注冊用戶登錄后才能發(fā)表評論。
【推薦】100%開源！大型工業(yè)跨平臺軟件C++源碼提供，建模，組態(tài)！



網(wǎng)站導(dǎo)航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

飄雪

常用鏈接

留言簿(3)

隨筆分類(1)

隨筆檔案(31)

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜

Feedback