国产精品大片免费观看,在线播放一区,欧美在线地址

嵌入式系統的中文支持與國際化

    最近在做嵌入式開發，這個嵌入式平臺上，支持標準c庫，但不支持mbcs，也不支持unicode。里面的wchar_t被直接定義為char（typedef char wchar_t;），可見這個wchar_t是假的，只是為了讓含有wchar_t的程序能通過編譯，并不是支持unicode，當然也就沒有對應的wcs函數族。現在要讓這個系統上的程序支持中文，有下面幾種想法。
    首先要弄清支持中文的含義，先分析一下需求，這個程序對字符串的操作主要是如下流程，從文件中讀進字符串（文件編碼可自己定義），對字符串進行查找、截取、拼接操作，最后把完成的字符串作為參數傳到另一個庫里（暫且叫它libn吧）。需要說明的是，libn由公司別的小組實現，它不關注字符集，里面不再處理（截取、拼接）字符串，只是把輸入的字符串輸出到文件或屏幕，目前已經有一個比較穩定的跨平臺版本。
    需求確定以后，接下來要確定中文在程序中的存儲編碼。對中文來說，通常有三種編碼方案可供選擇：
   1. 用mbcs編碼存儲（gb2312/gbk/gb18030）。
    2. 用unicode編碼存儲。
    3. 用utf-8編碼存儲。
   這個系統里針對這三種編碼的字符串函數都沒有，不管采用哪種方案，字符串函數都得自己寫，從這點來說，三種方案的工作量都差不多。
   先來看看mbcs，這個方案純粹是為了中文而支持中文，如果將來要兼容其他語言，mbcs函數都得重寫，而且mbcs跟unicode的轉換沒有固定的公式，必須依賴于一張大表。用mbcs沒有什么特別的好處，這個方案只能早早的就否決了。
    再來看看unicode和utf-8。一般說來，unicode是國際化的終極解決方案，大部分c編譯器支持wchar_t數據類型，如果編譯器不支持wchar_t，可以自己使用unsigned short或unsigned int來模擬。不管什么語言，每個字符都被放到2字節的wchar_t類型里（linux下是4字節），通常對于新的程序，都推薦使用unicode。而utf-8是unicode的一種存儲方案。
    下面我們從不同方面來比較一下unicode和utf-8各自的優勢：
    1. 內存空間。unicode對于每個字符都是2個字節，utf-8對英文是一個字節，對漢字是2個或3個字節。對于英文來說，utf-8占優，但在漢字占多數的情況下，unicode占優勢。當然，如果字符串的數量不是很大的話，這個問題不是很突出。這里列出來，對文件存儲也可以起到一個參考作用。
    2. 程序編寫難度。unicode是定長類型，而utf-8是變長的，每操作一個字符的時候，都要考慮這個字符的長度，毫無疑問unicode的字符串函數編寫起來應該更簡單。目前，這兩種字符串函數都有大量的實現可供參考，對于寫程序來說，問題不大。
    3. 程序執行效率。unicode定長，utf-8變長。對于strlen，substr之類的操作，unicode很方便，utf-8卻要從頭到尾掃描，而且需要邊掃描邊判斷字符長度。因此unicode比utf-8要快很多，但如果這種操作不是很多，效率影響也不會特別明顯。
    4. 現有程序的數量。unicode程序我們見得多了，但采用utf-8的程序也不少，gtk+就是。它們都運行得很好。
    5. 兼容性。英文的utf-8編碼跟ascii完全一樣，因此也兼容標準c庫的字符串函數，如果不需要操作字符，完全不用關心語言。對于unicode，標準c庫的字符串函數不能工作，字符串函數都得重寫，常常用一個宏來控制在unicode和ascii直接切換（比如windows下的TCHAR）。
    從上面幾點來看，跟utf-8相比，unicode占據絕對優勢。只有unicode的世界真美好...
    但事實上，libn因為它并不關心字符集，所以它把接口的字符串類型全部聲明成char*了，如果libn也用unicode實現，那就完美了，可惜，這不在我的控制范圍之內。
    另外還有一種方案，在我的程序內部使用unicode，在調用libn的接口處，轉換成utf-8，傳給libn，從libn返回的utf-8字符串，先轉成unicode再使用。這個方法聽起來也不錯，但是很多對象并不是調用接口時才生成，也不是調用完就銷毀，這樣會導致我的程序內會長期存在字符串的unicode和utf-8兩種拷貝，浪費大量內存，對于嵌入式系統來說，這很難容忍。
    最終，我決定在我的程序內部使用utf-8編碼，作出這個決定的最主要原因是因為我要使用libn，雖然這樣我的程序會消耗更多的內存、需要編寫冗長難懂的字符串函數、效率也會下降，但不得不這樣。gtk+沒有使用unicode而采用utf-8，恐怕也是這樣妥協的結果吧。
    后記：utf-8函數參考了glib中的實現。

posted on 2009-02-17 15:44 飄雪閱讀(2189) 評論(13) 編輯收藏引用所屬分類: c/c++

Feedback

# re: 嵌入式系統的中文支持與國際化 2009-02-17 16:08 路人丁

你說的unicode其實特指UCS-2。
UCS-2 和 utf-8 相比較，自然是選 utf-8

"c編譯器支持wchar_t數據類型" --- wchar_t在C/C++是寬字符，而沒有規定寬字符必須是ucs-2編碼，VC的wchar_t是用ucs2編碼，而其他編譯器大部分用ucs4編碼。回復更多評論

# re: 嵌入式系統的中文支持與國際化 2009-02-17 16:16 飄雪

@路人丁
你說的很對，我上面也注明了“linux下是4字節”，不過沒有具體說ucs-2或ucs-4，另外我也提到了在沒有wchar_t支持的情況下，用short或int來模擬，其實說的也是這個問題

因為我的程序主要是嵌入式系統，所以幾乎肯定不會考慮ucs-4，這個是我沒說清楚語境回復更多評論

# re: 嵌入式系統的中文支持與國際化 2009-02-17 16:20 飄雪

@路人丁
另外你說的“UCS-2 和 utf-8 相比較，自然是選 utf-8 ”
這個我不這么認為，如果不是要使用別人的庫，我肯定不會考慮utf-8的回復更多評論

# re: 嵌入式系統的中文支持與國際化 2009-02-17 17:47 路人丁

utf-8也是unicode的一種編碼，“unicode比utf-8要快很多”的說法不夠嚴謹。回復更多評論

# re: 嵌入式系統的中文支持與國際化 2009-02-17 17:48 路人丙

上面的一條是“路人丙”回的，路人丙道歉。回復更多評論

# re: 嵌入式系統的中文支持與國際化 2009-02-17 17:51 路人丙

一直沒搞懂，Windows使用UTF-16,超過UNICODE編碼中兩個字節編碼范圍的漢字是怎么處理的。回復更多評論

# re: 嵌入式系統的中文支持與國際化 2009-02-17 18:06 飄雪

@路人丁
utf-8也是unicode的一種編碼，“unicode比utf-8要快很多”的說法不夠嚴謹

我本來想說的是處理直接用unicode(ucs-2)存儲的字符串比處理用utf-8存儲的字符串快得多，表達不夠清楚回復更多評論

# re: 嵌入式系統的中文支持與國際化 2009-02-17 20:49 路人戊

好奇那個libn是什么，為何能夠不依賴編碼。畢竟mbcs和utf8結構上差別還是挺大的。如果只是寫成char*來拿raw data的話，直接把unsigned short*轉成char*不行么…… 回復更多評論

# re: 嵌入式系統的中文支持與國際化 2009-02-18 05:52 路人乙

@路人丙
還要再查表，對于某些超出unicode編碼范圍的字符，內存里的其實是外表的表id和表內索引，去那個外表再取字。回復更多評論

# re: 嵌入式系統的中文支持與國際化 2009-02-18 11:06 飄雪

好奇那個libn是什么，為何能夠不依賴編碼。畢竟mbcs和utf8結構上差別還是挺大的。如果只是寫成char*來拿raw data的話，直接把unsigned short*轉成char*不行么……

libn對于字符串的處理很簡單，不做substr之類的操作，實際上里面用得最多的可能是strcmp，只比較字符串，這樣的話utf-8能正常工作，unsigned short就不能工作了回復更多評論

# re: 嵌入式系統的中文支持與國際化 2009-02-23 17:21 Agaric

@路人丙
UTF16不一定是"雙字節"。

代碼點存在于“代碼空間”中。代碼空間由許多標量值組成，這些值被劃分在兩個平面中：

基本多語種平面（64k 大小）。
在 Unicode 中，此下平面中的值的十六進制表示位于 U+0000 到 U+FFFF 的范圍中。

輔助多語種平面（16 個 64k 大小的附加節）。
在 Unicode 中，此上平面中的值的十六進制表示位于 U+10000 到 U+10FFFF 的范圍中。
回復更多評論

# re: 嵌入式系統的中文支持與國際化 2009-03-05 12:04 飄雪

@路人丙
一直沒搞懂，Windows使用UTF-16,超過UNICODE編碼中兩個字節編碼范圍的漢字是怎么處理的。

可參看 http://www.ietf.org/rfc/rfc2781.txt,
rfc2279: UTF-8, a transformation format of ISO 10646
回復更多評論

# re: 嵌入式系統的中文支持與國際化 2009-03-05 12:04 飄雪

@路人丙
一直沒搞懂，Windows使用UTF-16,超過UNICODE編碼中兩個字節編碼范圍的漢字是怎么處理的。

可參看 http://www.ietf.org/rfc/rfc2781.txt,
rfc2781: UTF-16, an encoding of ISO 10646

回復更多評論

刷新評論列表

只有注冊用戶登錄后才能發表評論。
【推薦】100%開源！大型工業跨平臺軟件C++源碼提供，建模，組態！



網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

飄雪

常用鏈接

留言簿(3)

隨筆分類(1)

隨筆檔案(31)

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜

Feedback