再別流年的技術實驗室
Game Design Using C++ and SDL

隨筆 - 96 文章 - 255 trackbacks - 0

2008年4月

>

日

一

二

三

四

五

六

30

31

1

2

3

4

5

6

7

8

9

11

13

16

18

21

22

23

24

25

26

27

28

29

30

1

2

3

4

5

6

7

8

9

10

E-mail：zbln426@163.com QQ：85132383 長期尋找對戰略游戲感興趣的合作伙伴。

常用鏈接

留言簿(21)

隨筆分類

隨筆檔案

SDL相關網站

Lazy Foo' Productions
提供了豐富和基礎的SDL入門教程
SDL官方主頁
更新消息，相關下載和學習資料
SDL擴展庫
SDL項目擴展庫下載

我的個人網頁

SDL中文論壇
歡迎大家來論壇討論問題
UVi 開源項目
“最終的勝利”及其引擎，UVi小游戲下載。
再別流年（我的主博）
我更新最勤的博客

我的小游戲

BeatMole
打地鼠
LoveTest
愛情小測試

資源下載

Focus on SDL
SDL官方推薦教程（英）
徹底解密C++寬字符（pdf）
徹底解密C++寬字符系列合集，包括介紹libiconv和gettext

搜索

積分與排名

積分 - 495654
排名 - 39

閱讀排行榜

評論排行榜

徹底解密C++寬字符：2、Unicode和UTF

<本文PDF文檔下載>

Unicode和UCS

Unicode和UCS是兩個獨立的組織分別制定的一套編碼標準，但是因為歷史的原因，這兩套標準是完全一樣的。Unicode這個詞用得比較多的原因可能是因為比較容易記住，如果沒有特別的聲明，在本文所提及的Unicode和UCS就是一個意思。Unicode的目標是建立一套可以包含人類所有語言文字符號你想得到想不到的各種東西的編碼，其編碼容量甚至預留了火星語以及銀河系以外語言的空間——開個玩笑，反正簡單的說，Unicode編碼集足夠的大，如果用計算機單位來表示，其數量比3個字節大一些，不到4個字節。

Unicode和UTF

因為Unicode包含的內容太多，其編碼在計算機中的表示方法就成為了一個有必要研究的問題。傳統編碼，比如標準的7位ASCII，在計算機中的表示方法就是占一個字節的后7位，這似乎是不需要解釋就符合大家習慣的表示方法。但是當今Unicode的總數達到32位（計算機的最小單位是字節，所以大于3字節，就只能至少用4字節表示），對于大部分常用字符，比如Unicode編碼只占一個字節大小的英語字母，占兩個字節大小漢字，都用4個字節來儲存太奢侈了。另外，如果都用4字節直接表示，就不可避免的出現為0的字節。而我們知道，在C語言中，0x00的字節就是'\0'，表示的是一個字符串（char字符串，非wchar_t）的結束，換句話說，C風格的char字符串無法表示Unicode。
因為類似的種種問題，為Unicode在計算機中的編碼方法出現了，這就是UTF；所對應的，為UCS編碼實現的方式也有自己的說法。一般來說，UTF-x，x表示這套編碼一個單位至少占用x位，因為Unicode最長達到32位，所以UTF-x通常是變長的——除了UTF-32；而UCS-y表示一個單位就占用y個字節，所以能表示當今Unicode的UCS-y只有UCS-4，但是因為歷史的原因，當Unicode還沒那么龐大的時候，2個字節足夠表示，所以有UCS-2，現在看來，UCS-2所能表示的Unicode只是當今Unicode的一個子集。
也就是說，如果某種編碼，能根據一定的規則算法，得到Unicode編碼，那么這種編碼方式就可以稱之為UTF。

UTF-8和Windows GB2312

UTF-8是一套“聰明”的編碼，可能用1，2，3，4個字節表示。通過UTF-8的算法，每一個字節表示的信息都很明確：這是不是某個Unicode編碼的第一個字節；如果是第一個字節，這是一個幾位Unicode編碼。這種“聰明”被稱為UTF-8的自我同步，也是UTF-8成為網絡傳輸標準編碼的原因。
另外，UTF-8也不會出現0字節，所以可以表示為char字符串，所以可以成為系統的編碼。Linux系統默認使用UTF-8編碼。
Windows GB2312一般自稱為GB2312，其實真正的名字應該是Windows Codepage 936，這也是一種變長的編碼：1個字節表示傳統的ASCII部分；漢字部分是兩個字節的GBK（國標擴（展），拼音聲母）。Codepage 936也可以表示為char字符串，是中文Windows系統的默認編碼。
我們在第1節中看到的
const char* s = "中文abc";
在Windows中的編碼就是Codepage 936；在Linux中的編碼就是UTF-8。
需要注意的是，Codepage 936不像UTF，跟Unicode沒有換算的關系，所以只能通過“代碼頁”技術查表對應。

UTF-16和UCS-2

UTF-16用2個字節或者4個字節表示。在2個字節大小的時候，跟UCS-2是一樣的。UTF-16不像UTF-8，沒有自我同步機制，所以，編碼大位在前還是小位在前，就成了見仁見智的問題。我們在第1節中，“中”的UCS-2BE（因為是兩個字節，所以也就是UTF-16BE）編碼是0x4E2D，這里的BE就是大位在后的意思（也就是小位在前了），對應的，如果是UCS-2LE，編碼就成了0x2D4E。
Windows中的wchar_t就是采用UCS-2BE編碼。需要指出的是，C++標準中對wchar_t的要求是要能表示所有系統能識別的字符。Windows自稱支持Unicode，但是其wchar_t卻不能表示所有的Unicode，由此違背了C++標準。

UTF-32和UCS-4

UTF-32在目前階段等價于UCS-4，都用定長的4個字節表示。UTF-32同樣存在BE和LE的問題。Linux的wchar_t編碼就是UTF-32BE。在16位以內的時候，UTF-32BE的后兩位（前兩位是0x00 0x00）等價于UTF-16BE也就等價于UCS-2BE

BOM

為了說明一個文件采用的是什么編碼，在文件最開始的部分，可以有BOM，比如0xFE 0xFF表示UTF-16BE，0xFF 0xFE 0x00 0x00表示UTF-32LE。UTF-8原本是不需要BOM的，因為其自我同步的特性，但是為了明確說明這是UTF-8（而不是讓文本編輯器去猜），也可以加上UTF-8的BOM：0xEF 0xBB 0xBF

以上內容都講述得很概略，詳細信息請查閱維基百科相關內容。

posted on 2010-06-25 21:51 lf426 閱讀(3660) 評論(1) 編輯收藏引用所屬分類: 語言基礎、數據結構與算法

FeedBack:

# re: 徹底解密C++寬字符：2、Unicode和UTF 2013-08-07 07:25 ligand

你理解得大端序、小端序，名稱弄反了吧。

Windows是著名的小端序，包wchar_t就是采用UTF-16LE編碼. 參見“字節序”的中英文維基。回復更多評論

刷新評論列表

只有注冊用戶登錄后才能發表評論。


相關文章: 徹底解密C++寬字符：6、國際化策略（完）徹底解密C++寬字符：5、利用fstream轉換徹底解密C++寬字符：4、利用codecvt和use_facet轉換徹底解密C++寬字符：3、利用C運行時庫函數轉換徹底解密C++寬字符：2、Unicode和UTF 徹底解密C++寬字符：1、從char到wchar_t 迭代器（iterator）“擦”（erase）出的錯誤用對象的成員函數引出線程，還是在線程中創建對象？在多線程中拋出的異常出錯？函數指針與成員函數指針

網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

<center id="a8yi8"></center>