首頁新隨筆新文章聯(lián)系聚合

posts - 15,comments - 21,trackbacks - 0

2012年11月

>

日

一

二

三

四

五

六

28

29

30

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

1

2

3

4

5

6

7

8

常用鏈接

留言簿

隨筆分類

隨筆檔案

文章檔案

搜索

閱讀排行榜

評論排行榜

Unicode和UTF-8的區(qū)別

如果你對能很快回答出unicode和utf-8的關(guān)系，你可以直接跳過這篇文章。下面我來說說兩者的關(guān)系和轉(zhuǎn)換。（本文使用符號2字代表所有的漢字，英文，數(shù)字等）
首先明確一點(diǎn)，UTF-8是UNICODE一種實(shí)現(xiàn)方式。
UNICODE：代表一種符號集合，它規(guī)定了一種符合的二進(jìn)制表示，沒有指明存儲方式。(http://www.unicode.org/)
UTF-8:實(shí)現(xiàn)了UNICODE，使用多字節(jié)的存儲方式。
我們先來考慮幾個(gè)問題。
第一，如果使用單字節(jié)表示符號，很明顯，完全不夠用
第二，如果使用多字節(jié)表示符號，那么，機(jī)器在讀取的時(shí)候，它怎么知道3個(gè)字節(jié)表示一個(gè)符號，還是表示3個(gè)符號
第三，如果使用2個(gè)字節(jié)表示一個(gè)符號，首先，最多能表示65535個(gè)字符還是會不夠用，就算夠用，比如ASCII碼這類僅需1個(gè)字節(jié)就可以表示的符號，用2個(gè)字節(jié)表示，浪費(fèi)空間了。
因此，UTF-8孕育而生。
首先UTF-8使用變長表示符號，簡單的說，有的時(shí)候用1個(gè)字節(jié)表示符號，有的時(shí)候用2個(gè)字節(jié)表示符號，這樣解決了浪費(fèi)空間的問題。那么，如何解決第二個(gè)問題的呢，我們得了解下UFT-8的編碼規(guī)則。
1.對于單字節(jié)的符號，字節(jié)第一個(gè)為0，后面7為為這個(gè)符號的unicode碼
2.對于N字節(jié)的符號(N>1),第一個(gè)字節(jié)前N位為1，第N+1位為0，后面字節(jié)的前兩位設(shè)為10,剩下可編碼的位，為該符號的UNICODE編碼。
這里我從網(wǎng)上找了一副圖
Unicode符號范圍 | UTF-8編碼方式
(十六進(jìn)制) | （二進(jìn)制）
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
下面我具體解釋下這幅圖。
首先看第一行，它的意思是00000000到0000007F的UNICODE編碼，對應(yīng)的UTF-8的編碼方式為0XXXXXXX(X表示可編碼位，不足的補(bǔ)0)。
第二行表示00000080到000007FF的UNICODE編碼，對應(yīng)的UTF-8的編碼方式為110XXXXX 10XXXXXX。以此類推
那么，問題是，這個(gè)范圍是怎么定的？
很簡單，我們還是從第一行說起。007F，實(shí)際有效位只有7位，所以，0xxxxxxx就足矣。但是0800開始，有效位至少為8位，我們得增加一個(gè)字節(jié)，按照UTF-8的規(guī)定，2字節(jié)的表示方式為110XXXXX 10XXXXXX，我們的編碼位為11位(X的個(gè)數(shù))，所以，我們最多可以表示UNICODE編碼位11位的字符，也就是07FF。07FF過了就是0800，有效位至少為12位，我們得用3字節(jié)來表示，按照UTF-8的規(guī)定，1110XXXX 10XXXXXX 10XXXXXX，最大編碼位為16位，也就是FFFF，最后一行我就不再解釋了。
通過上面這個(gè)過程我們了解了，UNICODE轉(zhuǎn)UTF-8的過程，當(dāng)然，逆過來就是UTF-8轉(zhuǎn)換成UNICODE。
我們通過一個(gè)例子來演示上面的過程。漢字“楊”，UNICODE的編碼位0x6768，二進(jìn)制形式為0110011101101000，根據(jù)上面的圖，我們知道它屬于第三行，因此，它應(yīng)該放入1110XXXX 10XXXXXX 10XXXXXX的模板中，結(jié)果是11100110 10011101 10101000，十六進(jìn)制表示為E69DA8。
另外設(shè)計(jì)編碼問題，我們繞不開另一個(gè)問題，就是大端小端的問題，不過這個(gè)問題，網(wǎng)上資料很多，也很好實(shí)踐，這里我就不多啰嗦了。

posted on 2012-09-23 22:56 梨樹陽光閱讀(1825) 評論(1) 編輯收藏引用所屬分類: C++

只有注冊用戶登錄后才能發(fā)表評論。


相關(guān)文章: Unicode和UTF-8的區(qū)別 C++復(fù)習(xí)筆記---淺談拷貝構(gòu)造函數(shù)和賦值構(gòu)造函數(shù) C++復(fù)習(xí)筆記---類的函數(shù)指針和普通函數(shù)指針 C++復(fù)習(xí)筆記---初始化列表

網(wǎng)站導(dǎo)航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品