不會游泳的魚

Google,baidu,等等...不鳥他們?。。? 我要用自己開發的分布式文件系統、分布式調度系統、分布式檢索系統，做自己的搜索引擎?。?！大魚有大志！??！ ---楊書童

posts - 24, comments - 10, trackbacks - 0, articles - 0

聚合

<

2010年8月

>

日

一

二

三

四

五

六

25

26

27

28

29

30

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

常用鏈接

留言簿(2)

隨筆分類

隨筆檔案

相冊

友情鏈接

不會飛的鳥(老婆今年24)

搜索

閱讀排行榜

評論排行榜

字符編碼筆記－unicode & utf-8

Posted on 2010-07-29 17:17 楊書童閱讀(408) 評論(1) 編輯收藏引用所屬分類: 基礎知識-經驗之談

首先說說ASCII碼吧，計算機在外國誕生后，大家要想怎么吧characters input給計算機，他們就定了ASCII，現在有人抱怨老美太小氣，只設計了128個，其實不然。試想想當時的環境，一是他們無法預料計算機能像現在這樣普及，二是存儲設備還都不成熟，成本爆高。所以導致后來的局面，也就是ISO和unicode兩種字符集，分別是UCS-4(4個字節)和unicode 1.0(2個字節)，但這種定長的導致英語國家不答應了，平時字符都是一個byte，現在突然編程2個甚至是4個，還有后來加入新的字符后就更亂了，最后兩個組織整合了，整個世界終于安靜了。

        在這我想澄清個概念，就是大家不要把unicode和utf－8， utf-16, utf-32搞亂了，首先unicode是一套標準的字符集，基本包括了大多數的文字了，可以在這個路徑下載最新的字符表http://www.unicode.org/ ，utf-7,8等都是基于這個字符集的一些編碼算法。在unicode設計的時候把ASCII碼的128個作為unicode的前128個。那么現在最最最流行的也就是UTF-8的編碼了，它的算法思想是：
        U-00000000 - U-0000007F:  0xxxxxxx               ASCII碼
        U-00000080 - U-000007FF:  110xxxxx 10xxxxxx
        U-00000800 - U-0000FFFF:  1110xxxx 10xxxxxx 10xxxxxx
        U-00010000 - U-001FFFFF:  11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
        U-00200000 - U-03FFFFFF:  111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

比如我在codeCharts里面找到這個字符?(010e)，那么它的UTF-8結果是：

1 0000 1110 -------> 110 00 100 10 001110 C48E 就這么簡單了，有沒有。

這里我還想引入一個庫libiconv，可以說是一個萬能的轉換編碼的工具把，去網站http://www.gnu.org/software/libiconv/ 了解詳情，它目前支持的字符編碼不下30種，常用的都有了。那么有了這個庫以后呢，大家可以在遇到已知輸入多種編碼時，可以用它來轉成一種類型的編碼(utf-8)，然后做處理。VCard的解析我就是就是這樣解決的。

Feedback

# re: 字符編碼筆記－unicode & utf-8 回復 更多評論

2010-07-30 03:04 by buy essays uk

The the greatest problem of papers writing market. Qulified essay writing service uk must give you guarantee that its customized essays are 100% original.

刷新評論列表

只有注冊用戶登錄后才能發表評論。


相關文章: Linux下JNI接口生成以及調用舉例，完成Java通過JNI調用C生成的DLL庫 Linux下安裝JDK，編譯JNI程序 linux和windows下用setsockopt設置send(), recv() 超時的參數的一點區別 Linux下創建靜態、動態庫 VS編譯動態庫無法直接運行，所需的其他文件說明(Visual C++ Libraries as Shared Side-by-Side Assemblies) error LNK2001: unresolved external symbol mysql創建支持UTF-8編碼的數據庫 GBK和BIG5中漢字編碼的第一位和第二位的范圍字符編碼筆記－unicode & utf-8 字符編碼筆記：ASCII，Unicode和UTF-8

網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

Copyright Copyright 楊書童

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

不會游泳的魚