亚洲精品人人,99国产精品久久久久久久成人热 ,久久久av水蜜桃

小談字符編碼－unicode & utf-8

本周遇到了文字編碼的問題，其實之前做IME的時候已經有一些積累了，但沒有寫下來，這次做個小結。

首先說說ASCII碼吧，計算機在外國誕生后，大家要想怎么吧characters input給計算機，他們就定了ASCII，現在有人抱怨老美太小氣，只設計了128個，其實不然。試想想當時的環境，一是他們無法預料計算機能像現在這樣普及，二是存儲設備還都不成熟，成本爆高。所以導致后來的局面，也就是ISO和unicode兩種字符集，分別是UCS-4(4個字節)和unicode 1.0(2個字節)，但這種定長的導致英語國家不答應了，平時字符都是一個byte，現在突然編程2個甚至是4個，還有后來加入新的字符后就更亂了，最后兩個組織整合了，整個世界終于安靜了。

        在這我想澄清個概念，就是大家不要把unicode和utf－8， utf-16, utf-32搞亂了，首先unicode是一套標準的字符集，基本包括了大多數的文字了，可以在這個路徑下載最新的字符表http://www.unicode.org/ ，utf-7,8等都是基于這個字符集的一些編碼算法。在unicode設計的時候把ASCII碼的128個作為unicode的前128個。那么現在最最最流行的也就是UTF-8的編碼了，它的算法思想是：
        U-00000000 - U-0000007F:  0xxxxxxx               ASCII碼
        U-00000080 - U-000007FF:  110xxxxx 10xxxxxx
        U-00000800 - U-0000FFFF:  1110xxxx 10xxxxxx 10xxxxxx
        U-00010000 - U-001FFFFF:  11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
        U-00200000 - U-03FFFFFF:  111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

比如我在codeCharts里面找到這個字符?(010e)，那么它的UTF-8結果是：

1 0000 1110 -------> 110 00 100 10 001110 C48E 就這么簡單了，有沒有。

這里我還想引入一個庫libiconv，可以說是一個萬能的轉換編碼的工具把，去網站http://www.gnu.org/software/libiconv/ 了解詳情，它目前支持的字符編碼不下30種，常用的都有了。那么有了這個庫以后呢，大家可以在遇到已知輸入多種編碼時，可以用它來轉成一種類型的編碼(utf-8)，然后做處理。VCard的解析我就是就是這樣解決的。

先到這，希望各位博友能再補充，提點一二，萬分感謝！

posted on 2009-03-01 11:01 攀升閱讀(1724) 評論(1) 編輯收藏引用所屬分類: Others

# re: 小談字符編碼－unicode & utf-8 回復 更多評論

大致講到點子上去了，不錯，又進步~~
看來沒有白教你呀！

2009-03-02 23:17 | Cindy

刷新評論列表

只有注冊用戶登錄后才能發表評論。
【推薦】100%開源！大型工業跨平臺軟件C++源碼提供，建模，組態！

相關文章: 帶寬與延遲 (轉)在對話框中使用picture control顯示靜態圖片的方法 cmos ccd 像素分辨率上海3G體驗－中國電信 IT新時代- 云計算？小談字符編碼－unicode & utf-8 (轉載)五種開源協議的比較 BSD Apache GPL LGPL MIT) 痛苦的測試會跳舞的播放器 Rolly:MP3的臺風 Excel太強大！

網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

# re: 小談字符編碼－unicode & utf-8 回復 更多評論

攀升·Uranus

小談字符編碼－unicode & utf-8

評論

導航

隨筆分類

相冊

PASSION團隊

圈子

最新隨筆

最新評論

攀升·Uranus

小談字符編碼－unicode & utf-8

評論

# re: 小談字符編碼－unicode & utf-8 回復 更多評論

導航

隨筆分類

相冊

PASSION團隊

圈子

最新隨筆

最新評論

# re: 小談字符編碼－unicode & utf-8 回復更多評論