
2008年8月31日
摘要: Ansi字符串最熟悉,英文占一個字節,漢字2個字節,以一個\0結尾,常用于txt文本文件
Unicode字符串,每個字符(漢字、英文字母)都占2個字節,以2個連續的\0結尾,NT操作系統內核用的是這種字符串,常被定義為typedef unsigned short wchar_t;所以我們有時常會見到什么char*無法轉換為unsigned short*之類的錯誤,其實就是unicode
UTF8是Unicode一種壓縮形式,英文A在unicode中表示為0x0041,老外覺得這種存儲方式太浪費,因為浪費了50%的空間,于是就把英文壓縮成1個字節,成了utf8編碼,但是漢字在utf8中占3個字節,顯然用做中文不如ansi合算,這就是中國的網頁用作ansi編碼而老外的網頁常用utf8的原因。
閱讀全文
posted @
2008-08-31 22:29 greatws 閱讀(24742) |
評論 (26) |
編輯 收藏