国产精品美女久久久浪潮软件 ,欧美专区亚洲专区,国产日韩av在线播放

[以下只是個人的總結,如若有誤,懇請指正,謝謝!]
下列字節串用來表示一個字符. 用到哪個串取決于該字符在 Unicode 中的序號.

U+00000000 - U+0000007F:	0 xxxxxxx	0x - 7x
U+00000080 - U+000007FF:	110 xxxxx 10 xxxxxx	Cx 8x - Dx Bx
U+00000800 - U+0000FFFF:	1110 xxxx 10 xxxxxx 10 xxxxxx	Ex 8x 8x - Ex Bx Bx
U+00010000 - U+001FFFFF:	11110 xxx 10 xxxxxx 10 xxxxxx 10 xxxxxx	F0 8x 8x 8x - F7 Bx Bx Bx	很少用
U+00200000 - U+03FFFFFF:	111110 xx 10 xxxxxx 10 xxxxxx 10 xxxxxx 10 xxxxxx	F8 8x 8x 8x 8x - FB Bx Bx Bx Bx
U+04000000 - U+7FFFFFFF:	1111110 x 10 xxxxxx 10 xxxxxx 10 xxxxxx 10 xxxxxx 10 xxxxxx	FC 8x 8x 8x 8x 8x - FD Bx Bx Bx Bx Bx

* FE FF從未在編碼中出現過.
* 除第一個字節外,其余字節都在 0x80 到 0xBF范圍內,每個字符的起始位置用0xC0-0xD0,0xE0,0xF0等可以確定(驗證前四位或八位),不在這一范圍的即為單字節字符.凡是以0x80 到 0xBF開頭的都是后繼字節,計數時都要跳過.
* Unicode是一種編碼表,只將字符指定給某一數字(Unicode做得還要更多一些,比如提供比較及顯示等很多算法等等);
而UTF-8是編碼方式,是定義如何表示并存儲指定編碼的格式.
* UTF-8編碼轉換為Unicode編碼: 將所有標志位去除,剩余位數若不足則在高位補零,湊足32位即可.
* Unicode編碼轉換為UTF-8編碼: 從低位開始,每取6位補兩個位10,不足6位(不算高位的0)則按字節長度補相應的字符標志位0、110、1110等

posted on 2005-09-19 20:03 可冰閱讀(10381) 評論(3) 編輯收藏引用所屬分類: UTF-8

BOM是Byte Order Mark，在文件頭部，標明文件格式。

如果文件頭3個字節是EF BB BF，表明這個文件是UTF-8格式
頭2個字節是FE FF表明這個文件是UTF-16，Big-Endian
FF FE表明這個文件是UTF-16，Little-Endian

把它們作為BOM，應該也是因為沒有出現在編碼中。回復更多評論

刷新評論列表

只有注冊用戶登錄后才能發表評論。
【推薦】100%開源！大型工業跨平臺軟件C++源碼提供，建模，組態！

相關文章: 評價一下UTF-8與UNICODE相互轉換的代碼構思UTF-8解碼模塊 std::wfstream是怎么支持寬字符的? "這是一個UTF-8格式的文檔!"的幾種不同編碼表示 UTF-8 編碼格式總結 UTF types UTF serializations

網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

可冰

公告

常用鏈接

留言簿(7)

隨筆分類(18)

隨筆檔案(37)

文章分類(5)

文章檔案(5)

相冊

朋友的博客

收藏

我的博客組

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜

評論