• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            可冰

            冰,是沉睡著的水......

              C++博客 :: 首頁(yè) :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理 ::
              37 隨筆 :: 5 文章 :: 94 評(píng)論 :: 0 Trackbacks
            [以下只是個(gè)人的總結(jié),如若有誤,懇請(qǐng)指正,謝謝!]
            下列字節(jié)串用來(lái)表示一個(gè)字符. 用到哪個(gè)串取決于該字符在 Unicode 中的序號(hào).
            U+00000000 - U+0000007F: 0 xxxxxxx 0x - 7x  
            U+00000080 - U+000007FF: 110 xxxxx 10 xxxxxx Cx 8x - Dx Bx  
            U+00000800 - U+0000FFFF: 1110 xxxx 10 xxxxxx 10 xxxxxx Ex 8x 8x - Ex Bx Bx  
            U+00010000 - U+001FFFFF: 11110 xxx 10 xxxxxx 10 xxxxxx 10 xxxxxx F0 8x 8x 8x - F7 Bx Bx Bx 很少用
            U+00200000 - U+03FFFFFF: 111110 xx 10 xxxxxx 10 xxxxxx 10 xxxxxx 10 xxxxxx F8 8x 8x 8x 8x - FB Bx Bx Bx Bx
            U+04000000 - U+7FFFFFFF: 1111110 x 10 xxxxxx 10 xxxxxx 10 xxxxxx 10 xxxxxx 10 xxxxxx FC 8x 8x 8x 8x 8x - FD Bx Bx Bx Bx Bx


            * FE FF從未在編碼中出現(xiàn)過(guò).
            * 除第一個(gè)字節(jié)外,其余字節(jié)都在 0x80 到 0xBF范圍內(nèi),每個(gè)字符的起始位置用0xC0-0xD0,0xE0,0xF0等可以確定(驗(yàn)證前四位或八位),不在這一范圍的即為單字節(jié)字符.凡是以0x80 到 0xBF開(kāi)頭的都是后繼字節(jié),計(jì)數(shù)時(shí)都要跳過(guò).
            * Unicode是一種編碼表,只將字符指定給某一數(shù)字(Unicode做得還要更多一些,比如提供比較及顯示等很多算法等等);
            而UTF-8是編碼方式,是定義如何表示并存儲(chǔ)指定編碼的格式.
            * UTF-8編碼轉(zhuǎn)換為Unicode編碼: 將所有標(biāo)志位去除,剩余位數(shù)若不足則在高位補(bǔ)零,湊足32位即可.
            * Unicode編碼轉(zhuǎn)換為UTF-8編碼: 從低位開(kāi)始,每取6位補(bǔ)兩個(gè)位10,不足6位(不算高位的0)則按字節(jié)長(zhǎng)度補(bǔ)相應(yīng)的字符標(biāo)志位0、110、1110等

            posted on 2005-09-19 20:03 可冰 閱讀(10357) 評(píng)論(3)  編輯 收藏 引用 所屬分類: UTF-8

            評(píng)論

            # re: UTF-8 編碼格式總結(jié) 2005-09-19 20:11 cpunion
            FE FF是utf-16-be文件編碼的BOM。。。  回復(fù)  更多評(píng)論
              

            # re: UTF-8 編碼格式總結(jié) 2005-09-19 20:31 可冰
            不懂BOM是什么意思?
            在UTF-8中它們沒(méi)出現(xiàn)過(guò),應(yīng)該是正確的吧.  回復(fù)  更多評(píng)論
              

            # re: UTF-8 編碼格式總結(jié) 2005-09-19 20:54 cpunion
            BOM是Byte Order Mark,在文件頭部,標(biāo)明文件格式。

            如果文件頭3個(gè)字節(jié)是EF BB BF,表明這個(gè)文件是UTF-8格式
            頭2個(gè)字節(jié)是FE FF表明這個(gè)文件是UTF-16,Big-Endian
            FF FE表明這個(gè)文件是UTF-16,Little-Endian

            把它們作為BOM,應(yīng)該也是因?yàn)闆](méi)有出現(xiàn)在編碼中。  回復(fù)  更多評(píng)論
              

            久久久久久午夜成人影院| 99久久免费国产精品| 久久久精品视频免费观看| 9999国产精品欧美久久久久久| 麻豆AV一区二区三区久久 | 久久久亚洲精品蜜桃臀| 久久ZYZ资源站无码中文动漫| 久久久久久亚洲精品影院| 久久青青国产| 久久国产欧美日韩精品免费| 亚洲精品无码久久久久AV麻豆| 中文精品99久久国产 | 国产成人精品综合久久久久| 久久国产AVJUST麻豆| 亚洲AV日韩精品久久久久| 国产精品久久久久久久久| 久久久久久a亚洲欧洲aⅴ| 中文字幕成人精品久久不卡| 久久无码一区二区三区少妇| 久久www免费人成看片| 久久综合综合久久综合| 久久亚洲精品视频| 亚洲国产精品成人AV无码久久综合影院 | 久久精品视频网| 久久久久香蕉视频| 97精品依人久久久大香线蕉97| 久久精品国产99久久久| 国产99久久久国产精品~~牛| 色综合久久久久综合99| 久久夜色精品国产噜噜麻豆| 99久久亚洲综合精品成人| 久久大香萑太香蕉av| 狠狠色丁香久久综合婷婷| 久久久久久毛片免费看| 亚洲精品乱码久久久久久中文字幕| 久久久国产精品亚洲一区| 日韩久久无码免费毛片软件 | 亚洲国产成人久久综合一区77| 久久精品天天中文字幕人妻| 色天使久久综合网天天| 久久99国产精品久久99果冻传媒|