• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            隨筆 - 96  文章 - 255  trackbacks - 0
            <2010年5月>
            2526272829301
            2345678
            9101112131415
            16171819202122
            23242526272829
            303112345

            E-mail:zbln426@163.com QQ:85132383 長期尋找對戰(zhàn)略游戲感興趣的合作伙伴。

            常用鏈接

            留言簿(21)

            隨筆分類

            隨筆檔案

            SDL相關(guān)網(wǎng)站

            我的個(gè)人網(wǎng)頁

            我的小游戲

            資源下載

            搜索

            •  

            積分與排名

            • 積分 - 494277
            • 排名 - 39

            最新評論

            閱讀排行榜

            評論排行榜

            <本文PDF文檔下載>

            Unicode和UCS

            Unicode和UCS是兩個(gè)獨(dú)立的組織分別制定的一套編碼標(biāo)準(zhǔn),但是因?yàn)闅v史的原因,這兩套標(biāo)準(zhǔn)是完全一樣的。Unicode這個(gè)詞用得比較多的原因可能是因?yàn)楸容^容易記住,如果沒有特別的聲明,在本文所提及的Unicode和UCS就是一個(gè)意思。Unicode的目標(biāo)是建立一套可以包含人類所有語言文字符號你想得到想不到的各種東西的編碼,其編碼容量甚至預(yù)留了火星語以及銀河系以外語言的空間——開個(gè)玩笑,反正簡單的說,Unicode編碼集足夠的大,如果用計(jì)算機(jī)單位來表示,其數(shù)量比3個(gè)字節(jié)大一些,不到4個(gè)字節(jié)。

            Unicode和UTF

            因?yàn)閁nicode包含的內(nèi)容太多,其編碼在計(jì)算機(jī)中的表示方法就成為了一個(gè)有必要研究的問題。傳統(tǒng)編碼,比如標(biāo)準(zhǔn)的7位ASCII,在計(jì)算機(jī)中的表示方法就是占一個(gè)字節(jié)的后7位,這似乎是不需要解釋就符合大家習(xí)慣的表示方法。但是當(dāng)今Unicode的總數(shù)達(dá)到32位(計(jì)算機(jī)的最小單位是字節(jié),所以大于3字節(jié),就只能至少用4字節(jié)表示),對于大部分常用字符,比如Unicode編碼只占一個(gè)字節(jié)大小的英語字母,占兩個(gè)字節(jié)大小漢字,都用4個(gè)字節(jié)來儲(chǔ)存太奢侈了。另外,如果都用4字節(jié)直接表示,就不可避免的出現(xiàn)為0的字節(jié)。而我們知道,在C語言中,0x00的字節(jié)就是'\0',表示的是一個(gè)字符串(char字符串,非wchar_t)的結(jié)束,換句話說,C風(fēng)格的char字符串無法表示Unicode。
            因?yàn)轭愃频姆N種問題,為Unicode在計(jì)算機(jī)中的編碼方法出現(xiàn)了,這就是UTF;所對應(yīng)的,為UCS編碼實(shí)現(xiàn)的方式也有自己的說法。一般來說,UTF-x,x表示這套編碼一個(gè)單位至少占用x位,因?yàn)閁nicode最長達(dá)到32位,所以UTF-x通常是變長的——除了UTF-32;而UCS-y表示一個(gè)單位就占用y個(gè)字節(jié),所以能表示當(dāng)今Unicode的UCS-y只有UCS-4,但是因?yàn)闅v史的原因,當(dāng)Unicode還沒那么龐大的時(shí)候,2個(gè)字節(jié)足夠表示,所以有UCS-2,現(xiàn)在看來,UCS-2所能表示的Unicode只是當(dāng)今Unicode的一個(gè)子集。
            也就是說,如果某種編碼,能根據(jù)一定的規(guī)則算法,得到Unicode編碼,那么這種編碼方式就可以稱之為UTF。

            UTF-8和Windows GB2312

            UTF-8是一套“聰明”的編碼,可能用1,2,3,4個(gè)字節(jié)表示。通過UTF-8的算法,每一個(gè)字節(jié)表示的信息都很明確:這是不是某個(gè)Unicode編碼的第一個(gè)字節(jié);如果是第一個(gè)字節(jié),這是一個(gè)幾位Unicode編碼。這種“聰明”被稱為UTF-8的自我同步,也是UTF-8成為網(wǎng)絡(luò)傳輸標(biāo)準(zhǔn)編碼的原因。
            另外,UTF-8也不會(huì)出現(xiàn)0字節(jié),所以可以表示為char字符串,所以可以成為系統(tǒng)的編碼。Linux系統(tǒng)默認(rèn)使用UTF-8編碼。
            Windows GB2312一般自稱為GB2312,其實(shí)真正的名字應(yīng)該是Windows Codepage 936,這也是一種變長的編碼:1個(gè)字節(jié)表示傳統(tǒng)的ASCII部分;漢字部分是兩個(gè)字節(jié)的GBK(國標(biāo)擴(kuò)(展),拼音聲母)。Codepage 936也可以表示為char字符串,是中文Windows系統(tǒng)的默認(rèn)編碼。
            我們在第1節(jié)中看到的
            const char* s = "中文abc";
            在Windows中的編碼就是Codepage 936;在Linux中的編碼就是UTF-8。
            需要注意的是,Codepage 936不像UTF,跟Unicode沒有換算的關(guān)系,所以只能通過“代碼頁”技術(shù)查表對應(yīng)。

            UTF-16和UCS-2

            UTF-16用2個(gè)字節(jié)或者4個(gè)字節(jié)表示。在2個(gè)字節(jié)大小的時(shí)候,跟UCS-2是一樣的。UTF-16不像UTF-8,沒有自我同步機(jī)制,所以,編碼大位在前還是小位在前,就成了見仁見智的問題。我們在第1節(jié)中,“中”的UCS-2BE(因?yàn)槭莾蓚€(gè)字節(jié),所以也就是UTF-16BE)編碼是0x4E2D,這里的BE就是大位在后的意思(也就是小位在前了),對應(yīng)的,如果是UCS-2LE,編碼就成了0x2D4E。
            Windows中的wchar_t就是采用UCS-2BE編碼。需要指出的是,C++標(biāo)準(zhǔn)中對wchar_t的要求是要能表示所有系統(tǒng)能識(shí)別的字符。Windows自稱支持Unicode,但是其wchar_t卻不能表示所有的Unicode,由此違背了C++標(biāo)準(zhǔn)。

            UTF-32和UCS-4

            UTF-32在目前階段等價(jià)于UCS-4,都用定長的4個(gè)字節(jié)表示。UTF-32同樣存在BE和LE的問題。Linux的wchar_t編碼就是UTF-32BE。在16位以內(nèi)的時(shí)候,UTF-32BE的后兩位(前兩位是0x00 0x00)等價(jià)于UTF-16BE也就等價(jià)于UCS-2BE

            BOM

            為了說明一個(gè)文件采用的是什么編碼,在文件最開始的部分,可以有BOM,比如0xFE 0xFF表示UTF-16BE,0xFF 0xFE 0x00 0x00表示UTF-32LE。UTF-8原本是不需要BOM的,因?yàn)槠渥晕彝降奶匦裕菫榱嗣鞔_說明這是UTF-8(而不是讓文本編輯器去猜),也可以加上UTF-8的BOM:0xEF 0xBB 0xBF

            以上內(nèi)容都講述得很概略,詳細(xì)信息請查閱維基百科相關(guān)內(nèi)容。

            FeedBack:
            # re: 徹底解密C++寬字符:2、Unicode和UTF 2013-08-07 07:25 ligand
            你理解得大端序、小端序,名稱弄反了吧。

            Windows是著名的小端序,包wchar_t就是采用UTF-16LE編碼. 參見“字節(jié)序”的中英文維基。  回復(fù)  更多評論
              
            麻豆精品久久久久久久99蜜桃| 精品久久久久久国产91| 欧美日韩精品久久久免费观看 | 久久久噜噜噜久久熟女AA片| 狠狠色婷婷久久一区二区三区| 免费观看久久精彩视频| 亚洲午夜无码久久久久小说| 欧美亚洲色综久久精品国产| 国内精品久久久久影院网站| 亚洲中文久久精品无码ww16| 久久夜色精品国产| 久久se精品一区二区| 国产精品亚洲综合久久| 一级做a爱片久久毛片| 无码人妻精品一区二区三区久久 | 国内精品久久久久影院薰衣草 | 久久久久亚洲AV无码网站| 午夜精品久久久内射近拍高清 | 亚洲美日韩Av中文字幕无码久久久妻妇 | 婷婷久久综合九色综合九七| 欧洲成人午夜精品无码区久久| 99久久国产综合精品成人影院| 色诱久久久久综合网ywww| 欧美亚洲日本久久精品| 久久97久久97精品免视看| 国产精品gz久久久| 精品一久久香蕉国产线看播放| 日本道色综合久久影院| 狠狠色婷婷综合天天久久丁香 | 国产美女久久精品香蕉69| 久久久无码精品亚洲日韩京东传媒| 一级做a爰片久久毛片人呢| 精品少妇人妻av无码久久| 久久天天躁狠狠躁夜夜网站 | 国产成人精品综合久久久久| 亚洲欧美成人久久综合中文网| 久久综合视频网站| 久久无码AV一区二区三区| 亚洲欧美成人综合久久久| 亚洲va中文字幕无码久久| 国产精品国色综合久久|