青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

隨筆 - 96  文章 - 255  trackbacks - 0
<2010年6月>
303112345
6789101112
13141516171819
20212223242526
27282930123
45678910

E-mail:zbln426@163.com QQ:85132383 長期尋找對戰略游戲感興趣的合作伙伴。

常用鏈接

留言簿(21)

隨筆分類

隨筆檔案

SDL相關網站

我的個人網頁

我的小游戲

資源下載

搜索

  •  

積分與排名

  • 積分 - 494512
  • 排名 - 39

最新評論

閱讀排行榜

評論排行榜

<本文PDF文檔下載>

Unicode和UCS

Unicode和UCS是兩個獨立的組織分別制定的一套編碼標準,但是因為歷史的原因,這兩套標準是完全一樣的。Unicode這個詞用得比較多的原因可能是因為比較容易記住,如果沒有特別的聲明,在本文所提及的Unicode和UCS就是一個意思。Unicode的目標是建立一套可以包含人類所有語言文字符號你想得到想不到的各種東西的編碼,其編碼容量甚至預留了火星語以及銀河系以外語言的空間——開個玩笑,反正簡單的說,Unicode編碼集足夠的大,如果用計算機單位來表示,其數量比3個字節大一些,不到4個字節。

Unicode和UTF

因為Unicode包含的內容太多,其編碼在計算機中的表示方法就成為了一個有必要研究的問題。傳統編碼,比如標準的7位ASCII,在計算機中的表示方法就是占一個字節的后7位,這似乎是不需要解釋就符合大家習慣的表示方法。但是當今Unicode的總數達到32位(計算機的最小單位是字節,所以大于3字節,就只能至少用4字節表示),對于大部分常用字符,比如Unicode編碼只占一個字節大小的英語字母,占兩個字節大小漢字,都用4個字節來儲存太奢侈了。另外,如果都用4字節直接表示,就不可避免的出現為0的字節。而我們知道,在C語言中,0x00的字節就是'\0',表示的是一個字符串(char字符串,非wchar_t)的結束,換句話說,C風格的char字符串無法表示Unicode。
因為類似的種種問題,為Unicode在計算機中的編碼方法出現了,這就是UTF;所對應的,為UCS編碼實現的方式也有自己的說法。一般來說,UTF-x,x表示這套編碼一個單位至少占用x位,因為Unicode最長達到32位,所以UTF-x通常是變長的——除了UTF-32;而UCS-y表示一個單位就占用y個字節,所以能表示當今Unicode的UCS-y只有UCS-4,但是因為歷史的原因,當Unicode還沒那么龐大的時候,2個字節足夠表示,所以有UCS-2,現在看來,UCS-2所能表示的Unicode只是當今Unicode的一個子集。
也就是說,如果某種編碼,能根據一定的規則算法,得到Unicode編碼,那么這種編碼方式就可以稱之為UTF。

UTF-8和Windows GB2312

UTF-8是一套“聰明”的編碼,可能用1,2,3,4個字節表示。通過UTF-8的算法,每一個字節表示的信息都很明確:這是不是某個Unicode編碼的第一個字節;如果是第一個字節,這是一個幾位Unicode編碼。這種“聰明”被稱為UTF-8的自我同步,也是UTF-8成為網絡傳輸標準編碼的原因。
另外,UTF-8也不會出現0字節,所以可以表示為char字符串,所以可以成為系統的編碼。Linux系統默認使用UTF-8編碼。
Windows GB2312一般自稱為GB2312,其實真正的名字應該是Windows Codepage 936,這也是一種變長的編碼:1個字節表示傳統的ASCII部分;漢字部分是兩個字節的GBK(國標擴(展),拼音聲母)。Codepage 936也可以表示為char字符串,是中文Windows系統的默認編碼。
我們在第1節中看到的
const char* s = "中文abc";
在Windows中的編碼就是Codepage 936;在Linux中的編碼就是UTF-8。
需要注意的是,Codepage 936不像UTF,跟Unicode沒有換算的關系,所以只能通過“代碼頁”技術查表對應。

UTF-16和UCS-2

UTF-16用2個字節或者4個字節表示。在2個字節大小的時候,跟UCS-2是一樣的。UTF-16不像UTF-8,沒有自我同步機制,所以,編碼大位在前還是小位在前,就成了見仁見智的問題。我們在第1節中,“中”的UCS-2BE(因為是兩個字節,所以也就是UTF-16BE)編碼是0x4E2D,這里的BE就是大位在后的意思(也就是小位在前了),對應的,如果是UCS-2LE,編碼就成了0x2D4E。
Windows中的wchar_t就是采用UCS-2BE編碼。需要指出的是,C++標準中對wchar_t的要求是要能表示所有系統能識別的字符。Windows自稱支持Unicode,但是其wchar_t卻不能表示所有的Unicode,由此違背了C++標準。

UTF-32和UCS-4

UTF-32在目前階段等價于UCS-4,都用定長的4個字節表示。UTF-32同樣存在BE和LE的問題。Linux的wchar_t編碼就是UTF-32BE。在16位以內的時候,UTF-32BE的后兩位(前兩位是0x00 0x00)等價于UTF-16BE也就等價于UCS-2BE

BOM

為了說明一個文件采用的是什么編碼,在文件最開始的部分,可以有BOM,比如0xFE 0xFF表示UTF-16BE,0xFF 0xFE 0x00 0x00表示UTF-32LE。UTF-8原本是不需要BOM的,因為其自我同步的特性,但是為了明確說明這是UTF-8(而不是讓文本編輯器去猜),也可以加上UTF-8的BOM:0xEF 0xBB 0xBF

以上內容都講述得很概略,詳細信息請查閱維基百科相關內容。
posted on 2010-06-25 21:51 lf426 閱讀(3645) 評論(1)  編輯 收藏 引用 所屬分類: 語言基礎、數據結構與算法

FeedBack:
# re: 徹底解密C++寬字符:2、Unicode和UTF 2013-08-07 07:25 ligand
你理解得大端序、小端序,名稱弄反了吧。

Windows是著名的小端序,包wchar_t就是采用UTF-16LE編碼. 參見“字節序”的中英文維基。  回復  更多評論
  
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
      <noscript id="pjuwb"></noscript>
            <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
              <dd id="pjuwb"></dd>
              <abbr id="pjuwb"></abbr>
              亚洲精品激情| 国产日韩欧美中文在线播放| 99精品福利视频| 亚洲成色777777女色窝| 久久精品一区| 91久久精品视频| 亚洲精品激情| 国产精品一区二区久久久| 久久国内精品自在自线400部| 性欧美暴力猛交69hd| 国内久久精品| 欧美国产国产综合| 欧美日韩亚洲一区二区三区| 午夜精品一区二区三区四区 | 欧美激情一二三区| 欧美精品v日韩精品v韩国精品v| 一区二区三区 在线观看视频| 国产精品99久久久久久久女警 | 亚洲国产毛片完整版| 亚洲欧洲在线观看| 国产精品嫩草久久久久| 久久只精品国产| 欧美激情一区二区在线| 欧美在线免费看| 欧美成人精品三级在线观看| 亚洲欧美精品中文字幕在线| 久久国产精品一区二区| 一本色道**综合亚洲精品蜜桃冫 | 亚洲一区一卡| 久久久久国产精品www| 99精品视频免费观看| 午夜在线精品偷拍| 亚洲另类一区二区| 欧美一区二区三区四区在线观看| 日韩午夜精品| 久久深夜福利免费观看| 午夜电影亚洲| 欧美乱人伦中文字幕在线| 久久久av毛片精品| 国产精品成人一区二区网站软件| 久久亚洲图片| 国产日韩在线一区| 亚洲视频你懂的| 一本色道久久加勒比精品| 久久精品综合网| 欧美一区精品| 国产精品激情| 99精品热6080yy久久| 亚洲破处大片| 久久综合九色综合欧美狠狠| 欧美一区二区三区在| 欧美日韩中文在线| 亚洲国产精品久久久久| 精品51国产黑色丝袜高跟鞋| 亚洲自拍偷拍网址| 亚洲一区中文字幕在线观看| 欧美激情视频在线免费观看 欧美视频免费一| 欧美一级视频精品观看| 国产精品国产馆在线真实露脸 | 亚洲黄页视频免费观看| 樱桃成人精品视频在线播放| 性亚洲最疯狂xxxx高清| 亚洲一区二区在| 国产精品国产三级国产专播品爱网| 亚洲国产精品毛片| 亚洲国产日韩欧美在线99| 久久九九国产精品| 蜜桃av噜噜一区二区三区| 国内精品久久久久影院优| 久久国产一区二区| 久久午夜国产精品| 欧美激情在线播放| 日韩亚洲综合在线| 欧美日本韩国一区| 亚洲色图自拍| 欧美综合第一页| 国内精品久久久久久久影视麻豆 | 亚洲人成网站在线观看播放| 欧美劲爆第一页| 一区二区国产日产| 亚洲一级免费视频| 国产精品视频内| 久久精品成人| 亚洲电影免费在线| 亚洲综合999| 国产亚洲午夜高清国产拍精品| 久久国产精品黑丝| 亚洲第一福利在线观看| 制服丝袜激情欧洲亚洲| 欧美在线免费视频| 亚洲大胆av| 在线视频免费在线观看一区二区| 国产精品白丝av嫩草影院| 午夜精品电影| 亚洲国产成人久久综合| 亚洲一区二区三区乱码aⅴ| 国产一区二区三区电影在线观看 | 亚洲欧美日韩精品久久| 欧美大胆成人| 亚洲综合二区| 亚洲国产精品精华液网站| 欧美日韩一区二区三区在线视频| 亚洲欧美日韩中文视频| 亚洲二区在线观看| 欧美怡红院视频| 亚洲精品国产品国语在线app | 国产精品国产三级国产aⅴ9色| 久久精品一区中文字幕| 中文av一区特黄| 亚洲福利视频一区二区| 欧美中文字幕视频| 亚洲视频1区2区| 亚洲第一天堂av| 国产麻豆一精品一av一免费| 欧美成人精品一区| 久久精品国产欧美激情| 日韩午夜电影在线观看| 免费在线视频一区| 欧美一区午夜视频在线观看| 99视频精品| 亚洲国产精品尤物yw在线观看 | 美女尤物久久精品| 欧美一区二区三区日韩| 99re66热这里只有精品4| 欧美电影免费网站| 欧美aa在线视频| 久久久精品国产免费观看同学| 亚洲欧美日韩精品久久| 日韩亚洲国产精品| 亚洲国产另类精品专区 | 欧美在线视频在线播放完整版免费观看| 亚洲国产精品黑人久久久| 国产女人18毛片水18精品| 国产精品另类一区| 国产精品二区在线| 欧美三级欧美一级| 欧美日韩在线播放三区| 欧美精品网站| 欧美人与禽猛交乱配| 欧美精品久久一区二区| 欧美国产一区二区三区激情无套| 久久免费少妇高潮久久精品99| 欧美永久精品| 久久久国产午夜精品| 久久都是精品| 久久亚洲春色中文字幕久久久| 欧美自拍偷拍午夜视频| 久久精品国产亚洲一区二区三区| 欧美在线日韩精品| 久久久久久久久久久久久女国产乱| 欧美在线电影| 久久一区二区三区超碰国产精品| 久久国产精品99国产精| 久久蜜桃av一区精品变态类天堂| 久久人人97超碰精品888| 久久综合狠狠综合久久综青草| 久久天天综合| 欧美高清在线精品一区| 欧美日韩三级电影在线| 国产精品一区二区黑丝| 久久一区二区三区四区| 免费欧美在线视频| 欧美伦理91| 国产精品夜夜夜一区二区三区尤| 国产精品私房写真福利视频| 国产午夜精品福利| 亚洲国产一区二区a毛片| 99亚洲一区二区| 欧美影院一区| 欧美黄色精品| 亚洲视频图片小说| 久久精品99久久香蕉国产色戒| 久久夜色精品亚洲噜噜国产mv | 久久国内精品自在自线400部| 久久一二三区| 国产精品青草综合久久久久99 | 国产精品国产馆在线真实露脸 | 欧美精品在线免费| 国产亚洲精品bt天堂精选| 亚洲精品一线二线三线无人区| 午夜日韩av| 最新高清无码专区| 久久不射中文字幕| 欧美日韩一区在线观看| 一区二区在线视频| 亚洲欧美日韩中文在线制服| 男人的天堂亚洲| 亚洲免费影视第一页| 牛人盗摄一区二区三区视频| 国产精品久久午夜| 亚洲精品一区二区三区在线观看| 欧美在线黄色| 国产精品天天看| 夜夜嗨一区二区三区| 久久嫩草精品久久久精品一| 一本久道久久综合中文字幕| 久久影视三级福利片| 国产美女精品免费电影| 中日韩视频在线观看| 亚洲电影免费观看高清|