青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

隨筆 - 17  文章 - 48  trackbacks - 0
<2012年5月>
293012345
6789101112
13141516171819
20212223242526
272829303112
3456789

常用鏈接

留言簿(3)

隨筆檔案

搜索

  •  

最新評論

閱讀排行榜

評論排行榜

這篇文章是我兩年多前寫給同事看的,當時不少同事對編碼了解甚少,直到現在發現還是很多人對編碼了解甚少,所以我就把這篇文章發出來讓大家參考一下,希望對一些人有幫助,不過這篇文章是當時花了3個小時左右寫的,錯誤在所難免。

字符編碼歷史

計算機,發明在20世紀中期西方國家。計算機內部使用二進制作為表示任何東西的基礎,為了能夠在計算機中使用整數、浮點數等都要對其進行編碼,只是這個編碼是在硬件層的(CPU指令),而計算機要與人進行交互就要對人所能識別的文字進行編碼,ASCII就在那個時候誕生。

ASCII(American Standard Code for Information Interchange,美國信息互換標準代碼)

美國標準編碼,用于編碼英文字母的編碼方式。它用了0-127的數字之間來表示a-z等可見字符和一些控制字符,而這個字符集的編碼就確定了ASCII字符集,而這個字符集要想要在計算機的二進制方式下使用就必須用計算機能夠理解的方式來處理,ASCII使用了一個計算機字節來表示這種編碼方式,在C/C++語言中一個字節通常我們使用char來表示。

GBK

GBK,大家都知道,漢字內碼擴展規范GBK是怎么來的呢?GBKGB2312擴展來的,GB2312是最早的中文編碼方式。GB2312又是怎么來的呢?

計算機發展到80年代在中國開始慢慢的興起。為了能夠讓中國人能夠更好的使用計算機自然要引入中文編碼到計算機中。但是引入中文編碼遇到了一個問題,就是ASCII使用一個字節(char)來編碼字符,但是中國的漢字是肯定不能夠在一個字節中表示完全,怎么辦?聰明的中國人發現一個字節(char)可表示的最大區間是0-255,而ASCII只使用了0-127,128-255并沒有使用,那么我們就可以用多個字節來表示中文編碼比如:

一個字節(char)的值是在0-127之間,我們就還是用這個字節來表示ASCII里面的字符,也就是說兼容ASCII

一個字節(char)的值是在128-255之間(此處假設是130),則說明它不是在ASCII字符集里面的,那它表示什么字符呢?此種情況下,則要在讀取下一個字節(char)的值(此處假設是10),那么就將兩個字節的值:13010按照某種計算規則來計算等到一個值,此處計算得到3290,那么這個值可以在一個字符編碼表中去查,它可能得到某個漢字,此處假設為‘字’字然后就可以在屏幕上顯示出來了。

(此處的計算都是假設,我沒有詳細查,以后有時間再更正,理解原理即可。也可以查看維基百科了解詳細。

GBK中有哪些字符?

GBK是微軟利用GB2312未使用的編碼空間,收入GB13000.1的全部字符制定而來。GBK是用來編碼中文漢字的,并且兼容ASCII字符集。GBK中是不是只有簡體中文呢?

因為簡體漢字和繁體漢字有很大一部分是相同,把常見的幾千個繁體中文里面的漢字編碼進來也不會多多少,因此,GBK里面也是有繁體中文漢字的。

除此之外還有什么,因為現在簡體和繁體的常見字都編碼了,那日文里面的大多數文字也都在其中,只需要將日文的平假名和片假名(也就幾十個字符)編碼進來。

因此,GBK里面是有常見的簡體中文、繁體中文、日文等字符在一起的字符集。

Big5等編碼

中國人發明了多字節編碼的方式,但是只能編碼中國漢字(包括簡繁和日文)。其他國家和中國臺灣想要編碼文字自然就會采用相似的方式來編碼,Big5等編碼方式就產生了,它們同樣按照某種計算方式計算出值,此處假設還是3290,但是他們的編碼表和GBK不一樣,所以他們代表的文字就不在是‘字’了。

Windows ANSI編碼

GBK、Big5等編碼就是ANSI編碼,也叫本地碼。ANSI編碼就是本地碼的統稱,就是在什么國家或地區就是什么編碼比如在中國的大陸地區就是GBK,在中國臺灣就是Big5

亂碼

亂碼,很常見也很煩的一個Bug,編碼Bug

假設我們在簡體中文的機器上,那么本地碼是GBK,我們用它編碼了一文字保存在txt文件里面,然后把它拷貝到繁體中文的機器上,此處的本地碼是Big5,然后打開這個文件,假設我們使用記事本打開,它打開文件使用的默認編碼就是本地碼,即Big5,按照Big5的方式計算值,并依次查字符編碼表,然后顯示出來。亂碼來了,本來在GBK中編碼的有意義的字句,在Big5下計算查表出來得到的是一文字字符,而這文字字符連接在一起沒有任何意思,因此亂碼。

亂碼和字體

亂碼是編碼引起的,而在文字顯示中是要去字體中查詢到某個字符的形狀,然后顯示,有可能出現字體里面沒有這個文字,那么就會用一個默認的字符顯示,此時給人的感覺也像亂碼,通常表現出很多個字符都是一個樣子(比如一個白框),但是它不是亂碼,只是字體中沒有文字的信息,換個字體就能顯示。

UNICODE

隨著互聯網的發展,各個國家基本上都有自己的本地編碼ANSI編碼。為此,系統要支持多過的本地編碼,怎么辦?引入代碼頁code page,根據代碼頁號去查相應的字符集,GBK的代碼頁就是CP936(有細微差別,詳細可以查看維基百科)

但是代碼頁還是不能將不同字符集中的字符在同一系統中顯示,比如:漢字和阿拉伯文不能同時顯示。UNICODE誕生了。

UNICODE就是要將所有的字符全部編碼在一個字符集里面,比如1-10000編碼簡體中文,10001-20000編碼繁體中文,依次類推,這樣就構成了UNICODE字符集。但是UNICODE字符集并沒說要怎么編碼,只是說某個數字代表某個字符,即之規定了數字到字符的的字典,但是沒有規定在計算機中怎么編碼。

UCS(Universal Character Set)/UTF(Unicode transformation format)

為了在計算機中編碼字符,就出現了UCS/UTF編碼,常見的有UTF-8UTF-16UCS-2),UTF-32UCS-4)編碼。

UTF-8是類似GBK編碼的一種編碼,就是用多個字節編碼計算出值然后查表,它可以是一個字節(也就是兼容ASCII)表示一個字符,可以是兩個、三個、四個或者更多個字節根據計算得到某個值,然后去查UNICODE表得到某個字符,這樣就將所有字符進行了編碼。

UTF-16則至少是需要兩個字節來表示,也就是說,可以由兩個字節計算得到某個值,也可以是四個字節、六個字節、八個字節計算出值然后查表得到字符。

UTF-32則至少是需要四個字節表示,以此類推

C/C++中的編碼

char在C/C++中表示一個字節,通常也用它來表示編碼字符,如果它編碼的字符是ASCII編碼,則是每個字節都表示一個字符,也就是說每個char表示一個字符。如果編碼是ANSI,此處假設是GBK編碼,那么可以是一個char表示的字符,也可以是兩個char表示一個字符。如果是UTF-8編碼,那么可以是一個char、兩個char、三個char或者更多來表示一個字符。

wchar_t是C/C++中的寬字符,標準沒有規定它占幾個字節,只是規定用來編碼unicode字符集,一個wchar_twindowswchar_tUTF-16編碼)下面占2個字節,在linuxwchar_tUTF-32編碼)下面占4個字節,用wchar_t來編碼unicode的話,常見字符都可以用一個wchar_t來表示。但是unicode字符集一直在擴充引入更多的字符,所以很有可能一個wchar_twindows)不能表示出80001號字符,那么也就出現兩個wchar_t表示一個字符,這也就正好符合UTF-16編碼的規則。

C/C++中的亂碼解決方法

亂碼其實是無解的。大多數軟件的軟件的處理方式就是只處理UNICODEUTF-8ANSI編碼,因此一段文字的ANSI編碼和打開機器的本地碼不一樣那么就必然出現亂碼,當然若人為的告訴軟件說這段文字是某個code page編碼的,那么還是可以正確顯示,但是這是依靠人為操作了。

軟件里面處理這個問題處理的最好的有一類軟件,就是瀏覽器。瀏覽器檢測文本編碼的方式通常就是猜,猜它是哪種編碼,猜完是哪種編碼之后就用相應的code page去查字符,然后顯示。那么這個猜是不是亂猜呢?不是,是通過逐個字節掃描進行統計,看看這段文本最可能是哪種編碼。當然這樣做也會有錯誤,那么也一樣會出現亂碼,但是已經出現亂碼的幾率很低了。(想詳細了解可以查看firefoxchrome的源碼)

看不懂比亂碼好

假設一個程序是用的是GBK編碼的字符串,那么在一個日文操作系統(Windows)上,軟件的字符那將是亂碼,這給人一個很不好的感受。即使此軟件沒有日文版,但是如果能夠將簡體中文正確的顯示出來那還是要好上許多的,說不定使用軟件的人還是個懂中文的人。

C++里怎么做?Windows從NT開始就支持寬字符版本的API,對于所有使用API的地方都是用寬字符版本就能夠正常的顯示出文字了,在C++中就是使用wchar_t。比如:

wchar_t *wstr = L"中文";

然后用對應的寬字符版本的API來顯示出來就可以了。那是不是程序內部全部都應該使用wchar_t來表示字符?我個人推薦只在Windows下運行的程序這么做,也就是跟字符顯示不相關的東西也使用wchar_t來表示。當然,也可以根據情況在只在顯示字符的時候通過調用MultiByteToWideChar將其它編碼的字符轉換成寬字符來顯示,這樣顯示不相關的字符就可以使用多字節字符集(ANSI、UTF-8)了。

對于跨平臺的軟件(Windows、Linux),我個人推薦使用UTF-8編碼的字符來作為內部處理的字符,這樣在只需要在字符顯示的地方轉換成相應的編碼就可以了。當然主要還是在Windows上面做處理,調用MultiByteToWideChar將UTF-8轉換成寬字符然后顯示。

UTF-8在C++ 98中的表示

在目前的C++標準中,我們通常不能直接在代碼里面寫出UTF-8編碼的字符串常量。

char *str = "中文"; // 對于VS,只有源文件是不帶BOM的UTF-8編碼時才是UTF-8字符串,對于帶BOM的UTF-8編碼或者GBK編碼的文件都是GBK的字符串;
                    // 對于GCC,源文件編碼是什么那么這個字符串的編碼就是什么。

wchar_t *wstr = L"中文"; // 這里使用的是unicode編碼

但是,因為ANSI編碼和UTF-8編碼都是兼容ASCII編碼的,所以我們可以在代碼里面這樣寫:

char *str = "abc";  // 此處的編碼是ASCII、ANSI、UTF-8

也就是上面這段字符是可以當成ANSI編碼也可以當成是UTF-8編碼的,那么我們就可以將它當成UTF-8編碼來使用。所以在代碼里面最好不要出現字母以外的字符。(當然,不考慮多語言版的話除外

那我們要與用戶交互的時候不能是英文字母啊我們可以從資源文件中讀取,即我們可以將要顯示的字符放置到ini、XML以及其它文本文件中,這些文件以UTF-8編碼。這樣我們程序就從資源文件中讀取這些UTF-8編碼的字符就可以了。這也就可以很好的做多語言版本了,只要將資源文件中的字符改成其它語言的字符就可以了,當然編碼還是UTF-8。(Windows下窗口相關的資源.rc也使用UNICODE編碼就行)

這樣做值得么?值得不值得就看我們的程序是不是需要做多語言版,或者將來要不要做多語言版,如果要,這就是值得的,不要當然就無所謂了。

UTF-8在C++ 11中的表示

C++ 98中不能寫出UTF-8、UTF-16、UTF-32的字符串常量,C++ 11加入了新字符類型char16_t和char32_t,其相應的常量表示如下:

u8"中文"; // 表示用UTF-8編碼的字符串常量

u"中文";  // 表示用UTF-16編碼的字符串常量

U"中文";  // 表示用UTF-32編碼的字符串常量

posted on 2012-12-23 13:44 airtrack 閱讀(4543) 評論(0)  編輯 收藏 引用
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            久久频这里精品99香蕉| 亚洲女ⅴideoshd黑人| 欧美成人r级一区二区三区| 亚洲国产另类精品专区| 亚洲国产成人91精品| 欧美激情精品久久久久| 亚洲性线免费观看视频成熟| 亚洲免费一级电影| 国产毛片一区二区| 男人的天堂亚洲| 欧美日韩午夜在线| 久久久精品视频成人| 久久免费精品视频| 亚洲欧美激情诱惑| 久久大综合网| 一区二区欧美日韩视频| 香蕉亚洲视频| 日韩视频精品在线| 午夜精品999| 亚洲乱亚洲高清| 欧美一区2区视频在线观看| 亚洲国产高清自拍| 亚洲一区日韩在线| 亚洲人成啪啪网站| 亚洲欧美国产日韩天堂区| 亚洲电影免费观看高清完整版| 亚洲精品中文字| 尤物精品国产第一福利三区| 日韩视频在线一区| 亚洲第一页自拍| 99综合在线| 麻豆精品一区二区综合av| 欧美日韩成人综合| 久热精品在线视频| 国产精品亚洲美女av网站| 欧美高清影院| 国产一区二区三区自拍| 亚洲美女精品一区| 亚洲第一色在线| 亚洲在线免费观看| 亚洲影音一区| 欧美国产在线视频| 免费一级欧美片在线播放| 国产精品一区二区欧美| 亚洲精品婷婷| 最新日韩在线| 久久久免费精品| 久久乐国产精品| 国产精品永久免费观看| 亚洲人成网站色ww在线| 在线日韩精品视频| 久久国产精品99国产| 欧美在线观看一区二区三区| 国产精品h在线观看| 亚洲毛片一区| 亚洲美女区一区| 欧美二区在线观看| 欧美成人自拍视频| 亚洲福利视频一区二区| 久久精品视频在线看| 久久野战av| 国内精品久久久久久久影视麻豆| 亚洲欧美一级二级三级| 欧美亚洲在线播放| 国产嫩草一区二区三区在线观看| 中文在线一区| 欧美在线一二三区| 国产日韩欧美在线观看| 欧美专区在线观看| 美腿丝袜亚洲色图| 亚洲人午夜精品| 欧美美女bbbb| 亚洲一区三区视频在线观看 | 久久精品国产综合精品| 久久久91精品国产一区二区精品| 国产亚洲成年网址在线观看| 欧美有码在线观看视频| 久久亚洲影院| 日韩一级网站| 欧美系列电影免费观看| 亚洲综合精品| 欧美gay视频| 一本色道久久99精品综合| 欧美午夜精品理论片a级按摩| 亚洲在线免费视频| 久久免费观看视频| 日韩视频一区二区在线观看 | 亚洲欧美怡红院| 激情欧美日韩一区| 欧美精品18videos性欧美| 中文成人激情娱乐网| 久久蜜桃资源一区二区老牛| 91久久视频| 久久久99爱| 午夜视频一区二区| 在线播放亚洲一区| 欧美日韩精品免费看| 欧美亚洲免费高清在线观看| 亚洲高清不卡av| 午夜电影亚洲| 亚洲日本欧美| 国产一区二区三区在线观看视频 | 久久国产夜色精品鲁鲁99| 在线观看日韩av电影| 欧美三日本三级三级在线播放| 欧美在线免费看| aa国产精品| 欧美激情影音先锋| 久久久久久久一区二区| 在线一区二区三区四区| 亚洲大胆人体视频| 国产日韩精品一区| 欧美精品七区| 狂野欧美一区| 欧美影院在线| 亚洲视屏一区| 日韩视频在线一区二区| 欧美福利电影在线观看| 久久久.com| 欧美专区一区二区三区| 在线亚洲一区二区| 亚洲乱码国产乱码精品精| 黑人巨大精品欧美一区二区| 国产精品青草综合久久久久99 | 亚洲综合电影| 亚洲特级毛片| 日韩视频一区二区| 亚洲欧洲另类| 欧美激情aaaa| 欧美大学生性色视频| 美女被久久久| 欧美成人69| 麻豆精品91| 欧美jizzhd精品欧美喷水| 久久免费视频观看| 久久夜色精品亚洲噜噜国产mv | 亚洲无线视频| 一区二区三区视频在线| 日韩一级片网址| 日韩亚洲一区二区| 妖精视频成人观看www| 日韩一区二区精品在线观看| 亚洲激情中文1区| 亚洲日韩欧美视频| 99热这里只有精品8| 99re6这里只有精品| 夜夜爽99久久国产综合精品女不卡| 亚洲欧洲日韩在线| 日韩一级欧洲| 亚洲——在线| 久久久www免费人成黑人精品 | 欧美国产三区| 91久久精品国产| 艳妇臀荡乳欲伦亚洲一区| 在线亚洲欧美| 欧美亚洲在线播放| 久久综合影音| 欧美日韩天堂| 国产日本欧美一区二区| 久久久人成影片一区二区三区 | 欧美成人资源网| 亚洲人成高清| 亚洲午夜精品一区二区| 久久精品一二三区| 欧美极品在线观看| 国产精品免费网站| 黄色国产精品一区二区三区| 亚洲精品欧美精品| 亚洲欧美在线免费| 你懂的视频欧美| 夜夜嗨av色一区二区不卡| 午夜影院日韩| 欧美激情女人20p| 国产精品午夜春色av| 亚洲国产aⅴ天堂久久| 中文日韩在线视频| 久久免费高清视频| 一区二区电影免费观看| 久久久久久97三级| 国产精品久久久久久久久久妞妞| 国内外成人在线| 一区二区精品在线观看| 久久综合狠狠综合久久综合88| 欧美激情一区二区三区| 亚洲欧美日韩在线一区| 欧美成人伊人久久综合网| 国产欧美另类| 在线亚洲免费| 欧美第十八页| 欧美亚洲三区| 欧美色中文字幕| 亚洲韩日在线| 久热re这里精品视频在线6| 亚洲免费成人| 欧美精品成人一区二区在线观看| 国产一区二区三区奇米久涩| 一区二区三区不卡视频在线观看 | 这里只有视频精品| 亚洲国产成人午夜在线一区| 欧美影院一区|