青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

隨筆 - 17  文章 - 48  trackbacks - 0
<2012年8月>
2930311234
567891011
12131415161718
19202122232425
2627282930311
2345678

常用鏈接

留言簿(3)

隨筆檔案

搜索

  •  

最新評論

閱讀排行榜

評論排行榜

這篇文章是我兩年多前寫給同事看的,當時不少同事對編碼了解甚少,直到現在發現還是很多人對編碼了解甚少,所以我就把這篇文章發出來讓大家參考一下,希望對一些人有幫助,不過這篇文章是當時花了3個小時左右寫的,錯誤在所難免。

字符編碼歷史

計算機,發明在20世紀中期西方國家。計算機內部使用二進制作為表示任何東西的基礎,為了能夠在計算機中使用整數、浮點數等都要對其進行編碼,只是這個編碼是在硬件層的(CPU指令),而計算機要與人進行交互就要對人所能識別的文字進行編碼,ASCII就在那個時候誕生。

ASCII(American Standard Code for Information Interchange,美國信息互換標準代碼)

美國標準編碼,用于編碼英文字母的編碼方式。它用了0-127的數字之間來表示a-z等可見字符和一些控制字符,而這個字符集的編碼就確定了ASCII字符集,而這個字符集要想要在計算機的二進制方式下使用就必須用計算機能夠理解的方式來處理,ASCII使用了一個計算機字節來表示這種編碼方式,在C/C++語言中一個字節通常我們使用char來表示。

GBK

GBK,大家都知道,漢字內碼擴展規范GBK是怎么來的呢?GBKGB2312擴展來的,GB2312是最早的中文編碼方式。GB2312又是怎么來的呢?

計算機發展到80年代在中國開始慢慢的興起。為了能夠讓中國人能夠更好的使用計算機自然要引入中文編碼到計算機中。但是引入中文編碼遇到了一個問題,就是ASCII使用一個字節(char)來編碼字符,但是中國的漢字是肯定不能夠在一個字節中表示完全,怎么辦?聰明的中國人發現一個字節(char)可表示的最大區間是0-255,而ASCII只使用了0-127,128-255并沒有使用,那么我們就可以用多個字節來表示中文編碼比如:

一個字節(char)的值是在0-127之間,我們就還是用這個字節來表示ASCII里面的字符,也就是說兼容ASCII

一個字節(char)的值是在128-255之間(此處假設是130),則說明它不是在ASCII字符集里面的,那它表示什么字符呢?此種情況下,則要在讀取下一個字節(char)的值(此處假設是10),那么就將兩個字節的值:13010按照某種計算規則來計算等到一個值,此處計算得到3290,那么這個值可以在一個字符編碼表中去查,它可能得到某個漢字,此處假設為‘字’字然后就可以在屏幕上顯示出來了。

(此處的計算都是假設,我沒有詳細查,以后有時間再更正,理解原理即可。也可以查看維基百科了解詳細。

GBK中有哪些字符?

GBK是微軟利用GB2312未使用的編碼空間,收入GB13000.1的全部字符制定而來。GBK是用來編碼中文漢字的,并且兼容ASCII字符集。GBK中是不是只有簡體中文呢?

因為簡體漢字和繁體漢字有很大一部分是相同,把常見的幾千個繁體中文里面的漢字編碼進來也不會多多少,因此,GBK里面也是有繁體中文漢字的。

除此之外還有什么,因為現在簡體和繁體的常見字都編碼了,那日文里面的大多數文字也都在其中,只需要將日文的平假名和片假名(也就幾十個字符)編碼進來。

因此,GBK里面是有常見的簡體中文、繁體中文、日文等字符在一起的字符集。

Big5等編碼

中國人發明了多字節編碼的方式,但是只能編碼中國漢字(包括簡繁和日文)。其他國家和中國臺灣想要編碼文字自然就會采用相似的方式來編碼,Big5等編碼方式就產生了,它們同樣按照某種計算方式計算出值,此處假設還是3290,但是他們的編碼表和GBK不一樣,所以他們代表的文字就不在是‘字’了。

Windows ANSI編碼

GBK、Big5等編碼就是ANSI編碼,也叫本地碼。ANSI編碼就是本地碼的統稱,就是在什么國家或地區就是什么編碼比如在中國的大陸地區就是GBK,在中國臺灣就是Big5

亂碼

亂碼,很常見也很煩的一個Bug,編碼Bug

假設我們在簡體中文的機器上,那么本地碼是GBK,我們用它編碼了一文字保存在txt文件里面,然后把它拷貝到繁體中文的機器上,此處的本地碼是Big5,然后打開這個文件,假設我們使用記事本打開,它打開文件使用的默認編碼就是本地碼,即Big5,按照Big5的方式計算值,并依次查字符編碼表,然后顯示出來。亂碼來了,本來在GBK中編碼的有意義的字句,在Big5下計算查表出來得到的是一文字字符,而這文字字符連接在一起沒有任何意思,因此亂碼。

亂碼和字體

亂碼是編碼引起的,而在文字顯示中是要去字體中查詢到某個字符的形狀,然后顯示,有可能出現字體里面沒有這個文字,那么就會用一個默認的字符顯示,此時給人的感覺也像亂碼,通常表現出很多個字符都是一個樣子(比如一個白框),但是它不是亂碼,只是字體中沒有文字的信息,換個字體就能顯示。

UNICODE

隨著互聯網的發展,各個國家基本上都有自己的本地編碼ANSI編碼。為此,系統要支持多過的本地編碼,怎么辦?引入代碼頁code page,根據代碼頁號去查相應的字符集,GBK的代碼頁就是CP936(有細微差別,詳細可以查看維基百科)

但是代碼頁還是不能將不同字符集中的字符在同一系統中顯示,比如:漢字和阿拉伯文不能同時顯示。UNICODE誕生了。

UNICODE就是要將所有的字符全部編碼在一個字符集里面,比如1-10000編碼簡體中文,10001-20000編碼繁體中文,依次類推,這樣就構成了UNICODE字符集。但是UNICODE字符集并沒說要怎么編碼,只是說某個數字代表某個字符,即之規定了數字到字符的的字典,但是沒有規定在計算機中怎么編碼。

UCS(Universal Character Set)/UTF(Unicode transformation format)

為了在計算機中編碼字符,就出現了UCS/UTF編碼,常見的有UTF-8UTF-16UCS-2),UTF-32UCS-4)編碼。

UTF-8是類似GBK編碼的一種編碼,就是用多個字節編碼計算出值然后查表,它可以是一個字節(也就是兼容ASCII)表示一個字符,可以是兩個、三個、四個或者更多個字節根據計算得到某個值,然后去查UNICODE表得到某個字符,這樣就將所有字符進行了編碼。

UTF-16則至少是需要兩個字節來表示,也就是說,可以由兩個字節計算得到某個值,也可以是四個字節、六個字節、八個字節計算出值然后查表得到字符。

UTF-32則至少是需要四個字節表示,以此類推

C/C++中的編碼

char在C/C++中表示一個字節,通常也用它來表示編碼字符,如果它編碼的字符是ASCII編碼,則是每個字節都表示一個字符,也就是說每個char表示一個字符。如果編碼是ANSI,此處假設是GBK編碼,那么可以是一個char表示的字符,也可以是兩個char表示一個字符。如果是UTF-8編碼,那么可以是一個char、兩個char、三個char或者更多來表示一個字符。

wchar_t是C/C++中的寬字符,標準沒有規定它占幾個字節,只是規定用來編碼unicode字符集,一個wchar_twindowswchar_tUTF-16編碼)下面占2個字節,在linuxwchar_tUTF-32編碼)下面占4個字節,用wchar_t來編碼unicode的話,常見字符都可以用一個wchar_t來表示。但是unicode字符集一直在擴充引入更多的字符,所以很有可能一個wchar_twindows)不能表示出80001號字符,那么也就出現兩個wchar_t表示一個字符,這也就正好符合UTF-16編碼的規則。

C/C++中的亂碼解決方法

亂碼其實是無解的。大多數軟件的軟件的處理方式就是只處理UNICODEUTF-8ANSI編碼,因此一段文字的ANSI編碼和打開機器的本地碼不一樣那么就必然出現亂碼,當然若人為的告訴軟件說這段文字是某個code page編碼的,那么還是可以正確顯示,但是這是依靠人為操作了。

軟件里面處理這個問題處理的最好的有一類軟件,就是瀏覽器。瀏覽器檢測文本編碼的方式通常就是猜,猜它是哪種編碼,猜完是哪種編碼之后就用相應的code page去查字符,然后顯示。那么這個猜是不是亂猜呢?不是,是通過逐個字節掃描進行統計,看看這段文本最可能是哪種編碼。當然這樣做也會有錯誤,那么也一樣會出現亂碼,但是已經出現亂碼的幾率很低了。(想詳細了解可以查看firefoxchrome的源碼)

看不懂比亂碼好

假設一個程序是用的是GBK編碼的字符串,那么在一個日文操作系統(Windows)上,軟件的字符那將是亂碼,這給人一個很不好的感受。即使此軟件沒有日文版,但是如果能夠將簡體中文正確的顯示出來那還是要好上許多的,說不定使用軟件的人還是個懂中文的人。

C++里怎么做?Windows從NT開始就支持寬字符版本的API,對于所有使用API的地方都是用寬字符版本就能夠正常的顯示出文字了,在C++中就是使用wchar_t。比如:

wchar_t *wstr = L"中文";

然后用對應的寬字符版本的API來顯示出來就可以了。那是不是程序內部全部都應該使用wchar_t來表示字符?我個人推薦只在Windows下運行的程序這么做,也就是跟字符顯示不相關的東西也使用wchar_t來表示。當然,也可以根據情況在只在顯示字符的時候通過調用MultiByteToWideChar將其它編碼的字符轉換成寬字符來顯示,這樣顯示不相關的字符就可以使用多字節字符集(ANSI、UTF-8)了。

對于跨平臺的軟件(Windows、Linux),我個人推薦使用UTF-8編碼的字符來作為內部處理的字符,這樣在只需要在字符顯示的地方轉換成相應的編碼就可以了。當然主要還是在Windows上面做處理,調用MultiByteToWideChar將UTF-8轉換成寬字符然后顯示。

UTF-8在C++ 98中的表示

在目前的C++標準中,我們通常不能直接在代碼里面寫出UTF-8編碼的字符串常量。

char *str = "中文"; // 對于VS,只有源文件是不帶BOM的UTF-8編碼時才是UTF-8字符串,對于帶BOM的UTF-8編碼或者GBK編碼的文件都是GBK的字符串;
                    // 對于GCC,源文件編碼是什么那么這個字符串的編碼就是什么。

wchar_t *wstr = L"中文"; // 這里使用的是unicode編碼

但是,因為ANSI編碼和UTF-8編碼都是兼容ASCII編碼的,所以我們可以在代碼里面這樣寫:

char *str = "abc";  // 此處的編碼是ASCII、ANSI、UTF-8

也就是上面這段字符是可以當成ANSI編碼也可以當成是UTF-8編碼的,那么我們就可以將它當成UTF-8編碼來使用。所以在代碼里面最好不要出現字母以外的字符。(當然,不考慮多語言版的話除外

那我們要與用戶交互的時候不能是英文字母啊我們可以從資源文件中讀取,即我們可以將要顯示的字符放置到ini、XML以及其它文本文件中,這些文件以UTF-8編碼。這樣我們程序就從資源文件中讀取這些UTF-8編碼的字符就可以了。這也就可以很好的做多語言版本了,只要將資源文件中的字符改成其它語言的字符就可以了,當然編碼還是UTF-8。(Windows下窗口相關的資源.rc也使用UNICODE編碼就行)

這樣做值得么?值得不值得就看我們的程序是不是需要做多語言版,或者將來要不要做多語言版,如果要,這就是值得的,不要當然就無所謂了。

UTF-8在C++ 11中的表示

C++ 98中不能寫出UTF-8、UTF-16、UTF-32的字符串常量,C++ 11加入了新字符類型char16_t和char32_t,其相應的常量表示如下:

u8"中文"; // 表示用UTF-8編碼的字符串常量

u"中文";  // 表示用UTF-16編碼的字符串常量

U"中文";  // 表示用UTF-32編碼的字符串常量

posted on 2012-12-23 13:44 airtrack 閱讀(4543) 評論(0)  編輯 收藏 引用
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            亚洲日本aⅴ片在线观看香蕉| 日韩小视频在线观看| 亚洲视频一区二区| 欧美精品一区二区蜜臀亚洲| 亚洲电影观看| 欧美高清视频www夜色资源网| 久久精品国产99精品国产亚洲性色| 欧美性事免费在线观看| 午夜精品视频一区| 久久精品一区二区三区中文字幕 | 欧美成人免费视频| 亚洲最新在线视频| 午夜日韩在线| 亚洲区欧美区| 午夜欧美不卡精品aaaaa| 亚洲大片在线观看| 在线亚洲免费| 在线免费日韩片| 亚洲精品国产系列| 国产精品久久久久影院色老大 | 亚洲一区中文| 久久精品成人| 宅男噜噜噜66国产日韩在线观看| 欧美亚洲网站| 亚洲乱码久久| 久久国产精品久久久久久久久久| 亚洲乱码视频| 久久九九精品| 午夜免费日韩视频| 欧美电影免费观看高清完整版| 午夜精品久久久久久久久久久久久| 久久久综合网站| 亚洲欧美一区二区三区极速播放 | 国产精品任我爽爆在线播放| 欧美高清视频一区二区| 国产精品乱码久久久久久| 欧美激情精品久久久久久免费印度| 国产精品卡一卡二| 日韩特黄影片| 亚洲精品视频免费| 久久男人资源视频| 久久国产精品久久久| 欧美精品1区| 美女主播一区| 久久久久久成人| 欧美国产先锋| 欧美成人亚洲成人日韩成人| 国产精品一区二区你懂的| 最新亚洲视频| 亚洲精品影院在线观看| 久久中文在线| 美女国产一区| 伊人成人开心激情综合网| 午夜精品美女自拍福到在线| 亚洲综合另类| 国产精品久久久久婷婷| 日韩一级片网址| 在线午夜精品| 欧美日韩精品欧美日韩精品一| 亚洲三级免费电影| 99re热精品| 欧美日韩精品高清| 99国产精品99久久久久久| 这里只有精品丝袜| 欧美无乱码久久久免费午夜一区| 999在线观看精品免费不卡网站| 日韩视频在线观看国产| 欧美激情无毛| 99re热精品| 亚洲欧美在线另类| 国产日韩欧美中文在线播放| 欧美一区二区精美| 免费日韩视频| 亚洲蜜桃精久久久久久久| 欧美日本高清视频| 亚洲深爱激情| 久久国产色av| 亚洲电影免费观看高清完整版在线观看| 久久久久国色av免费观看性色| 浪潮色综合久久天堂| …久久精品99久久香蕉国产| 欧美成年人视频| 一区二区三区精品| 午夜亚洲视频| 尤物精品国产第一福利三区| 裸体丰满少妇做受久久99精品| 亚洲国产一区二区三区高清| 亚洲一区二区久久| 国内精品写真在线观看| 老司机久久99久久精品播放免费| 亚洲精品美女91| 欧美影院久久久| 亚洲精品久久久蜜桃| 国产精品99免费看| 久久久久久亚洲精品不卡4k岛国| 亚洲国产va精品久久久不卡综合| 亚洲一区二区成人| 狠狠色狠狠色综合日日tαg| 欧美成人综合网站| 香蕉免费一区二区三区在线观看 | 欧美精品色综合| 香蕉久久夜色精品国产| 亚洲精品久久久久久下一站| 欧美一级片在线播放| 亚洲精品乱码| 激情视频一区| 国产精品乱人伦中文| 男男成人高潮片免费网站| 亚洲欧美日韩国产另类专区| 亚洲国产精品一区二区第一页 | 久热精品视频在线观看| 99视频精品全部免费在线| 国产婷婷色综合av蜜臀av| 欧美激情在线观看| 久久久一本精品99久久精品66| 在线性视频日韩欧美| 亚洲欧洲精品一区二区三区波多野1战4| 午夜精品久久一牛影视| 99在线精品观看| 亚洲国产高清在线| 狠狠久久亚洲欧美| 国产女人18毛片水18精品| 欧美极品在线播放| 免费观看成人www动漫视频| 欧美亚洲三区| 亚洲欧美另类在线| 亚洲免费伊人电影在线观看av| 最近看过的日韩成人| 欧美高清在线观看| 麻豆9191精品国产| 蜜桃视频一区| 老司机aⅴ在线精品导航| 欧美专区在线| 久久国产一区二区三区| 午夜精品视频网站| 午夜性色一区二区三区免费视频| 亚洲一区二区成人| 亚洲免费视频一区二区| 亚洲永久字幕| 小黄鸭精品密入口导航| 午夜精品在线视频| 欧美在线3区| 久久青青草原一区二区| 久久久久九九九九| 猛男gaygay欧美视频| 老司机精品导航| 欧美成人久久| 亚洲激情午夜| 亚洲乱码国产乱码精品精天堂| 亚洲免费成人av电影| 亚洲美女在线一区| 亚洲一级黄色片| 久久高清免费观看| 欧美国产一区在线| 欧美色一级片| 国产日韩亚洲| 亚洲国产精选| 这里只有精品视频| 久久九九99| 欧美激情导航| 正在播放欧美一区| 久久九九久久九九| 欧美日本成人| 国产主播一区二区三区四区| 伊人色综合久久天天五月婷| 亚洲精品美女在线观看| 亚洲综合电影一区二区三区| 久久精品在线播放| 亚洲欧洲综合另类在线| 国产精品99久久99久久久二8 | 国模吧视频一区| 亚洲精品少妇| 久久国产欧美精品| 亚洲国内高清视频| 午夜一区二区三区在线观看 | 亚洲在线中文字幕| 麻豆精品精品国产自在97香蕉| 欧美日韩p片| 黑人一区二区三区四区五区| 亚洲国产欧美不卡在线观看| 亚洲女同在线| 亚洲国产精品一区在线观看不卡| 亚洲免费一级电影| 欧美大片91| 韩日精品视频| 午夜精品理论片| 狠狠色噜噜狠狠色综合久| 欧美亚一区二区| 亚洲区第一页| 蜜臀av性久久久久蜜臀aⅴ| 在线一区二区视频| 欧美激情国产日韩精品一区18| 国产一区二区三区丝袜| 亚洲天堂网站在线观看视频| 欧美国产一区二区在线观看 | 欧美成人中文字幕| 永久域名在线精品| 久久成人综合视频| 亚洲影视在线| 欧美视频一区二|