這篇文章是我兩年多前寫給同事看的,當時不少同事對編碼了解甚少,直到現在發現還是很多人對編碼了解甚少,所以我就把這篇文章發出來讓大家參考一下,希望對一些人有幫助,不過這篇文章是當時花了3個小時左右寫的,錯誤在所難免。
字符編碼歷史
計算機,發明在20世紀中期西方國家。計算機內部使用二進制作為表示任何東西的基礎,為了能夠在計算機中使用整數、浮點數等都要對其進行編碼,只是這個編碼是在硬件層的(CPU指令),而計算機要與人進行交互就要對人所能識別的文字進行編碼,ASCII就在那個時候誕生。
ASCII(American Standard Code for Information Interchange,美國信息互換標準代碼)
美國標準編碼,用于編碼英文字母的編碼方式。它用了0-127的數字之間來表示a-z等可見字符和一些控制字符,而這個字符集的編碼就確定了ASCII字符集,而這個字符集要想要在計算機的二進制方式下使用就必須用計算機能夠理解的方式來處理,ASCII使用了一個計算機字節來表示這種編碼方式,在C/C++語言中一個字節通常我們使用char來表示。
GBK
GBK,大家都知道,漢字內碼擴展規范。GBK是怎么來的呢?GBK由GB2312擴展來的,GB2312是最早的中文編碼方式。GB2312又是怎么來的呢?
計算機發展到80年代在中國開始慢慢的興起。為了能夠讓中國人能夠更好的使用計算機,自然要引入中文編碼到計算機中。但是引入中文編碼遇到了一個問題,就是ASCII使用一個字節(char)來編碼字符,但是中國的漢字是肯定不能夠在一個字節中表示完全,怎么辦?聰明的中國人發現一個字節(char)可表示的最大區間是0-255,而ASCII只使用了0-127,128-255并沒有使用,那么我們就可以用多個字節來表示中文編碼,比如:
一個字節(char)的值是在0-127之間,我們就還是用這個字節來表示ASCII里面的字符,也就是說兼容ASCII。
一個字節(char)的值是在128-255之間(此處假設是130),則說明它不是在ASCII字符集里面的,那它表示什么字符呢?此種情況下,則要在讀取下一個字節(char)的值(此處假設是10),那么就將兩個字節的值:130和10按照某種計算規則來計算等到一個值,此處計算得到3290,那么這個值可以在一個字符編碼表中去查,它可能得到某個漢字,此處假設為‘字’字,然后就可以在屏幕上顯示出來了。
(此處的計算都是假設,我沒有詳細查,以后有時間再更正,理解原理即可。也可以查看維基百科了解詳細。)
GBK中有哪些字符?
GBK是微軟利用GB2312未使用的編碼空間,收入GB13000.1的全部字符制定而來。GBK是用來編碼中文漢字的,并且兼容ASCII字符集。GBK中是不是只有簡體中文呢?
因為簡體漢字和繁體漢字有很大一部分是相同,把常見的幾千個繁體中文里面的漢字編碼進來也不會多多少,因此,GBK里面也是有繁體中文漢字的。
除此之外還有什么,因為現在簡體和繁體的常見字都編碼了,那日文里面的大多數文字也都在其中,只需要將日文的平假名和片假名(也就幾十個字符)編碼進來。
因此,GBK里面是有常見的簡體中文、繁體中文、日文等字符在一起的字符集。
Big5等編碼
中國人發明了多字節編碼的方式,但是只能編碼中國漢字(包括簡繁和日文)。其他國家和中國臺灣想要編碼文字自然就會采用相似的方式來編碼,Big5等編碼方式就產生了,它們同樣按照某種計算方式計算出值,此處假設還是3290,但是他們的編碼表和GBK不一樣,所以他們代表的文字就不在是‘字’了。
Windows ANSI編碼
GBK、Big5等編碼就是ANSI編碼,也叫本地碼。ANSI編碼就是本地碼的統稱,就是在什么國家或地區就是什么編碼。比如在中國的大陸地區就是GBK,在中國臺灣就是Big5。
亂碼
亂碼,很常見也很煩的一個Bug,編碼Bug。
假設我們在簡體中文的機器上,那么本地碼是GBK,我們用它編碼了一些文字保存在txt文件里面,然后把它拷貝到繁體中文的機器上,此處的本地碼是Big5,然后打開這個文件,假設我們使用記事本打開,它打開文件使用的默認編碼就是本地碼,即Big5,按照Big5的方式計算值,并依次查字符編碼表,然后顯示出來。亂碼來了,本來在GBK中編碼的有意義的字句,在Big5下計算查表出來得到的是一些文字字符,而這些文字字符連接在一起沒有任何意思,因此亂碼。
亂碼和字體
亂碼是編碼引起的,而在文字顯示中是要去字體中查詢到某個字符的形狀,然后顯示,有可能出現字體里面沒有這個文字,那么就會用一個默認的字符顯示,此時給人的感覺也像亂碼,通常表現出很多個字符都是一個樣子(比如一個白框),但是它不是亂碼,只是字體中沒有文字的信息,換個字體就能顯示。
UNICODE
隨著互聯網的發展,各個國家基本上都有自己的本地編碼ANSI編碼。為此,系統要支持多過的本地編碼,怎么辦?引入代碼頁code page,根據代碼頁號去查相應的字符集,GBK的代碼頁就是CP936(有細微差別,詳細可以查看維基百科)。
但是代碼頁還是不能將不同字符集中的字符在同一系統中顯示,比如:漢字和阿拉伯文不能同時顯示。UNICODE誕生了。
UNICODE就是要將所有的字符全部編碼在一個字符集里面,比如1-10000編碼簡體中文,10001-20000編碼繁體中文,依次類推,這樣就構成了UNICODE字符集。但是UNICODE字符集并沒說要怎么編碼,只是說某個數字代表某個字符,即之規定了數字到字符的的字典,但是沒有規定在計算機中怎么編碼。
UCS(Universal Character Set)/UTF(Unicode transformation format)
為了在計算機中編碼字符,就出現了UCS/UTF編碼,常見的有UTF-8,UTF-16(UCS-2),UTF-32(UCS-4)編碼。
UTF-8是類似GBK編碼的一種編碼,就是用多個字節編碼計算出值然后查表,它可以是一個字節(也就是兼容ASCII)表示一個字符,可以是兩個、三個、四個或者更多個字節根據計算得到某個值,然后去查UNICODE表得到某個字符,這樣就將所有字符進行了編碼。
UTF-16則至少是需要兩個字節來表示,也就是說,可以由兩個字節計算得到某個值,也可以是四個字節、六個字節、八個字節計算出值然后查表得到字符。
UTF-32則至少是需要四個字節表示,以此類推。
C/C++中的編碼
char在C/C++中表示一個字節,通常也用它來表示編碼字符,如果它編碼的字符是ASCII編碼,則是每個字節都表示一個字符,也就是說每個char表示一個字符。如果編碼是ANSI,此處假設是GBK編碼,那么可以是一個char表示的字符,也可以是兩個char表示一個字符。如果是UTF-8編碼,那么可以是一個char、兩個char、三個char或者更多來表示一個字符。
wchar_t是C/C++中的寬字符,標準沒有規定它占幾個字節,只是規定用來編碼unicode字符集,一個wchar_t在windows(wchar_t是UTF-16編碼)下面占2個字節,在linux(wchar_t是UTF-32編碼)下面占4個字節,用wchar_t來編碼unicode的話,常見字符都可以用一個wchar_t來表示。但是unicode字符集一直在擴充引入更多的字符,所以很有可能一個wchar_t(windows)不能表示出80001號字符,那么也就出現兩個wchar_t表示一個字符,這也就正好符合UTF-16編碼的規則。
C/C++中的亂碼解決方法
亂碼其實是無解的。大多數軟件的軟件的處理方式就是只處理UNICODE、UTF-8和ANSI編碼,因此一段文字的ANSI編碼和打開機器的本地碼不一樣那么就必然出現亂碼,當然若人為的告訴軟件說這段文字是某個code page編碼的,那么還是可以正確顯示,但是這是依靠人為操作了。
軟件里面處理這個問題處理的最好的有一類軟件,就是瀏覽器。瀏覽器檢測文本編碼的方式通常就是猜,猜它是哪種編碼,猜完是哪種編碼之后就用相應的code page去查字符,然后顯示。那么這個猜是不是亂猜呢?不是,是通過逐個字節掃描進行統計,看看這段文本最可能是哪種編碼。當然這樣做也會有錯誤,那么也一樣會出現亂碼,但是已經出現亂碼的幾率很低了。(想詳細了解可以查看firefox和chrome的源碼)
看不懂比亂碼好
假設一個程序是用的是GBK編碼的字符串,那么在一個日文操作系統(Windows)上,軟件的字符那將是亂碼,這給人一個很不好的感受。即使此軟件沒有日文版,但是如果能夠將簡體中文正確的顯示出來那還是要好上許多的,說不定使用軟件的人還是個懂中文的人。
C++里怎么做?Windows從NT開始就支持寬字符版本的API,對于所有使用API的地方都是用寬字符版本就能夠正常的顯示出文字了,在C++中就是使用wchar_t。比如:
wchar_t *wstr = L"中文";
然后用對應的寬字符版本的API來顯示出來就可以了。那是不是程序內部全部都應該使用wchar_t來表示字符?我個人推薦只在Windows下運行的程序這么做,也就是跟字符顯示不相關的東西也使用wchar_t來表示。當然,也可以根據情況在只在顯示字符的時候通過調用MultiByteToWideChar將其它編碼的字符轉換成寬字符來顯示,這樣顯示不相關的字符就可以使用多字節字符集(ANSI、UTF-8)了。
對于跨平臺的軟件(Windows、Linux),我個人推薦使用UTF-8編碼的字符來作為內部處理的字符,這樣在只需要在字符顯示的地方轉換成相應的編碼就可以了。當然主要還是在Windows上面做處理,調用MultiByteToWideChar將UTF-8轉換成寬字符然后顯示。
UTF-8在C++ 98中的表示
在目前的C++標準中,我們通常不能直接在代碼里面寫出UTF-8編碼的字符串常量。
char *str = "中文"; // 對于VS,只有源文件是不帶BOM的UTF-8編碼時才是UTF-8字符串,對于帶BOM的UTF-8編碼或者GBK編碼的文件都是GBK的字符串;
// 對于GCC,源文件編碼是什么那么這個字符串的編碼就是什么。
wchar_t *wstr = L"中文"; // 這里使用的是unicode編碼
但是,因為ANSI編碼和UTF-8編碼都是兼容ASCII編碼的,所以我們可以在代碼里面這樣寫:
char *str = "abc"; // 此處的編碼是ASCII、ANSI、UTF-8
也就是上面這段字符是可以當成ANSI編碼也可以當成是UTF-8編碼的,那么我們就可以將它當成UTF-8編碼來使用。所以在代碼里面最好不要出現字母以外的字符。(當然,不考慮多語言版的話除外)
那我們要與用戶交互的時候不能是英文字母啊。我們可以從資源文件中讀取,即我們可以將要顯示的字符放置到ini、XML以及其它文本文件中,這些文件以UTF-8編碼。這樣我們程序就從資源文件中讀取這些UTF-8編碼的字符就可以了。這也就可以很好的做多語言版本了,只要將資源文件中的字符改成其它語言的字符就可以了,當然編碼還是UTF-8。(Windows下窗口相關的資源.rc也使用UNICODE編碼就行)
這樣做值得么?值得不值得就看我們的程序是不是需要做多語言版,或者將來要不要做多語言版,如果要,這就是值得的,不要當然就無所謂了。
UTF-8在C++ 11中的表示
C++ 98中不能寫出UTF-8、UTF-16、UTF-32的字符串常量,C++ 11加入了新字符類型char16_t和char32_t,其相應的常量表示如下:
u8"中文"; // 表示用UTF-8編碼的字符串常量
u"中文"; // 表示用UTF-16編碼的字符串常量
U"中文"; // 表示用UTF-32編碼的字符串常量