除了UTF-16,其它字符集定義時都重復。
比如漢字“我”,假設它的值是22530(只是假設,具體多少我沒查)
而日文的“マ”的值也可能是22530(也是假設)或韓文的“?”
在網絡上傳輸是不能以高字節傳輸,因為網絡底層最后只認無符號char,相當于java中的byte,所以
22530這個int要轉換為字節數組,
byte[0] = (22530 >> 8)&0xFF;
byte[1] = 22530 &0xFF;
具體多少我沒算,假設是byte[125,231]
這樣的字節傳到服務端到是表示漢字“我”還是日文的“マ”還是其它狗屁?
一般通訊協議中會告訴對字符集,比如HTTP在請求時告訴服務端:
ContentType="xxxxxxxxxx";charset="GKB";
這時服務端就知道現在接收到的[125,231]是GKB的“我”而不是其它文字。
上面是標準的通信過程。但如果有些水平很差的程序員在提交請求時沒有通知服務端字符集,那服務端就沒辦法了。
只好按最常用的字符集來猜一個默認的。
這還不錯,最要命的是寫服務器的程序員水平和見識很差時,就要命了。就象寫老版本的TOMCAT的程序員,他自己生在西方,以為全世界所有人都用的是26個字母加一些符號,所以他不管客戶端提交什么都按ISO-8859-1來算,結果可想而知。
沒辦法,誰讓我們用GBK的人不會寫tomcat呢,只好先把讓那個差勁的程序員錯誤生成的String用ISO-8859-1還原成
[125,231],再重新用GKB生成String.