除了UTF-16,其它字符集定義時都重復(fù)。
比如漢字“我”,假設(shè)它的值是22530(只是假設(shè),具體多少我沒查)
而日文的“マ”的值也可能是22530(也是假設(shè))或韓文的“?”
在網(wǎng)絡(luò)上傳輸是不能以高字節(jié)傳輸,因為網(wǎng)絡(luò)底層最后只認(rèn)無符號char,相當(dāng)于java中的byte,所以
22530這個int要轉(zhuǎn)換為字節(jié)數(shù)組,
byte[0] = (22530 >> 8)&0xFF;
byte[1] = 22530 &0xFF;
具體多少我沒算,假設(shè)是byte[125,231]
這樣的字節(jié)傳到服務(wù)端到是表示漢字“我”還是日文的“マ”還是其它狗屁?
一般通訊協(xié)議中會告訴對字符集,比如HTTP在請求時告訴服務(wù)端:
ContentType="xxxxxxxxxx";charset="GKB";
這時服務(wù)端就知道現(xiàn)在接收到的[125,231]是GKB的“我”而不是其它文字。
上面是標(biāo)準(zhǔn)的通信過程。但如果有些水平很差的程序員在提交請求時沒有通知服務(wù)端字符集,那服務(wù)端就沒辦法了。
只好按最常用的字符集來猜一個默認(rèn)的。
這還不錯,最要命的是寫服務(wù)器的程序員水平和見識很差時,就要命了。就象寫老版本的TOMCAT的程序員,他自己生在西方,以為全世界所有人都用的是26個字母加一些符號,所以他不管客戶端提交什么都按ISO-8859-1來算,結(jié)果可想而知。
沒辦法,誰讓我們用GBK的人不會寫tomcat呢,只好先把讓那個差勁的程序員錯誤生成的String用ISO-8859-1還原成
[125,231],再重新用GKB生成String.