除了UTF-16,其它字符集定義時(shí)都重復(fù)。
比如漢字“我”,假設(shè)它的值是22530(只是假設(shè),具體多少我沒(méi)查)
而日文的“マ”的值也可能是22530(也是假設(shè))或韓文的“?”
在網(wǎng)絡(luò)上傳輸是不能以高字節(jié)傳輸,因?yàn)榫W(wǎng)絡(luò)底層最后只認(rèn)無(wú)符號(hào)char,相當(dāng)于java中的byte,所以
22530這個(gè)int要轉(zhuǎn)換為字節(jié)數(shù)組,
byte[0] = (22530 >> 8)&0xFF;
byte[1] = 22530 &0xFF;
具體多少我沒(méi)算,假設(shè)是byte[125,231]
這樣的字節(jié)傳到服務(wù)端到是表示漢字“我”還是日文的“マ”還是其它狗屁?
一般通訊協(xié)議中會(huì)告訴對(duì)字符集,比如HTTP在請(qǐng)求時(shí)告訴服務(wù)端:
ContentType="xxxxxxxxxx";charset="GKB";
這時(shí)服務(wù)端就知道現(xiàn)在接收到的[125,231]是GKB的“我”而不是其它文字。
上面是標(biāo)準(zhǔn)的通信過(guò)程。但如果有些水平很差的程序員在提交請(qǐng)求時(shí)沒(méi)有通知服務(wù)端字符集,那服務(wù)端就沒(méi)辦法了。
只好按最常用的字符集來(lái)猜一個(gè)默認(rèn)的。
這還不錯(cuò),最要命的是寫(xiě)服務(wù)器的程序員水平和見(jiàn)識(shí)很差時(shí),就要命了。就象寫(xiě)老版本的TOMCAT的程序員,他自己生在西方,以為全世界所有人都用的是26個(gè)字母加一些符號(hào),所以他不管客戶端提交什么都按ISO-8859-1來(lái)算,結(jié)果可想而知。
沒(méi)辦法,誰(shuí)讓我們用GBK的人不會(huì)寫(xiě)tomcat呢,只好先把讓那個(gè)差勁的程序員錯(cuò)誤生成的String用ISO-8859-1還原成
[125,231],再重新用GKB生成String.