工作中碰到這些問(wèn)題,不太了解,問(wèn)了一下,被BS了,今天看了些資料,大致總結(jié)如下:
Unicode: 用二個(gè)字節(jié)表示世界各國(guó)語(yǔ)言的字符,中文當(dāng)然也包括在內(nèi),占兩個(gè)字節(jié),英文也一律占兩上字節(jié)。所以用Unicode保存英文可能會(huì)比較浪費(fèi)空間。由于Unicode占兩個(gè)字節(jié),比如一個(gè)漢字用unicode表示為594E,這個(gè)時(shí)候,就有字節(jié)序的問(wèn)題了,到底是用big Ending寫成594E呢,還是用little Ending寫成4E59呢?
UTF-8: 也是國(guó)際通用的一種表示方法,它的單位是一個(gè)字節(jié)
0000 - 007F 0xxxxxxx 用一個(gè)字節(jié)就可以表示的字符
0080 - 07FF 110xxxxx 10xxxxxx 用二個(gè)字節(jié)保存的字符
0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx 需要用三個(gè)字節(jié)保存的字符
當(dāng)讀這些二進(jìn)制流的時(shí)候,就容易辯認(rèn)出它所代表的字符。漢字是用三個(gè)字節(jié)來(lái)保存。
ANSI和GBK: ANSI英文用一個(gè)字節(jié)表示,中文的話用二個(gè)字節(jié)表示,區(qū)分中文編碼的方法是高字節(jié)的最高位不為0。
不同的國(guó)家和地區(qū)制定了不同的標(biāo)準(zhǔn),由此產(chǎn)生了 GB2312, BIG5, JIS 等各自的編碼標(biāo)準(zhǔn)。這些使用 2 個(gè)字節(jié)來(lái)代表一個(gè)字符的各種漢字延伸編碼方式,稱為 ANSI 編碼。在簡(jiǎn)體中文系統(tǒng)下,ANSI 編碼代表 GB2312 編碼,在日文操作系統(tǒng)下,ANSI 編碼代表 JIS 編碼
posted on 2010-05-23 16:57
Robert.Hu 閱讀(205)
評(píng)論(1) 編輯 收藏 引用 所屬分類:
零散知識(shí)