亚洲欧美日韩中文视频,男同欧美伦乱,国产精品扒开腿做爽爽爽视频

Java中文处理学习(f��n)�W�记——Hello Unicode(转帖)

sea — Tue, 07 Nov 2006 14:46:00 GMT

摘要: Java中文处理学习(f��n)�W�记——Hello Unicode 作者：(x��) 车东 Email: chedongATbigfoot.com/chedongATchedong.com 写于�Q?002/07 最后更斎ͼ�(x��) 版权声明�Q�可以�Q意�{载，转蝲时请务必以超链接形式标明文章原始出处和作者信息及(qi��ng)本声明http://www.chedong.com/tech/hello_unicode.html 关键... 阅读全文

sea 2006-11-07 22:46 发表评论

汉字问题深入�?-转帖

sea — Tue, 07 Nov 2006 14:43:00 GMT

汉字问题深入�?作者：(x��)
一、主题：(x��)关于JAVA的中文问�?
JAVA的中文问题比较突出，主要表现在控刉��板输出，JSP��面输出和数据库讉K��上。本文尽量避开字体问题�Q�而只谈编码。通过本文�Q�你可以了解JAVA中文问题的由来，问题的解��x��法，其中提了一下用JDBC讉K��数据库的�Ҏ(gu��)��?

二、问题描�q�ͼ�(x��)
1�Q�在中文W2000中文�H�口�~�译和运行，用的是国际版的JDK�Q�连接的是中文W2000下的Cp936�~�码的SQL SERVER数据库：(x��)

J:\exercise\demo\encode\HelloWorld>make
Created by XCompiler. PhiloSoft All Rights Reserved.
Wed May 30 02:54:45 CST 2001

J:\exercise\demo\encode\HelloWorld>run
Created by XRunner. PhiloSoft All Rights Reserved.
Wed May 30 02:51:33 CST 2001
中文
[B@7bc8b569
[B@7b08b569
[B@7860b569
中文
中文
????
中文
中文
????
??
??
??

2�Q�如果在中文W2000的西文窗口（�~�码�?37�Q�下�~�译�Q�用JAVA�q�行则由于无字体而无法正常显�C�，如果象上面一样在中文W2000的中文窗口运行，输出为：(x��)

J:\exercise\demo\encode\HelloWorld>run
Created by XRunner. PhiloSoft All Rights Reserved.
Wed May 30 02:51:33 CST 2001
????
[B@7bc0b66a
[B@7b04b66a
[B@7818b66a
????
????
????
????
????
????
中文
中文
????

三）分析

1�Q�出现有��q��Q�也��是�Q�）。由于只出现�Q�而没出现��方框，说明只是�~�码有问题，而不是字体问题�? 在编码中�Q�如果从一�U�字�W�集转换到别一�U�字�W�集�Q�比较典型的是从GB2312转换到ISO8859_1�Q�即ASCII�Q�，那么很多汉字�Q�半个汉字）是无法映��到西文字符中去的，在这�U�情形下�Q�系�l�就把这些字�W�用�Q�代�ѝ��同��P��也存在小字符集无法到大字�W�集的情况，具体原因�q�里��׃��详谈了�?

2�Q�出��C��中文环境�~�译�Q�中文环境运行时汉字昄��有正��也有不正确的地方，同样�Q�在西文环境下编译，在中文环境下�q�行时也出现�c�M��情况。这是由于自动（默认�Q�或手工�Q�也��new String(bytes[,encode])和bytes getBytes([encode])�Q��{码的�l�果�?

2.1�Q�在JAVA源文�?->JAVAC-->Class-->Java-->getBytes()-->new String()-->昄��的过�E�中�Q�每一步都有编码的转换�q�程�Q�这个过�E��L��存在的，只是有的时候用默认的参数进行。下面我们一步一步分析�ؓ(f��)什么出��C��面的情�Ş�?

2.2�Q�这里是源代码：(x��)

HelloWorld.java:
------------------------
public class HelloWorld
{
public static void main(String[] argv){
try{
System.out.println("中文");//1
System.out.println("中文".getBytes());//2
System.out.println("中文".getBytes("GB2312"));//3
System.out.println("中文".getBytes("ISO8859_1"));//4

System.out.println(new String("中文".getBytes()));//5
System.out.println(new String("中文".getBytes(),"GB2312"));//6
System.out.println(new String("中文".getBytes(),"ISO8859_1"));//7

System.out.println(new String("中文".getBytes("GB2312")));//8
System.out.println(new String("中文".getBytes("GB2312"),"GB2312"));//9
System.out.println(new

String("中文".getBytes("GB2312"),"ISO8859_1"));//10

System.out.println(new String("中文".getBytes("ISO8859_1")));//11
System.out.println(new

String("中文".getBytes("ISO8859_1"),"GB2312"));//12
System.out.println(new

String("中文".getBytes("ISO8859_1"),"ISO8859_1"));//13
}
catch(Exception e){
e.printStackTrace();
}
}
}

��Z��方便赯��Q�在每个转换的后面加了操作序��P��分别�?,2,...,13�?

2.3�Q�需要说明的是，JAVAC是以�pȝ��默认�~�码��d��源文�Ӟ��然后按UNICODE�q�行�~�码的。在JAVA�q�行的时候，JAVA也是采用UNICODE�~�码的，�q�且默认输入和输出的都是操作�pȝ��的默认编码，也就是说在new String(bytes[,encode])中，�pȝ��认�ؓ(f��)输入的是�~�码为encode的字节流�Q�换句话��_(d��)��如果按encode来翻译bytes才能得到正确的结果，�q�个�l�果最后要在JAVA中保存，它还是要从这个encode转换成Unicode�Q�也��是说有bytes-->encode字符-->Unicode字符的�{换；而在String.getBytes([encode])中，�pȝ��要做一个Unicode字符-->encode字符-->bytes的�{换�?

在这个例子中�Q�除那个英文�H�口�~�码的时候除外，其实情�Ş下默认编码都是GBK�Q�在本例中，我们暂且把GBK和GB2312�{�同看待�Q��?

2.4�Q�由于在未指明在上面的两个用代码实现的�{换中�Q�如果未指定encode�Q�系�l�将采用默认的编码（�q�里为GBK�Q�，我们认�ؓ(f��)上面�?,6,7�?,9,10是一��L(f��ng)��Q?�?�?1�?2也是一��L(f��ng)��Q�所以我们在讨论中将只讨�?,9,10,12,13。其中的2,3,4只是用于��试�Q�不在我们的讨论范围之内�?

2.5�Q�下面我们来跟踪�E�序中的“中”字的�{换历�E�，我们先说在中文窗口下作的�~�译和运行过�E�，注意在下面的字母下标中，我有意识��C��用了一些数字，以表�C�相同，相异�q�是相关2.5.1)我们先以上面�?3个代码段中的的代�?��Z��Q?

步骤内容地点说明
01�Q?C1 HelloWorld.java C1泛指一个GBK字符
02�Q?U1 JAVAC��d�� U1泛指一个Unicode字符
03�Q?C1 getBytes()�W�一�?JAVA先和操作�pȝ��交流
04�Q?B1,B2 getBytes()�W�二�?然后�q�回字节数组
05�Q?C1 new String()�W�一�?JAVA先和操作�pȝ��交流
06�Q?U1 new String()�W�二�?然后�q�回字符
07�Q?C1 println(String) 能显�C�“中”字�Q�内容和原来的相�?

2.5.2�Q�然后再以代码段10��Z��Q�我们注意到只是�Q?

步骤内容地点说明
01�Q?C1 HelloWorld.java C1泛指一个GBK字符
02�Q?U1 JAVAC��d�� U1泛指一个Unicode字符
03�Q?C1 getBytes()�W�一�?JAVA先和操作�pȝ��交流
04�Q?B1,B2 getBytes()�W�二�?然后�q�回字节数组
05�Q?C3,C4 new String()�W�一�?JAVA先和操作�pȝ��交流�Q�这时解析错�?
06�Q?U5,U6 new String()�W�二�?然后�q�回字符
07�Q? C3,C4 println(String) �׃��中字�l�分成了两半�Q�在ISO8859_1中刚好也没有字符

能映��上�Q�所以显�C�Zؓ(f��)�??”。在上面的示例中�Q?
“中文”两个字��显�C�Zؓ(f��)“？�Q�？�Q��?
2.5.3�Q�在完全中文模式下的其它情�Ş�c�M��Q�我��׃��多说�?

2.6�Q�我们接着看�ؓ(f��)什么在西文DOS�H�口下编译出来的�c�d��中文�H�口下也出现�c�M��情�Ş�Q�特别是��Z��么居然有的情形下�q�能正确昄��汉字�?

2.6.1�Q�我们还是先以代码段9��Z��Q?

步骤内容地点说明
01�Q?C1C2 HelloWorld.java C1C2分别泛指一个ISO8859_1字符�Q�“中”字被拆开
02�Q?U3U4 JAVAC��d�� U1U2泛指一个Unicode字符
03�Q? C5C6 getBytes()�W�一�?JAVA先和操作�pȝ��交流�Q�这时解析错�?
04�Q?B5B6B7B8 getBytes()�W�二�?然后�q�回字节数组
05�Q?C5C6 new String()�W�一�?JAVA先和操作�pȝ��交流
06�Q?U3U4 new String()�W�二�?然后�q�回字符
07�Q?C5C6 println(String) 虽然同是两个字符�Q�但已不是最初的“两个ISO8859_1�?

�W�”，而是“两个BGK字符”，“中”显�C�成了“？�Q��?
而“中文”就昄��成了“？�Q�？�Q��?

2.6.2�Q�下面我们以代码�D?2��Z��Q�因为它能正��显�C�汉�?

步骤内容地点说明

01�Q?C1C2 HelloWorld.java C1C2分别泛指一个ISO8859_1字符�Q�“中”字被拆开
02�Q?U3U4 JAVAC��d�� U1U2泛指一个Unicode字符
03�Q?C1C2 getBytes()�W�一�?JAVA先和操作�pȝ��交流�Q�注意还是正��的哦！�Q?
04�Q?B5B6 getBytes()�W�二�?然后�q�回字节数组�Q�这是很关键的一步！�Q?
05�Q?C12 new String()�W�一�? JAVA先和操作�pȝ��交流�Q�这是更关键的一步，JAVA已经知道B5B6要解析成一个汉字！�Q?
06�Q?U7 new String()�W�二�? 然后�q�回字符�Q�真是一个项两！U7包含了U3U4的信息）
07�Q?C12 println(String) �q�就原来的“中”字�Q�很委屈被JAVAC冤枉了一回，不过被程序员拨�ؕ反正了一下！当然�Q�“中文”两个字都能正确昄��了！

3�Q�那��Z��么有的时候用JDBC�?
new String(Recordset.getBytes(int)[,encode])
Recordset.getSting(int)
Recordset.setBytes(String.getBytes([encode]))
�?
Recordset.setString(String)
的时候会(x��)出现��q��了呢�Q?

其实问题��出现在�~�写JDBC的的也考虑了编码问题，它从数据库读取数据后�Q�可能自作主张做了一个从GB2312�Q�默认编码）到Unicode的�{换，我的�q�个WebLogic For SQL Server的JDBC Driver��是�q�样的，当我��d��串的时候，发出��d��的不是正��的汉字�Q�可恨的是我却可以直接写汉字字串�Q�这让�h多少有点难以接受�Q?
也就是说�Q�我们不得不在读或写的时候进行�{码，��管�q�个转码有的时候不是那么明显，�q�是因�ؓ(f��)我们使用了默认的�~�码�q�行转码。JDBC Driver所做的操作�Q�我们只有进入到源代码内部才能清楚，不是吗？

sea 2006-11-07 22:43 发表评论

谈谈Unicode�~�码�Q�简要解释UCS、UTF、BMP、BOM�{�名�?--�?谢谢作�?

sea — Tue, 07 Nov 2006 14:25:00 GMT

谈谈Unicode�~�码�Q�简要解释UCS、UTF、BMP、BOM�{�名�?/H2>
�q�是一��程序员写给�E�序员的��味�ȝ��。所谓趣��x��指可以比较轻村֜�了解一些原来不清楚的概念，增进知识�Q�类��g��打RPG游戏的升�U�。整理这��文章的动机是两个问题：(x��)

问题一�Q?

使用Windows��C��本的“另存�ؓ(f��)”，可以在GBK、Unicode、Unicode big endian和UTF-8�q�几�U�编码方式间�怺�转换。同��h��txt文�g�Q�W(xu��)indows是怎样识别�~�码方式的呢�Q?/P>
我很早前��发现Unicode、Unicode big endian和UTF-8�~�码的txt文�g的开头会(x��)多出几个字节�Q�分别是FF、FE�Q�Unicode�Q?FE、FF�Q�Unicode big endian�Q?EF、BB、BF�Q�UTF-8�Q�。但�q�些标记是基于什么标准呢�Q?/P>
问题二：(x��)
最�q�在�|�上看到一个ConvertUTF.c�Q�实��C��UTF-32、UTF-16和UTF-8�q�三�U�编码方式的�怺�转换。对于Unicode(UCS2)、GBK、UTF-8�q�些�~�码方式�Q�我原来��׃��解。但�q�个�E�序让我有些�p�涂�Q�想不�v来UTF-16和UCS2有什么关�p�R�?

查了查相兌��料，�ȝ��这些问题弄清楚了，��带也了解了一些Unicode的细节。写成一��文章，送给有过�c�M��疑问的朋友。本文在写作时尽量做到通俗易懂�Q�但要求读者知道什么是字节�Q�什么是十六�q�制�?/P>

0、big endian和little endian

big endian和little endian是CPU处理多字节数的不同方式。例如“汉”字的Unicode�~�码�?C49。那么写到文仉��Ӟ��I�竟是将6C写在前面�Q�还是将49写在前面�Q�如果将6C写在前面�Q�就是big endian。如果将49写在前面�Q�就是little endian�?/P>

“endian”这个词��《格列佛(j��ng)游记》。小人国的内战就源于吃鸡蛋时是究竟从大头(Big-Endian)敲开�q�是从小�?Little-Endian)敲开�Q�由此曾发生�q�六�ơ叛乱，一个皇帝送了命，另一个丢了王位�?/P>

我们一般将endian��译成“字节序”，��big endian和little endian�U�C��“大��䏀�和“小��䏀��?/P>

1、字�W�编码、内码，��带介绍汉字�~�码

字符必须�~�码后才能被计算机处理。计��机使用的缺省编码方式就是计��机的内码。早期的计算��Z��?位的ASCII�~�码�Q��ؓ(f��)了处理汉字，�E�序员设计了用于��体中文的GB2312和用于繁体中文的big5�?/P>

GB2312(1980�q?一共收录了7445个字�W�，包括6763个汉字和682个其它符受��汉字区的内码范围高字节从B0-F7�Q�低字节从A1-FE�Q�占用的码位�?2*94=6768。其中有5个空位是D7FA-D7FE�?/P>

GB2312支持的汉字太��?995�q�的汉字扩展规范GBK1.0收录�?1886个符��P��它分为汉字区和图形符号区。汉字区包括21003个字�W��?/P>

从ASCII、GB2312到GBK�Q�这些编码方法是向下兼容的，卛_��一个字�W�在�q�些�Ҏ(gu��)��中��L��有相同的�~�码�Q�后面的标准支持更多的字�W�。在�q�些�~�码中，英文和中文可以统一地处理。区分中文编码的�Ҏ(gu��)��是高字节的最高位不�ؓ(f��)0。按照程序员的称��|��GB2312、GBK都属于双字节字符�? (DBCS)�?/P>

2000�q�的GB18030是取代GBK1.0的正式国家标准。该标准收录�?7484个汉字，同时�q�收录了藏文、蒙文、维向ְ�文等主要的少数民族文字。从汉字字汇上说�Q�GB18030在GB13000.1�?0902个汉字的基础上增加了CJK扩展A�?582个汉字（Unicode�?x3400-0x4db5�Q�，一共收录了27484个汉字�?/P>

CJK��是中日韩的意思。Unicode��Z��节省码位�Q�将中日韩三国语�a�中的文字�l�一�~�码。GB13000.1��是ISO/IEC 10646-1的中文版�Q�相当于Unicode 1.1�?/P>

GB18030的编码采用单字节、双字节�?字节�Ҏ(gu��)��。其中单字节、双字节和GBK是完全兼容的�?字节�~�码的码位就是收录了CJK扩展A�?582个汉字�? 例如�Q�UCS�?x3400在GB18030中的�~�码应该�?139EF30�Q�UCS�?x3401在GB18030中的�~�码应该�?139EF31�?/P>

微��Y提供了GB18030的升�U�包�Q�但�q�个升��包只是提供了一套支持CJK扩展A�?582个汉字的新字体：(x��)新宋�?18030�Q��ƈ不改变内码。Windows 的内码仍然是GBK�?/P>

�q�里�q�有一些细节：(x��)

GB2312的原文还是区位码�Q�从��Z��码到内码�Q�需要在高字节和低字节上分别加上A0�?/P>
对于��M��字符�~�码�Q�编码单元的��序是由�~�码�Ҏ(gu��)��指定的，与endian无关。例如GBK的编码单元是字节�Q�用两个字节表示一个汉字�? �q�两个字节的��序是固定的�Q�不受CPU字节序的影响。UTF-16的编码单元是word�Q�双字节�Q�，word之间的顺序是�~�码�Ҏ(gu��)��指定的，word内部的字节排列才�?x��)受到endian的媄响。后面还�?x��)介�l�UTF-16�?/P>
GB2312的两个字节的最高位都是1。但�W�合�q�个条�g的码位只�?28*128=16384个。所以GBK和GB18030的低字节最高位都可能不�?。不�q�这不媄响DBCS字符��的解析�Q�在��d��DBCS字符��时�Q�只要遇到高位�ؓ(f��)1的字节，��可以将下两个字节作��Z��个双字节�~�码�Q�而不用管低字节的高位是什么�?/P>

2、Unicode、UCS和UTF

前面提到从ASCII、GB2312、GBK到GB18030的编码方法是向下兼容的。而Unicode只与ASCII兼容�Q�更准确地说�Q�是与ISO-8859-1兼容�Q�，与GB码不兼容。例如“汉”字的Unicode�~�码�?C49�Q�而GB码是BABA�?/P>

Unicode也是一�U�字�W�编码方法，不过它是由国际组�l�设计，可以容纳全世界所有语�a�文字的编码方案。Unicode的学名是"Universal Multiple-Octet Coded Character Set"�Q�简�U�Cؓ(f��)UCS。UCS可以看作�?Unicode Character Set"的羃写�?/P>

�Ҏ(gu��)��l�基癄��全书(http://zh.wikipedia.org/wiki/)的记载：(x��)历史上存在两个试囄��立设计Unicode的组�l�，卛_��际标准化�l�织�Q�ISO�Q�和一个��Y件制造商的协�?x��)（unicode.org�Q�。ISO开发了ISO 10646��目�Q�Unicode协会(x��)开发了Unicode��目�?/P>

�?991�q�前后，双方都认识到世界不需要两个不兼容的字�W�集。于是它们开始合�q�双方的工作成果�Q��ƈ为创立一个单一�~�码表而协同工作。从Unicode2.0开始，Unicode��目采用了与ISO 10646-1相同的字库和字码�?/P>

目前两个��目仍都存在�Q��ƈ独立地公布各自的标准。Unicode协会(x��)现在的最新版本是2005�q�的Unicode 4.1.0。ISO的最新标准是ISO 10646-3:2003�?/P>

UCS只是规定如何�~�码�Q��ƈ没有规定如何传输、保存这个编码。例如“汉”字的UCS�~�码�?C49�Q�我可以�?个ascii数字来传输、保存这个编码；也可以用utf-8�~�码:3个连�l�的字节E6 B1 89来表�C�它。关键在于通信双方都要认可。UTF-8、UTF-7、UTF-16都是被广泛接受的�Ҏ(gu��)��。UTF-8的一个特别的好处是它与ISO-8859-1完全兼容。UTF是“UCS Transformation Format”的�~�写�?/P>

IETF的RFC2781和RFC3629以RFC的一贯风��|��清晰、明快又不失严�}地描�q�C��UTF-16和UTF-8的编码方法。我��L��C��得IETF是Internet Engineering Task Force的羃写。但IETF负责�l�护的RFC是Internet上一切规范的基础�?/P>

2.1、内码和code page

目前Windows的内核已�l�支持Unicode字符集，�q�样在内�怸�可以支持全世界所有的语言文字。但是由于现有的大量�E�序和文档都采用了某�U�特定语�a�的编码，例如GBK�Q�W(xu��)indows不可能不支持现有的编码，而全部改用Unicode�?/P>

Windows使用代码��?code page)来适应各个国家和地区。code page可以被理解�ؓ(f��)前面提到的内码。GBK对应的code page是CP936�?/P>

微��Y也�ؓ(f��)GB18030定义了code page�Q�CP54936。但是由于GB18030有一部分4字节�~�码�Q�而W(xu��)indows的代码页只支持单字节和双字节�~�码�Q�所以这个code page是无法真正��用的�?/P>

3、UCS-2、UCS-4、BMP

UCS有两�U�格式：(x��)UCS-2和UCS-4。顾名思义�Q�UCS-2��是用两个字节编码，UCS-4��是�?个字节（实际上只用了31位，最高位必须�?�Q�编码。下面让我们做一些简单的数学游戏�Q?/P>

UCS-2�?^16=65536个码位，UCS-4�?^31=2147483648个码位�?/P>

UCS-4�Ҏ(gu��)��最高位�?的最高字节分�?^7=128个group。每个group再根据次高字节分�?56个plane。每个plane�Ҏ(gu��)��W?个字节分�?56�? (rows)�Q�每行包�?56个cells。当然同一行的cells只是最后一个字节不同，其余都相同�?/P>

group 0的plane 0被称作Basic Multilingual Plane, 即BMP。或者说UCS-4中，高两个字节�ؓ(f��)0的码位被�U�C��BMP�?/P>

��UCS-4的BMP��L��前面的两个零字节��得��C��UCS-2。在UCS-2的两个字节前加上两个零字节，��得��C��UCS-4的BMP。而目前的UCS-4规范中还没有��M��字符被分配在BMP之外�?/P>

4、UTF�~�码

UTF-8��是�?位�ؓ(f��)单元对UCS�q�行�~�码。从UCS-2到UTF-8的编码方式如下：(x��)

UCS-2�~�码(16�q�制)	UTF-8 字节��?二进�?
0000 - 007F	0xxxxxxx
0080 - 07FF	110xxxxx 10xxxxxx
0800 - FFFF	1110xxxx 10xxxxxx 10xxxxxx

例如“汉”字的Unicode�~�码�?C49�?C49�?800-FFFF之间�Q�所以肯定要�?字节模板了：(x��)1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是�Q?110 110001 001001�Q? 用这个比�Ҏ(gu��)��依次代替模板中的x�Q�得刎ͼ�(x��)11100110 10110001 10001001�Q�即E6 B1 89�?/P>

读者可以用��C��本测试一下我们的�~�码是否正确。需要注意，UltraEdit在打开utf-8�~�码的文本文件时�?x��)自动�{换�ؓ(f��)UTF-16�Q�可能��生�؜淆。你可以在设�|�中��x��q�个选项。更好的工具是Hex Workshop�?/P>

UTF-16�?6位�ؓ(f��)单元对UCS�q�行�~�码。对于小�?x10000的UCS码，UTF-16�~�码��q��于UCS码对应的16位无�W�号整数。对于不��于0x10000的UCS码，定义了一个算法。不�q�由于实际��用的UCS2�Q�或者UCS4的BMP必然��于0x10000�Q�所以就目前而言�Q�可以认为UTF-16和UCS-2基本相同。但UCS-2只是一个编码方案，UTF-16却要用于实际的传输，所以就不得不考虑字节序的问题�?/P>

5、UTF的字节序和BOM

UTF-8以字节�ؓ(f��)�~�码单元�Q�没有字节序的问题。UTF-16以两个字节�ؓ(f��)�~�码单元�Q�在解释一个UTF-16文本前，首先要弄清楚每个�~�码单元的字节序。例如“奎”的Unicode�~�码�?94E�Q�“乙”的Unicode�~�码�?E59。如果我们收到UTF-16字节��?94E”，那么�q�是“奎”还是“乙”？

Unicode规范中推荐的标记字节��序的方法是BOM。BOM不是“Bill Of Material”的BOM表，而是Byte Order Mark。BOM是一个有点小聪明的想法：(x��)

在UCS�~�码中有一个叫�?ZERO WIDTH NO-BREAK SPACE"的字�W�，它的�~�码是FEFF。而FFFE在UCS中是不存在的字符�Q�所以不应该出现在实际传输中。UCS规范��我们在传输字节流前，先传输字�W?ZERO WIDTH NO-BREAK SPACE"�?/P>

�q�样如果接收者收到FEFF�Q�就表明�q�个字节��是Big-Endian的；如果收到FFFE�Q�就表明�q�个字节��是Little-Endian的。因此字�W?ZERO WIDTH NO-BREAK SPACE"又被�U�C��BOM�?/P>

UTF-8不需要BOM来表明字节顺序，但可以用BOM来表明编码方式。字�W?ZERO WIDTH NO-BREAK SPACE"的UTF-8�~�码是EF BB BF�Q�读者可以用我们前面介绍的编码方法验证一下）。所以如果接收者收��C��EF BB BF开头的字节��，��q��道这是UTF-8�~�码了�?/P>

Windows��是使用BOM来标记文本文件的�~�码方式的�?/P>

6、进一步的参考资�?/H3>
本文主要参考的资料�?"Short overview of ISO-IEC 10646 and Unicode" (http://www.nada.kth.se/i18n/ucs/unicode-iso10646-oview.html)�?/P>
我还找了两篇看上��M��错的资料�Q�不�q�因为我开始的疑问都找��C��{�案�Q�所以就没有看：(x��)

"Understanding Unicode A general introduction to the Unicode Standard" (http://scripts.sil.org/cms/scripts/page.php?site_id=nrsi&item_id=IWS-Chapter04a)
"Character set encoding basics Understanding character set encodings and legacy encodings" (http://scripts.sil.org/cms/scripts/page.php?site_id=nrsi&item_id=IWS-Chapter03)

我写�q�UTF-8、UCS-2、GBK�怺�转换的��Y件包�Q�包括��用Windows API和不使用Windows API的版本。以后有旉��的话�Q�我�?x��)整理一下放到我的个��Z��上(http://fmddlmyy.home4u.china.com)�?/P>
我是��x��楚所有问题后才开始写�q�篇文章的，原以��Z��?x��)儿��p��写好。没惛_��考虑措辞和查证细节花费了很长旉��Q�竟然从下午1:30写到9:00。希望有读者能从中受益�?/P>

附录1 再说说区位码、GB2312、内码和代码��?/H3>
有的朋友�Ҏ(gu��)��章中�q�句话还有疑问：(x��)
“GB2312的原文还是区位码�Q�从��Z��码到内码�Q�需要在高字节和低字节上分别加上A0。�?/P>
我再详细解释一下：(x��)

“GB2312的原文”是指国�?980�q�的一个标准《中华�h民共和国国家标准信息交换用汉字编码字�W�集基本�?GB 2312-80》。这个标准用两个数来�~�码汉字和中文符受��第一个数�U�Cؓ(f��)“区”，�W�二个数�U�Cؓ(f��)“位”。所以也�U�Cؓ(f��)��Z��码�?-9区是中文�W�号�Q?6-55区是一�U�汉字，56-87区是二��汉字。现在Windows也还有区位输入法�Q�例如输�?601得到“啊”。（�q�个��Z��输入法可以自动识�?6�q�制的GB2312�?0�q�制的区位码�Q�也��是说输入B0A1同样�?x��)得到“啊”。）

内码是指操作�pȝ��内部的字�W�编码。早期操作系�l�的内码是与语言相关的。现在的Windows在系�l�内部支持Unicode�Q�然后用代码��适应各种语言�Q�“内码”的概念��比较模�p�了。微软一般将�~�省代码��|��定的�~�码说成是内码�?/P>
内码�q�个词汇�Q��ƈ没有什么官方的定义�Q�代码页也只是微软这个公司的叫法。作为程序员�Q�我们只要知道它们是什么东西，没有必要�q�多地考证�q�些名词�?/P>
所谓代码页(code page)��是针对一�U�语�a�文字的字�W�编码。例如GBK的code page是CP936�Q�BIG5的code page是CP950�Q�GB2312的code page是CP20936�?/P>
Windows中有�~�省代码��늚�概念�Q�即�~�省用什么编码来解释字符。例如Windows的记事本打开了一个文本文�Ӟ��里面的内�Ҏ(gu��)��字节��：(x��)BA、BA、D7、D6。Windows应该��L��么解释它呢�Q?/P>
是按照Unicode�~�码解释、还是按照GBK解释、还是按照BIG5解释�Q�还是按照ISO8859-1去解释？如果按GBK去解释，��׃��(x��)得到“汉字”两个字。按照其它编码解释，可能找不到对应的字符�Q�也可能扑ֈ�错误的字�W�。所谓“错误”是指与文本作者的本意不符�Q�这时就产生了�ؕ码�?/P>
�{�案是Windows按照当前的缺省代码页去解释文本文仉��的字节流。缺省代码页可以通过控制面板的区域选项讄��。记事本的另存�ؓ(f��)中有一��ANSI�Q�其实就是按照缺省代码页的编码方法保存�?/P>
Windows的内码是Unicode�Q�它在技术上可以同时支持多个代码��c(di��n)��只要文件能说明自己使用什么编码，用户又安装了对应的代码页�Q�W(xu��)indows��p��正确昄��Q�例如在HTML文�g中就可以指定charset�?/P>
有的HTML文�g作者，特别是英文作者，认�ؓ(f��)世界上所有�h都��用英文，在文件中不指定charset。如果他使用�?x80-0xff之间的字�W�，中文Windows又按照缺省的GBK去解释，��׃��(x��)出现��q��。这时只要在�q�个html文�g中加上指定charset的语句，例如�Q?BR>
如果原作者��用的代码��和ISO8859-1兼容�Q�就不会(x��)出现��q��了�?/P>
再说��Z��码，啊的��Z��码是1601�Q�写�?6�q�制�?x10,0x01。这和计��机�q�泛使用的ASCII�~�码冲突。�ؓ(f��)了兼�?0-7f的ASCII�~�码�Q�我们在��Z��码的高、低字节上分别加上A0。这样“啊”的�~�码��成为B0A1。我们将加过两个A0的编码也�U�Cؓ(f��)GB2312�~�码�Q�虽然GB2312的原文根本没提到�q�一炏V�?

sea 2006-11-07 22:25 发表评论