在线国产欧美,国产丝袜美腿一区二区三区,噜噜爱69成人精品

肥仔 — Thu, 10 Sep 2009 15:52:00 GMT

libiconv�?/span>是一个基�?span lang="EN-US">GNU协议的开源库�Q�主要是解决多语�a��~�码处理转换�{�应用问题�?span lang="EN-US">
怎样学习使用libiconv库？对于刚接触到人来��_��q�篇文章不妨�ȝ��一看，若已�l�用到过该库的�h�Q�在应用的过�E�中可能遇到一些问题，我们可以一��h��探讨�Q�我的联�p�L��式是 cnangel@gmail.com �?span lang="EN-US">

几个函数原型�Q?span lang="EN-US">

iconv_t iconv_open(const char *tocode, const char *fromcode);
size_t iconv(iconv_t cd, char **inbuf, size_t *inbytesleft, char **outbuf, size_t *outbytesleft);
int iconv_close(iconv_t cd);

其中�Q?span lang="EN-US">
iconv_open是打开一个编码流�Q�类��g��打开一个编码管道（通道�Q�，出错则返�?span lang="EN-US"> -1�Q?span lang="EN-US">
iconv用于具体输入的�{换，如果出错�Q�则�q�回 -1�Q�否则返�?span lang="EN-US"> 0�Q?span lang="EN-US">
iconv_close是关闭该��道�Q�通道�Q��?span lang="EN-US">
举个例子�Q?span lang="EN-US">

#include
#include
#include
#include

#define OUTLEN 255
int covert(char *, char *, char *, size_t , char *, size_t );

int main(int argc, char *argv[])
{
    char *input = "中国";
    size_t len = strlen(input);
    char *output = (char *)malloc(OUTLEN);
    covert("UTF-8", "GBK", input, len, output, OUTLEN);
    printf("%s\n", output);
    return 0;
}

int covert(char *desc, char *src, char *input, size_t ilen, char *output, size_t olen)
{
    char **pin = &input;
    char **pout = &output;
    iconv_t cd = iconv_open(desc, src);
    if (cd == (iconv_t)-1)
    {
        return -1;
    }
    memset(output, 0, olen);
    if (iconv(cd, pin, &ilen, pout, &olen)) return -1;
    iconv_close(cd);
    return 0;
}

    �q�里�?span lang="EN-US">covert函数��是用于��编码进行�{换，其中要注意的地方�?span lang="EN-US">iconv函数的传递参敎ͼ�
1�Q?span lang="EN-US">iconv传递有5个参敎ͼ�
2�Q�第3个参数和�W?span lang="EN-US">5个参��C��般是input�?span lang="EN-US">output实际分配的大��，一般是 sizeof(type)*strlen(string)�Q?span lang="EN-US">
3�Q�第4个参数是不能直接传递指针的地址�Q�因�?span lang="EN-US">iconv函数能够改变指针的��|��所以需要复制一份指针变量；
    如果对于大量需要�{换的�~�码�Q�上�q�函�?span lang="EN-US">covert不适合该方式，一是内存的限制不能一�ơ调用，二是若分多次调用会频�J�打开一个编码管道（通道�Q�，��D��资源��费�Q�最好的办法�q�是拆开该函数根据情况��用�?span lang="EN-US">
    �q�里补充一下代码：
translateSP.h�Q?span lang="EN-US">

#ifndef __TRANSLATESP_H_
#define __TRANSLATESP_H_
#include

class TranslateSP
{
     public:
         TranslateSP():i_cd(0){}
         TranslateSP(const char *from_charset,const char *to_charset)
         {
             i_cd = iconv_open(to_charset, from_charset);
             if ((iconv_t)-1 == i_cd) printf("iconv open error!\n");
         }
         ~TranslateSP()
         {
             if (i_cd)
                 iconv_close(i_cd);
         }

     public:
         size_t translate(char *src, size_t srcLen, char *desc, size_t descLen);
         size_t convert(const char *from_charset, const char *to_charset,
                 char *src, size_t srcLen, char *desc, size_t descLen);

     private:
         iconv_t i_cd;
};

#endif

translateSP.cpp�Q?span lang="EN-US">

#include "translateSP.h"

#define MAX_LEN 200

size_t TranslateSP::translate(char *src, size_t srcLen, char *desc, size_t descLen)
{
     char **inbuf = &src;
     char **outbuf = &desc;
     memset(desc, 0, descLen);
     return iconv(i_cd, inbuf, &srcLen, outbuf, &descLen);
}

size_t TranslateSP::convert(const char *from_charset, const char *to_charset,
         char *src, size_t srcLen, char *desc, size_t descLen)
{
     char **inbuf = &src;
     char **outbuf = &desc;
     iconv_t cd = iconv_open(to_charset, from_charset);
     if ((iconv_t)-1 == cd) return (size_t)-1;
     memset(desc, 0, descLen);
     size_t n = iconv(cd, inbuf, &srcLen, outbuf, &descLen);
     iconv_close(cd);
     return n;
}

int main(int argc, char *argv[])
{
     char *str = "我爱zhong�?span lang="EN-US">! �Q�＃�Q�＃";
     char *str1 = "i大量需要�{换的�~�码";
     char *str2 = "函数��是用于��?span lang="EN-US">hello�q�行转换";
     char newstr[MAX_LEN];
     TranslateSP tsp;
     tsp.convert("utf-8", "gbk", str, strlen(str), newstr, MAX_LEN);
     printf("%s\n", newstr);
     TranslateSP newtsp("UTF-8", "GBK");
     newtsp.translate(str1, strlen(str1), newstr, MAX_LEN);
     printf("%s\n", newstr);
     newtsp.translate(str2, strlen(str2), newstr, MAX_LEN);
     printf("%s\n", newstr);
     return 0;
}

�~�译�Q?span lang="EN-US">

g++ translateSP.cpp -o test
./test
我爱zhong�?span lang="EN-US">! �Q�＃�Q�＃
i大量需要�{换的�~�码
函数��是用于��?span lang="EN-US">hello�q�行转换

(以上输出�?span lang="EN-US">GBK�~�码)

肥仔 2009-09-10 23:52 发表评论

unicode utf-8 gb18030 gb2312 gbk各种�~�码�Ҏ��

肥仔 — Thu, 10 Sep 2009 15:42:00 GMT

摘要: 在修改一个cms的过�E�当中遇��C��个php截取字符串的函数�Q�当然得兼容中英字符了）�Q�因为对各种�~�码的字�W�范围和字符表示不清楚，感觉一头迷雾，虽然可以直接来调用这个函��C��是我�q�个的特�Ҏ��q�究原理�Q�我在乎的事情都惛_��明白�Q�于是各个qq��依�ơ发信息�Q�没人理会。唉�Q�郁闗��只好自己google it and teach myself 。下面是详细介绍。还有对各方求助没有人理会，我有些个人想法。现在的人已�l�很��?.. 阅读全文

肥仔 2009-09-10 23:42 发表评论

肥仔 — Thu, 10 Sep 2009 15:37:00 GMT

摘要: GB18030有两个版本：GB18030-2000和GB18030-2005。在本文中，没有指明版本的GB18030是指GB18030-2005。本文讨��Z��以下问题�Q?1. GB2312�?82个图形符��P��都放�?区。GBK�?区有717个图形符��P��5区有 166个图形符��P��一�?.. 阅读全文

肥仔 2009-09-10 23:37 发表评论

GBK, UCS和UTF8�怺�转换

肥仔 — Thu, 10 Sep 2009 15:13:00 GMT

摘要: 最�q�学习了下编�?以下地址可以很好的学习到相关的知�?http://dev.csdn.net/develop/article/69/69883.shtm http://dev.csdn.net/develop/article/72/72888.shtm 其中讲了UTF8的编�?当要表示的内�Ҏ��　7位　的时候就用一个字节：0******* 　�W�一�?为标志位�Q�剩下的�I�间正好可以表示ASCII　0�Q?... 阅读全文

肥仔 2009-09-10 23:13 发表评论

肥仔 — Sat, 08 Nov 2008 04:17:00 GMT

　// HZEncode.cpp : Defines the entry point for the console application.

　　参考文献：

　　汉字的编码和表示

　　1)汉字交换�?span lang="EN-US">(国标�?span lang="EN-US">) 汉字交换�?span lang="EN-US">(国标�?span lang="EN-US">)主要用于汉字信息交换�?span lang="EN-US">

　　国标码：以国家标准局1980�q�颁布的《信息交换用汉字�~�码字符�?span lang="EN-US">"基本集�?span lang="EN-US">(代号�?span lang="EN-US">GB2312 80)规定的汉字交换码作�ؓ国家标准汉字�~�码�?GB2312 80中共�?span lang="EN-US">7445个字�W�符��P�� 汉字�W�号6763�?一�U�汉�?span lang="EN-US">3755�?span lang="EN-US">(按汉语拼韛_��母顺序排�?span lang="EN-US">) 二��汉字3008�?span lang="EN-US">(按部首笔划顺序排�?span lang="EN-US">) 非汉字符�?span lang="EN-US">682�?span lang="EN-US"> GB2312 80规定�Q�所有的国标码汉字及�W�号�l�成一�?span lang="EN-US">94 94的方��c��在此方阵中�Q�每一行称��Z��?span lang="EN-US">"�?span lang="EN-US">"�Q�每一列称��Z��?span lang="EN-US">"�?span lang="EN-US">"。这个方阵实际上�l�成一个有94个区(�~�号�?span lang="EN-US">01�?span lang="EN-US">94)�Q�每个区�?span lang="EN-US">94个位(�~�号�?span lang="EN-US">01�?span lang="EN-US">94)的汉字字�W�集�?一个汉字所在的区号和位��L��l�合��构成了该汉字的"��Z��?span lang="EN-US">"。其中，高两位�ؓ区号�Q�低两位��Z��受��这样区位码可以唯一地确定某一汉字或字�W?span lang="EN-US">;反之�Q��Q何一个汉字或�W�号都对应一个唯一的区位码�Q�没有重码�?span lang="EN-US">

　　��Z��码分布情况如下：

　　�?�?�?�?span lang="EN-US"> 1�?键盘上没有的各种�W�号 2�?各种序号 3�?键盘上的各种�W�号(按中文方式给�?span lang="EN-US">) 4 -5�?日文字母 6�?希腊字母 7�?俄文字母 8�?标识拼音声调的母韛_��拼音字母名称 9�?制表�W�号 10- 15�?未用 16-55�?一�U�汉�?span lang="EN-US">(按拼韛_��母顺序排�?span lang="EN-US">) 56- 87�?二��汉字(按部首笔划顺序排�?span lang="EN-US">) 88- 94�?自定义汉�?span lang="EN-US">

　　�׃��可以看出�Q�所有汉字与�W�号�?span lang="EN-US">94个区�Q�可以分为四个组�Q?span lang="EN-US">

　　�?/span>1 -15区：为图形符号区。其�?span lang="EN-US">1 9��Zؓ标准�W�号�?span lang="EN-US">;10 15��Zؓ自定义符号区�?span lang="EN-US">

　　�?/span>16 -55区：��Z��U�汉字区�Q�包�?span lang="EN-US">3755个汉字。这些区中的汉字按汉语拼音顺序排序，同音字按�W�画��序列出�?span lang="EN-US">

　　�?/span>56 -87区：��Z��U�汉字区�Q�包�?span lang="EN-US">3008个汉字。这些区中的汉字是按部首�W�划��序排序的�?span lang="EN-US">

　　�?/span>88 -94区：��定义汉字区�?span lang="EN-US">

　　国标码规定，每个汉字(包括非汉字的一些符�?span lang="EN-US">)�?span lang="EN-US">2字节代码表示。每个字节的最高位�?span lang="EN-US">0�Q�只使用�?span lang="EN-US">7位，而低7位的�~�码中又�?span lang="EN-US">34个适用于控制用的，�q�样每个字节只有27 - 34 = 94个编码用于汉字�?span lang="EN-US">2个字节就�?span lang="EN-US">94 94=8836个汉字编码。在表示一个汉字的2个字节中�Q�高字节对应�~�码表中的行��P��U�Cؓ区号;低字节对应编码表中的列号�Q�称��Z��受��?span lang="EN-US">

　　汉字国标码的范围用二�q�制表示是： 00100001 00100001 01111110 01111110 (1+32)10 (1+32)10 (94+32)10 (94+32)10 7 �?span lang="EN-US">ASCII码是128个字�W�组成的字符集。其中编码�?span lang="EN-US">0 31(00000000 00011111)不对应�Q何印刷字�W�，通常�U�Cؓ控制�W�，用于计算机通信中的通信控制或对计算��备的功能控制。编码�?span lang="EN-US">32(00100000)是空格字�W?span lang="EN-US">SP。编码�?span lang="EN-US">127(1111111)是删除字�W?span lang="EN-US">DEL�?span lang="EN-US">

　　汉字国标码的起始二进制位�|�选择00100001�?span lang="EN-US">(33)10是�ؓ了蟩�q?span lang="EN-US">ASCII码的32个控制字�W�和�I�格字符。所以，汉字国标码的高位和低位分别比对应的区位码�?span lang="EN-US">(32)10�?span lang="EN-US">(00100000)2�?span lang="EN-US">(20)H�Q�即�Q?国标码高�?span lang="EN-US"> = 区码 + 20H (H表示十六�q�制) 国标码低�?span lang="EN-US"> = 位码 + 20H

　　2) 汉字机内�?span lang="EN-US">(内码)(汉字存储�?span lang="EN-US">)

　　汉字机内�?span lang="EN-US">(内码)(汉字存储�?span lang="EN-US">)的作用是�l�一了各�U�不同的汉字输入码在计算机内部的表示。�ؓ了将汉字的各�U�输入码在计��机内部�l�一��h��Q�就有了专用于计��机内部存储汉字使用的汉字机内码�Q�用以将输入时��用的多种汉字输入码统一转换成汉字机内码�q�行存储�Q�以方便机内的汉字处理汉字机内码是在计算机内部存储、处理的代码。计��机既要处理汉字�Q�又要处理英文。因此计��机必须能区别汉字字�W�和英文字符。英文字�W�的的机内码是最高�ؓ�?span lang="EN-US">0�?span lang="EN-US">8�?span lang="EN-US">ASCII码。�ؓ了不�?span lang="EN-US">7�?span lang="EN-US">ASCII码发生冲�H�，把国标码每个字节的最高位�?span lang="EN-US">0改�ؓ1�Q�其余位不变的编码作为汉字字�W�的机内码�?span lang="EN-US">

　　汉字机内码的范围用二�q�制表示是： 10100001 10100001 11111110 11111110 机内码的高位和低位比对应的国标码的高位和低位�?span lang="EN-US">(128)10�?span lang="EN-US">(10000000)2�?span lang="EN-US">(80)H 卻I�� 机内码高�?span lang="EN-US"> = 国标码高�?span lang="EN-US"> + 80H 机内码低�?span lang="EN-US"> = 国标码低�?span lang="EN-US"> + 80H 又因为：国标码高�?span lang="EN-US"> = 区码 + 20H 国标码低�?span lang="EN-US"> = 位码 + 20H 所以：机内码高�?span lang="EN-US"> = 区码 + A0H 机内码低�?span lang="EN-US"> = 位码 + A0H 也就是说�Q�机内码高位和机内码低位分别比对应的区码和位码大(160)10�?span lang="EN-US">(10100000)2�?span lang="EN-US"> (A0)H 例如�Q�汉�?span lang="EN-US">"�?span lang="EN-US">"的区位码�?span lang="EN-US">"1601"�Q�其中区码�ؓ(16)10�?span lang="EN-US">(10)H�Q�位码�ؓ(01)10�?span lang="EN-US">(01)H�?则：机内码高�?span lang="EN-US"> = 10H + A0H = B0H 机内码低�?span lang="EN-US"> = 01H + A0H = A1H 所以：机内�?span lang="EN-US">= B0A1H

以下是引用片�D�：

　　3) 汉字输入�?span lang="EN-US">(外码)

　　汉字输入�?span lang="EN-US">(外码)是�ؓ了通过键盘字符把汉字输入计��机而设计的一�U�编码�?英文输入�Ӟ��相输入什么字�W�便按什么键�Q�输入码和机内码一致。汉字输入时�Q�可能要按几个键才能输入一个汉字。汉字输入方案有成百上千个，但是�q�千差万别的外码输入�q�计��机后都会�{换成�l�一的内码�?汉字输入�Ҏ��大致可分��Z��?span lang="EN-US">4�U�类型：

　　(1) 音码�Q�如全拼、双拹{��微软拼音等

　　(2) 形码�Q�如五笔字型、郑码、表形码�{?span lang="EN-US">

　　(3) 韛_Ş码：如智�?span lang="EN-US">ABC、自然码�{?span lang="EN-US">

　　(4) 数字码：如区位码、电报码�{?span lang="EN-US">

　　4) 汉字字�Ş�?span lang="EN-US">(输出�?span lang="EN-US">)

　　汉字字�Ş�?span lang="EN-US">(输出�?span lang="EN-US">)用于汉字的显�C�和打印�Q�是汉字字�Ş的数字化信息�?汉字的内码是用数字代码来表示汉字�Q�但是�ؓ了在输出时让��Z��看到汉字�Q�就必须输出汉字的字形。在汉字�pȝ��中，一般采用点阉|��表示字�Ş�?span lang="EN-US"> 16 *16汉字炚w��C�意 16 * 16炚w��字�Ş的字要��?span lang="EN-US">32个字�?span lang="EN-US">(16 * 16/8= 32)存储�Q?span lang="EN-US">24 * 24炚w��字�Ş的字要��?span lang="EN-US">72个字�?span lang="EN-US">(24 * 24/8=72)存储�?span lang="EN-US">

　　一般来��_��表现汉字时��用的炚w��大�Q�则汉字字�Ş的质量也��好�Q�当然每个汉字点阉|��需的存储量也越大�?span lang="EN-US">

　　5) 汉字地址�?span lang="EN-US">

　　汉字地址码是指汉字库(�q�里主要指整字�Ş的点阵式字模�?span lang="EN-US">)中存储汉字字形信息的逻辑地址。在汉字库中�Q�字形信息都是按一定顺�?span lang="EN-US">(大多数按标准汉字交换码中汉字的排列顺�?span lang="EN-US">)�q�箋存放在存储介质上的，所以汉字地址码也大多是连�l�有序的�Q�而且与汉字内码间有着��单的对应关系�Q�以��化汉字内码到汉字地址码的转换�?span lang="EN-US">

以下是引用片�D�：
*/

#include "stdafx.h"
#include "HZEncode.h"

#ifdef _DEBUG
#define new DEBUG_NEW
#undef THIS_FILE
static char THIS_FILE[] = __FILE__;
#endif
#define UNICODE
#define _UNICODE
/////////////////////////////////////////////////////////////////////////////
// The one and only application object

CWinApp theApp;

using namespace std;
unsigned short* ptr;
char* pszHZ = "�?span lang="EN-US">";
byte bt[] = {0xc4,0xe3,0xBA,0xC3};//�?/span>你好�?/span>的机内码
int _tmain(int argc, TCHAR* argv[], TCHAR* envp[])
{
       int nRetCode = 0;

       // initialize MFC and print and error on failure
       if (!AfxWinInit(::GetModuleHandle(NULL), NULL, ::GetCommandLine(), 0))
       {
              // TODO: change error code to suit your needs
              cerr << _T("Fatal Error: MFC initialization failed") << endl;
              nRetCode = 1;
       }
       else
       {
              for (int i = 16;i <= 55; i++)
              {
                     byte Temp[3];
                     Temp[2] = 0;
                     Temp[0] = i + 0xA0;
                     for (int j = 1;j < 94;j++)
                     {

                            Temp[1] = j + 0xA0;
                            cout << (LPCTSTR) Temp;

                     }
                     cout << endl;
              }

       }

       system("pause");
       return nRetCode;
}

肥仔 2008-11-08 12:17 发表评论

肥仔 — Fri, 07 Nov 2008 15:27:00 GMT

c++通常使用的是三种�~�码方式�Q�分别是SBCS(single byte character set),MBCS(multi-byte characterset)�?span lang="EN-US">Unicode字符集�?span lang="EN-US">SBCS是一个字节一个字�W�，MBCS是几个字节一个字�W�，可能是一个，两个�Q�三个不�{�，但是实际上，�l�大多数时候��用两个字节的�Q�所以有时候看�?span lang="EN-US">DBCS(double-byte character set)代替MBCS也不奇怪；Unicode一律是两个字节�~�码。在windows nt内核中，API一律��用的�?span lang="EN-US">unicode�~�码�Q�所以如果你在编写��Y件过�E�中使用�?span lang="EN-US">unicode�~�码方式�Q�系�l�也会自动�{换成unicode执行�Q�然后返回的�l�构再�{换�ؓ你��用的�c�d��。单字节表示�?span lang="EN-US">char�Q?span lang="EN-US">unicode使用wchar_t.我们是在单字节的光芒下成长�v来的�Q�一旉��完全抛弃单字节未免难以接受，但是有些时候我们又不可避免的需要��?span lang="EN-US">unicode字符集合�Q�那�?span lang="EN-US">ms提供的解军_��法是泛_��Q?span lang="EN-US">TChar

我们看看他的定义�Q?span lang="EN-US">

#ifdef UNICODE
typedef wchar_t TCHAR;
#else
typedef char TCHAR;
#endif

ok�Q�一切问题都解决了，我们只需要定�?span lang="EN-US">UNICODE��׃��样��?span lang="EN-US">wchar_t,是很方便。另外，�?span lang="EN-US">windows�?span lang="EN-US">COM中��用的一律是unicode�Q�但�?span lang="EN-US">MFC默认的确�?span lang="EN-US">MBCS�Q�所以你�?span lang="EN-US">MFC写的�c�d��如果攑ֈ��?span lang="EN-US">COM下，有些字符的格式化方式或者返回值错误的�Q�原因就�?span lang="EN-US">com一律��?span lang="EN-US">unicode�Q��?span lang="EN-US">unicode使用wchar_t('00')�l�尾�Q?span lang="EN-US">char却是使用'0'�l�尾的。一般情况下�Q�普通字�W�需要加�?span lang="EN-US">_T宏才能正常运行，比如MFC中你写道S = "FSDFSDF",那么该类转到COM下，需要写S = _T("FSDFSDF")�Q�才可以。我们可以想象宏_T�?span lang="EN-US">TCHAr的功能一��P��如果使用UNICODE��p��动在constant string前面加上L�Q�否则就直接使用�?span lang="EN-US">

我们说一些小问题�Q?span lang="EN-US">

VC6生成�?span lang="EN-US">console application�?span lang="EN-US">
int main(int argc, char* argv[])

VS C++ 2005生成的是

int _tmain(int argc, _TCHAR* argv[])

昄��Q�用_tmain更好�Q?span lang="EN-US">why?

You can also use _tmain, which is defined in TCHAR.h. _tmain will resolve to main unless _UNICODE is defined, in which case _tmain will resolve to wmain.(http://msdn2.microsoft.com/en-us/library/6wd819wh.aspx#).

我们也会常常看到如下一些字�W�类型，

WCHAR wchar_t wchar_t
LPSTR zero-terminated string of char (char*) zero-terminated string of char (char*)
LPCSTR constant zero-terminated string of char (const char*) constant zero-terminated string of char (const char*)
LPWSTR zero-terminated Unicode string (wchar_t*) zero-terminated Unicode string (wchar_t*)
LPCWSTR constant zero-terminated Unicode string (const wchar_t*) constant zero-terminated Unicode string (const wchar_t*)
TCHAR char wchar_t
LPTSTR zero-terminated string of TCHAR (TCHAR*) zero-terminated string of TCHAR (TCHAR*)
LPCTSTR constant zero-terminated string of TCHAR (const TCHAR*) constant zero-terminated string of TCHAR (const TCHAR*)
C 一般代�?span lang="EN-US">constant�Q?span lang="EN-US">P代表指针�Q?span lang="EN-US">LP代表长指�?span lang="EN-US">,W代表宽字�W�，也就�?span lang="EN-US">UNICODE�Q�这下是不是都能明白�q�些是干什么的了？

我们也会常常看到_mbsstr()�q�样的函敎ͼ��q�就�?span lang="EN-US">MBCS字符�~�码的函敎ͼ�当然可以处理SBCS�~�码�Q�但是反之却不行。所以�ؓ了保险�v见，我们可以使用_mbsstr代替strstr,但是如果�E�序只是处理SBCS�Q�那么显然又影响效率�Q�所以到底用什么方式同时满��x��率和可移植性，自己掂量着办吧�?span lang="EN-US">

以后使用C++�~�写�E�序�Q�如果出��Cؕ码，首先��?span lang="EN-US">C++的编码类型，而且一般情况下都是�l�束�W�号没有弄对�Q?span lang="EN-US">SBCS�?span lang="EN-US">MBCS都是以单字节0�l�尾�Q?span lang="EN-US">UNICODE是以双字�?span lang="EN-US">00�l�尾的�?span lang="EN-US">

肥仔 2008-11-07 23:27 发表评论

字符�~�码方式基本知识

肥仔 — Fri, 07 Nov 2008 14:43:00 GMT

ASCII�Q�基本字�W�集�?span lang="EN-US">128个常用字�W�，扩展字符集是128个，�?span lang="EN-US">256个，�?span lang="EN-US">1个字节表�C��?span lang="EN-US">
GB2312�Q?span lang="EN-US">6千多个常用汉�?span lang="EN-US">
GBK�Q?span lang="EN-US">1万多个汉�?span lang="EN-US">
GB18030�Q�更多，不过依然是两个字节来表示汉字�?span lang="EN-US">
上面三种GB*可以�l�一�U�CؓANSI�~�码�Q�且16�?span lang="EN-US">bit的第一个必定是1�?span lang="EN-US">
BIG5�Q�繁体字�W�集�Q�用于台湑֜��?span lang="EN-US">

Unicode�Q�两字节表示的世界通用码，存储为文本时会有�q�个字节的头信息�?span lang="EN-US">
UTF-8�Q�一�U�以8�?span lang="EN-US">bit��Z��l�的Unicode的表�C�格式，存储为本文时有三个字节的头信息�?span lang="EN-US">
UTF-16�Q?span lang="EN-US">16�?span lang="EN-US">bit��Z��l?span lang="EN-US">

单词全称�Q?span lang="EN-US">
ASCII: American Standard Code Information Interchange
ANSI: American National Standard Institue
GB: Guo Biao
UTF: Unicode Translation Format

========================================================
字符是各�U�文字和�W�号的�ȝ��Q�包括各国家文字、标点符受��图形符受��数字等。字�W�集是多个字�W�的集合�Q�字�W�集�U�类较多�Q�每个字�W�集包含的字�W�个��C��同，常见字符集名�U�ͼ�ASCII字符集�?span lang="EN-US">GB2312字符集�?span lang="EN-US">BIG5字符集�?span lang="EN-US"> GB 18030字符集�?span lang="EN-US">Unicode字符集等。计��机要准��的处理各种字符集文字，需要进行字�W�编码，以便计算��够识别和存储各种文字�?span lang="EN-US">

中文文字数目大，而且�q�分为简体中文和�J�体中文两种不同书写规则的文字，而计��机最初是按英语单字节字符设计的，因此�Q�对中文字符�q�行�~�码�Q�是中文信息交流的技术基��。本文将按照字符集的旉��序讨论几种典型的字�W�集�Q�选取几种代表性的中文字符集，研究历史由来、特炏V��技术特征�?span lang="EN-US">

ASCII 字符�?span lang="EN-US">

1�Q�名�U�的由来

ASCII�Q?span lang="EN-US">American Standard Code for Information Interchange�Q�美国信息互换标准代码）是基于罗马字母表的一套电脑编码系�l��?span lang="EN-US">

2�Q�特�?span lang="EN-US">

它主要用于显�C�现代英语和其他西欧语言。它是现今最通用的单字节�~�码�pȝ��Q��ƈ�{�同于国际标�?span lang="EN-US">ISO 646�?span lang="EN-US">

3�Q�包含内�?span lang="EN-US">

控制字符�Q�回车键、退根{��换行键�{��?span lang="EN-US">

可显�C�字�W�：英文大小写字�W�、阿拉伯数字和西文符�?span lang="EN-US">

4�Q�技术特�?span lang="EN-US">

7位（bits�Q�表�C�Z��个字�W�，�?span lang="EN-US">128字符

5�Q?span lang="EN-US">ASCII扩展字符�?span lang="EN-US">

7位编码的字符集只能支�?span lang="EN-US">128个字�W�，��Z��表示更多的欧�z�常用字�W�对ASCII�q�行了扩展，ASCII扩展字符集��?span lang="EN-US">8位（bits�Q�表�C�Z��个字�W�，�?span lang="EN-US">256字符�?span lang="EN-US">

ASCII扩展字符集比ASCII字符集扩充出来的�W�号包括表格�W�号、计��符受��希腊字母和�Ҏ��的拉丁符受��?span lang="EN-US">

GB2312 字符�?span lang="EN-US">

1�Q�名�U�的由来

GB2312又称�?span lang="EN-US">GB2312-80字符集，全称为《信息交换用汉字�~�码字符�?span lang="EN-US">·基本集》，由原中国国家标准��d��发布�Q??xml:namespace prefix = st1 />1981�q?span lang="EN-US">5�?span lang="EN-US">1�?/st1:chsdate>实施�?span lang="EN-US">

2�Q�特�?span lang="EN-US">

GB2312是中国国家标准的��体中文字�W�集。它所收录的汉字已�l�覆�?span lang="EN-US">99.75%的��用频率，基本满��了汉字的计算机处理需要。在中国大陆和新加坡获广泛��用�?span lang="EN-US">

3�Q�包含内�?span lang="EN-US">

GB2312收录��化汉字及一般符受��序受��数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符受��汉语注韛_��母，�?span lang="EN-US"> 7445 个图形字�W�。其中包�?span lang="EN-US">6763个汉字，其中一�U�汉�?span lang="EN-US">3755个，二��汉字3008个；包括拉丁字母、希腊字母、日文��^假名及片假名字母、俄语西里尔字母在内�?span lang="EN-US">682个全角字�W��?span lang="EN-US">

4�Q�技术特�?span lang="EN-US">

�Q?span lang="EN-US">1�Q�分��C�：

GB2312中对所收汉字进行了�?/span>分区�?/span>处理�Q�每区含�?span lang="EN-US">94个汉�?span lang="EN-US">/�W�号。这�U�表�C�方式也�U�Cؓ��Z��码�?span lang="EN-US">

各区包含的字�W�如下：01-09��Zؓ�Ҏ��W�号�Q?span lang="EN-US">16-55��Zؓ一�U�汉字，按拼��x��序；56-87��Zؓ二��汉字�Q�按部首/�W�画排序�Q?span lang="EN-US">10-15区及88-94区则未有�~�码�?span lang="EN-US">

�Q?span lang="EN-US">2�Q�双字节表示

两个字节中前面的字节为第一字节�Q�后面的字节为第二字节。习惯上�U�第一字节�?span lang="EN-US">�?/span>高字�?span lang="EN-US">�?�Q�而称�W�二字节�?span lang="EN-US">�?/span>低字�?span lang="EN-US">�?/span>�?span lang="EN-US">

�?/span>高位字节�?/span>使用�?span lang="EN-US">0xA1-0xF7(�?span lang="EN-US">01-87区的区号加上0xA0)�Q?span lang="EN-US">�?/span>低位字节�?/span>使用�?span lang="EN-US">0xA1-0xFE(�?span lang="EN-US">01-94加上0xA0)�?span lang="EN-US">

5�Q�编码�D�?span lang="EN-US">

�?span lang="EN-US">GB2312字符集的�W�一个汉�?span lang="EN-US">�?/span>�?span lang="EN-US">�?/span>字�ؓ例，它的区号16�Q�位�?span lang="EN-US">01�Q�则��Z��码是1601�Q�在大多数计��机�E�序中，高字节和低字节分别加0xA0得到�E�序的汉字处理编�?span lang="EN-US">0xB0A1。计��公式是�Q?span lang="EN-US">0xB0=0xA0+16, 0xA1=0xA0+1�?span lang="EN-US">

BIG5 字符�?span lang="EN-US">

1�Q�名�U�的由来

又称�?st1:chmetcnv w:st="on" tcsc="1" numbertype="3" negative="False" hasspace="False" sourcevalue="5" unitname="�?>五码或五大码�Q?span lang="EN-US">1984�q�由台湾财团法�h信息工业�{�进会和五间软�g公司宏碁 (Acer)、神�?span lang="EN-US"> (MiTAC)、佳佟뀁零�?span lang="EN-US"> (Zero One)、大�?span lang="EN-US"> (FIC)创立�Q�故�U�大

Big�?/span>的��生，是因为当时台湾不同厂商各自推��Z��同的�~�码�Q�如倚天码、IBM PS55、王安码�{�，彼此不能兼容�Q�另一斚w��Q�台湾政府当时尚未推出官方的汉字�~�码�Q�而中国大陆的GB2312�~�码亦未有收录繁体中文字�?span lang="EN-US">

2�Q�特�?span lang="EN-US">

Big5字符集共收录13,053个中文字�Q�该字符集在中国台湾使用。耐�h��d��的是该字�W�集重复地收录了两个相同的字�Q?span lang="EN-US">�?/span>兀�?0xA461�?span lang="EN-US">0xC94A)�?span lang="EN-US">�?/span>嗀�?0xDCD1�?span lang="EN-US">0xDDFC)�?span lang="EN-US">

3�Q�字�W�编码方�?span lang="EN-US">

Big�?/span>使用了双字节储存�Ҏ��Q�以两个字节来编码一个字。第一个字节称为�?/span>高位字节�?/span>�Q�第二个字节�U�Cؓ�?/span>低位字节�?/span>。高位字节的�~�码范围0xA1-0xF9�Q�低位字节的�~�码范围0x40-0x7E�?span lang="EN-US">0xA1-0xFE�?span lang="EN-US">

各编码范围对应的字符�c�d��如下�Q?span lang="EN-US">0xA140-0xA3BF为标点符受��希腊字母及�Ҏ��W�号�Q�另外于0xA259-0xA261�Q�存放了双音节度量衡单位用字�Q�兙兛兞兝兡兣嗧瓩糎�Q?span lang="EN-US">0xA440-0xC67E为常用汉字，先按�W�划再按部首排序�Q?span lang="EN-US">0xC940-0xF9D5为次常用汉字�Q�亦是先按笔划再按部首排序�?span lang="EN-US">

4�Q?span lang="EN-US">Big5 的局限�?span lang="EN-US">

��管Big�?/span>内包含一万多个字�W�，但是没有考虑�C�会上流通的人名、地名用字、方�a�用字、化学及生物�U�等用字�Q�没有包含日文��^假名及片假名字母�?o:p>

例如台湾�?span lang="EN-US">�?/span>着�?/span>�?span lang="EN-US">�?/span>�?span lang="EN-US">�?/span>的异体字�Q�故没有收录�?/span>着�?/span>字。康熙字�怸�的一些部首用�?span lang="EN-US">(�?span lang="EN-US">�?/span>�?span lang="EN-US">�?/span>�?span lang="EN-US">�?/span>�?span lang="EN-US">�?/span>�?span lang="EN-US">�?/span>�?span lang="EN-US">�?/span>�?span lang="EN-US">�?/span>�?span lang="EN-US">�?/span>�{?span lang="EN-US">)、常见的人名用字(�?span lang="EN-US">�?/span>�?span lang="EN-US">�?/span>�?span lang="EN-US">�?/span>�?span lang="EN-US">�?/span>�?span lang="EN-US">�?/span>�?span lang="EN-US">�?/span>�?span lang="EN-US">�?/span>�?span lang="EN-US">�?/span>�{?span lang="EN-US">) 也没有收录到Big5之中�?span lang="EN-US">

GB18030 字符�?span lang="EN-US">

1�Q�名�U�的由来

GB 18030的全�U�是GB18030-2000《信息交换用汉字�~�码字符集基本集的扩充》，是我国政府于2000�q?span lang="EN-US">3�?span lang="EN-US">17�?/st1:chsdate>发布的新的汉字编码国家标准，2001�q?span lang="EN-US">8�?span lang="EN-US">31�?/st1:chsdate>后在中国市场上发布的软�g必须�W�合本标�?span lang="EN-US">

2�Q�特�?span lang="EN-US">

GB 18030字符集标准的出台�l�过�q�泛参与和论证，来自国内外知名信息技术行业的公司�Q�信息��业部和原国家质量技术监督局联合实施�?span lang="EN-US">

GB 18030字符集标准解��x��字、日文假名、朝鲜语和中国少数民族文字组成的大字�W�集计算机编码问题。该标准的字�W��ȝ��码空间超�q?span lang="EN-US">150万个�~�码位，收录�?span lang="EN-US">27484个汉字，覆盖中文、日文、朝鲜语和中国少数民族文字。满��中国大陆、香港、台湾、日本和韩国�{�东亚地��Z��息交换多文种、大字量、多用途、统一�~�码格式的要求。�ƈ且与Unicode 3.0版本兼容�Q�填�?span lang="EN-US">Unicode扩展字符字汇�?/span>�l�一汉字扩展A�?/span>的内宏V��ƈ且与以前的国家字�W�编码标准（GB2312�Q?span lang="EN-US">GB13000.1�Q�兼宏V�?span lang="EN-US">

3�Q�编码方�?span lang="EN-US">

GB 18030标准采用单字节、双字节和四字节三种方式对字�W�编码。单字节部分使用0×00�?span lang="EN-US">0×7F�?span lang="EN-US">(对应�?span lang="EN-US">ASCII码的相应�?span lang="EN-US">)。双字节部分�Q�首字节码从0×81�?span lang="EN-US">0×FE�Q�尾字节码位分别�?span lang="EN-US">0×40�?span lang="EN-US">0×7E�?span lang="EN-US">0×80�?span lang="EN-US">0×FE。四字节部分采用GB/T 11383未采用的0×30�?span lang="EN-US">0×39作�ؓ对双字节�~�码扩充的后�~��Q�这��h��充的四字节编码，其范围�ؓ0×81308130�?span lang="EN-US">0×FE39FE39。其中第一、三个字节编码码位均�?span lang="EN-US">0×81�?span lang="EN-US">0×FE�Q�第二、四个字节编码码位均�?span lang="EN-US">0×30�?span lang="EN-US">0×39�?span lang="EN-US">

4�Q�包含的内容

双字节部分收录内容主要包�?span lang="EN-US">GB13000.1全部CJK汉字20902个、有��x��点符受��表意文字描�q�符13个、增补的汉字和部�?span lang="EN-US">/构�g80个、双字节�~�码的欧元符��L��。　　四字节部分收录了上述双字节字�W�之外的�Q�包�?span lang="EN-US">CJK�l�一汉字扩充A在内�?span lang="EN-US">GB 13000.1中的全部字符�?span lang="EN-US">

Unicode字符�?span lang="EN-US">

1�Q�名�U�的由来

Unicode字符集编码是Universal Multiple-Octet Coded Character Set 通用多八位编码字�W�集的简�U�ͼ�是由一个名�?span lang="EN-US"> Unicode 学术学会(Unicode Consortium)的机构制订的字符�~�码�pȝ��Q�支持现今世界各�U�不同语�a�的书面文本的交换、处理及昄��。该�~�码�?span lang="EN-US">1990�q�开始研发，1994�q�正式公布，最新版本是2005�q?span lang="EN-US">3�?span lang="EN-US">31�?/st1:chsdate>�?span lang="EN-US">Unicode 4.1.0�?span lang="EN-US">

2�Q�特�?span lang="EN-US">

Unicode是一�U�在计算��Z��使用的字�W�编码。它为每�U�语�a�中的每个字符讑֮�了统一�q�且唯一的二�q�制�~�码�Q�以满��跨语�a�、跨�q�_��q�行文本转换、处理的要求�?span lang="EN-US">

3�Q�编码方�?span lang="EN-US">

Unicode 标准始终使用十六�q�制数字�Q�而且在书写时在前面加上前�~�“U+�?/span>�Q�例如字�?span lang="EN-US">“A�?/span>的编码�ؓ 004116 和字�W?span lang="EN-US">�?�?/span>的编码�ؓ 20AC16。所�?span lang="EN-US">“A�?/span>的编码书写�ؓ“U+0041�?/st1:chmetcnv>�?span lang="EN-US">

4�Q?span lang="EN-US">UTF-8 �~�码
UTF-8�?span lang="EN-US">Unicode的其中一个��用方式�?span lang="EN-US"> UTF�?span lang="EN-US"> Unicode Translation Format�Q�即�?span lang="EN-US">Unicode转做某种格式的意思�?span lang="EN-US">

UTF-8便于不同的计��机之间使用�|�络传输不同语言和编码的文字�Q��得双字节�?span lang="EN-US">Unicode能够在现存的处理单字节的�pȝ��上正��传输�?span lang="EN-US">

UTF-8使用可变长度字节来储�?span lang="EN-US"> Unicode字符�Q�例�?span lang="EN-US">ASCII字母�l�箋使用1字节储存�Q�重��x��字、希腊字母或襉K��字母等使用2字节来储存，而常用的汉字��p��使用3字节。辅助��^面字�W�则使用4字节�?span lang="EN-US">

5�Q?span lang="EN-US">UTF-16 �?span lang="EN-US"> UTF-32 �~�码
UTF-32�?span lang="EN-US">UTF-16 �?span lang="EN-US"> UTF-8 �?span lang="EN-US"> Unicode 标准的编码字�W�集的字�W�编码方案，UTF-16 使用一个或两个未分配的 16 位代码单元的序列�?span lang="EN-US"> Unicode 代码点进行编码；UTF-32 卛_��每一�?span lang="EN-US"> Unicode 代码点表�C�Zؓ相同值的 32 位整数�?span lang="EN-US">
========================================================
什么是unicode, GB2312, GBK, ANSI, UTF

发展�q�程 ASCII à GB2312(BIG5) à GBKàGB18030

字符必须�~�码后才能被计算机处理。计��机使用的缺省编码方式就是计��机的内码。早期的计算��Z��?span lang="EN-US">7位的ASCII�~�码�Q��ؓ了处理汉字，�E�序员设计了用于��体中文的GB2312和用于繁体中文的big5�?span lang="EN-US">

GB2312(1980�q?span lang="EN-US">)一共收录了7445个字�W�，包括6763个汉字和682个其它符受��汉字区的内码范围高字节�?span lang="EN-US">B0-F7�Q�低字节�?span lang="EN-US">A1-FE�Q�占用的码位�?span lang="EN-US">72*94=6768。其中有5个空位是D7FA-D7FE�?span lang="EN-US">

GB2312支持的汉字太��?span lang="EN-US">1995�q�的汉字扩展规范GBK1.0收录�?span lang="EN-US">21886个符��P��它分为汉字区和图形符号区。汉字区包括21003个字�W��?span lang="EN-US">

�?span lang="EN-US">ASCII�?span lang="EN-US">GB2312�?span lang="EN-US">GBK�Q�这些编码方法是向下兼容的，卛_��一个字�W�在�q�些�Ҏ��中��L��有相同的�~�码�Q�后面的标准支持更多的字�W�。在�q�些�~�码中，英文和中文可以统一地处理。区分中文编码的�Ҏ��是高字节的最高位不�ؓ0。按照程序员的称��|��GB2312�?span lang="EN-US">GBK都属于双字节字符�?span lang="EN-US"> (DBCS)�?span lang="EN-US">

2000�q�的GB18030是取�?span lang="EN-US">GBK1.0的正式国家标准。该标准收录�?span lang="EN-US">27484个汉字，同时�q�收录了藏文、蒙文、维向ְ�文等主要的少数民族文字。从汉字字汇上说�Q?span lang="EN-US">GB18030�?span lang="EN-US">GB13000.1�?span lang="EN-US">20902个汉字的基础上增加了CJK扩展A�?span lang="EN-US">6582个汉字（Unicode�?span lang="EN-US"> 0x3400-0x4db5�Q�，一共收录了27484个汉字�?span lang="EN-US">

CJK��是中日韩的意思�?span lang="EN-US">Unicode��Z��节省码位�Q�将中日韩三国语�a�中的文字�l�一�~�码�?span lang="EN-US">GB13000.1��是ISO/IEC 10646-1的中文版�Q�相当于Unicode 1.1�?span lang="EN-US">

GB18030的编码采用单字节、双字节�?span lang="EN-US">4字节�Ҏ��。其中单字节、双字节�?span lang="EN-US">GBK是完全兼容的�?span lang="EN-US">4字节�~�码的码位就是收录了CJK扩展A�?span lang="EN-US">6582个汉字。例如：UCS�?span lang="EN-US">0x3400�?span lang="EN-US">GB18030中的�~�码应该�?span lang="EN-US">8139EF30�Q?span lang="EN-US">UCS�?span lang="EN-US">0x3401�?span lang="EN-US">GB18030中的�~�码应该�?span lang="EN-US">8139EF31�?span lang="EN-US">

微��Y提供�?span lang="EN-US">GB18030的升�U�包�Q�但�q�个升��包只是提供了一套支�?span lang="EN-US">CJK扩展A�?span lang="EN-US">6582个汉字的新字体：新宋�?span lang="EN-US">-18030�Q��ƈ不改变内码�?span lang="EN-US">Windows 的内码仍然是GBK�?span lang="EN-US">

�?span lang="EN-US">ASCII�?span lang="EN-US">GB2312�?span lang="EN-US">GBK�?span lang="EN-US">GB18030的编码方法是向下兼容的。�?span lang="EN-US">Unicode只与ASCII兼容

Unicode也是一�U�字�W�编码方法，不过它是由国际组�l�设计，可以容纳全世界所有语�a�文字的编码方案�?span lang="EN-US">unicode �?span lang="EN-US">java 中的�~�码转换桥梁,使用了以�l�流�q��o器来桥接unicode�~�码文本和本地操作系�l�编码文本的隔阂(内码,�?span lang="EN-US">windows�?span lang="EN-US">GBK).所有的class �z��?span lang="EN-US">abstract class Reader and Writer .后面�l�箋研究.

�׃��现有的大量程序和文档都采用了某种特定语言的编码，例如GBK�Q?span lang="EN-US">Windows不可能不支持现有的编码，而全部改�?span lang="EN-US">Unicode。我们称GBK�?span lang="EN-US">windows的内�?span lang="EN-US">.Windows使用代码��?span lang="EN-US">(code page)来适应各个国家和地区�?span lang="EN-US">code page可以被理解�ؓ内码�?span lang="EN-US">GBK对应�?span lang="EN-US">code page�?span lang="EN-US">CP936�?

what is UCS?

Unicode的学名是"Universal Multiple-Octet Coded Character Set"�Q�简�U�CؓUCS�?span lang="EN-US">UCS可以看作�?span lang="EN-US">"Unicode Character Set"的羃写�?span lang="EN-US">

UCS有两�U�格式：UCS-2�?span lang="EN-US">UCS-4。顾名思义�Q?span lang="EN-US">UCS-2��是用两个字节编码，UCS-4��是�?span lang="EN-US">4个字节（实际上只用了31位，最高位必须�?span lang="EN-US">0�Q�编码�?span lang="EN-US">

什么是UTF

UTF�Q�是Unicode Text Format的羃写，意�ؓUnicode文本格式。对�?span lang="EN-US">UTF�Q�是�q�样定义�?span lang="EN-US">

�Q?span lang="EN-US">1�Q�如�?span lang="EN-US">Unicode�?span lang="EN-US">16位字�W�的�?span lang="EN-US">9位是0�Q�则用一个字节表�C�，�q�个字节的首位是 �?�?/span>�Q�剩下的7位与原字�W�中的后7位相同，�?span lang="EN-US">“\u0034�?/span>�Q?span lang="EN-US">0000 0000 0011 0100�Q�，�?span lang="EN-US">�?4�?(0011 0100)表示�Q�（与源Unicode字符是相同的�Q�；

�Q?span lang="EN-US">2�Q�如�?span lang="EN-US">Unicode�?span lang="EN-US">16位字�W�的�?span lang="EN-US">5位是0�Q�则�?span lang="EN-US">2个字节表�C�，首字节是�?10�?/span>开��_��后面�?span lang="EN-US">5位与源字�W�中除去�?span lang="EN-US">5个零后的最�?span lang="EN-US">5位相同；�W�二个字节以�?0�?/span>开��_��后面�?span lang="EN-US">6位与源字�W�中的低6位相同。如“\ u025d�?/span>�Q?span lang="EN-US">0000 0010 0101 1101�Q�，转化后�ؓ“c99d�?/span>�Q?span lang="EN-US">1100 1001 1001 1101�Q�；

�Q?span lang="EN-US">3�Q�如果不�W�合上述两个规则�Q�则用三个字节表�C�。第一个字节以�?110�?/span>开��_��后四位�ؓ源字�W�的高四位；�W�二个字节以�?0�?/span>开��_��后六位�ؓ源字�W�中间的六位�Q�第三个字节�?span lang="EN-US">�?0�?/span>开��_��后六位�ؓ源字�W�的低六位；�?span lang="EN-US">“\u9da7�?/st1:chmetcnv>�Q?span lang="EN-US">1001 1101 1010 0111�Q�，转化�?span lang="EN-US">“e9b6a7�?/st1:chmetcnv>�Q?span lang="EN-US">1110 1001 1011 0110 1010 0111�Q�；

UCS �?span lang="EN-US"> UTF 的联�p?span lang="EN-US">

UTF-8��是�?span lang="EN-US">8位�ؓ单元�?span lang="EN-US">UCS�q�行�~�码

UTF-16�?span lang="EN-US">16位�ؓ单元�?span lang="EN-US">UCS�q�行�~�码

big endian�?span lang="EN-US">little endian

big endian�?span lang="EN-US">little endian�?span lang="EN-US">CPU处理多字节数的不同方式。例�?span lang="EN-US">�?/span>�?span lang="EN-US">�?/span>字的Unicode�~�码�?st1:chmetcnv w:st="on" tcsc="0" numbertype="1" negative="False" hasspace="False" sourcevalue="6" unitname="C">6C49。那么写到文仉��Ӟ��I�竟是将6C写在前面�Q�还是将49写在前面�Q�如果将6C写在前面�Q�就�?span lang="EN-US">big endian。如果将49写在前面�Q�就�?span lang="EN-US">little endian�?span lang="EN-US">

“endian�?/span>�q�个词出自《格列佛游记》。小人国的内战就源于吃鸡蛋时是究竟从大头(Big-Endian)敲开�q�是从小�?span lang="EN-US">(Little-Endian)敲开�Q�由此曾发生�q�六�ơ叛乱，一个皇帝送了命，另一个丢了王位�?span lang="EN-US">

我们一般将endian��译�?span lang="EN-US">�?/span>字节�?span lang="EN-US">�?/span>�Q�将big endian�?span lang="EN-US">little endian�U�C��?/span>大尾�?/span>�?span lang="EN-US">�?/span>��尾�?/span>�?span lang="EN-US">
=================================================
GB2312�?span lang="EN-US">GBK的子集，GBK�?span lang="EN-US">GB18030的子�?span lang="EN-US">
GBK是包括中日韩字符的大字符集合
如果是中文的�|�站推荐GB2312 GBK有时�q�是有点问题
��Z��避免所有�ؕ码问题，应该采用UTF-8�Q�将来要支持国际化也非常方便
UTF-8可以看作是大字符集，它包含了大部分文字的�~�码�?span lang="EN-US">
使用UTF-8的一个好处是其他地区的用��P��如香港台湾）无需安装��体中文支持就能正常观看你的文字而不会出��Cؕ码�?span lang="EN-US">

词条�Q?span lang="EN-US">UTF8
UTF8�q�不��是一�U�电脑编码，而是一�U�储存和传送的格式�Q�如前所�q�ͼ�每个Unicode/UCS字符都以 2�?span lang="EN-US">4�?span lang="EN-US">bytes来储存，看看以下的比较：

　　�?span lang="EN-US">"I am Chinese"��Z��
　　　�?span lang="EN-US">ANSI储存�Q?span lang="EN-US">12 Bytes
　　　�?span lang="EN-US">Unicode/UCS2储存�Q?span lang="EN-US">24 Bytes + 2 Bytes(header)
　　　�?span lang="EN-US">UCS4储存�Q?span lang="EN-US">48 Bytes + 4 Bytes(header)

　　�?span lang="EN-US">"我是中国�?span lang="EN-US">"��Z��
　　　�?span lang="EN-US">ANSI储存�Q?span lang="EN-US">10 Bytes
　　　�?span lang="EN-US">Unicode/UCS2储存�Q?span lang="EN-US">10 Bytes + 2 Bytes(header)
　　　�?span lang="EN-US">UCS4储存�Q?span lang="EN-US">20 Bytes + 4 Bytes(header)

　　由此可见直接�?span lang="EN-US">Unicode/UCS的原始�Ş式来储存是一�U�极大的��费�Q�而且也不利于互联�|�的传输(中文�E��ؓ合算一�?span lang="EN-US">^_^)�?span lang="EN-US">

　　有见及此�Q?span lang="EN-US">Unicode/UCS的压�~��Ş式－�Q?span lang="EN-US">UTF8出现了，套用官方�|�站的首句话�?span lang="EN-US">UTF-8 stands for Unicode Transformation Format-8. It is an octet (8-bit) lossless encoding of Unicode characters.』，�׃��UTF也适用于编�?span lang="EN-US">UCS�Q�故亦可�U�Cؓ�?span lang="EN-US">UCS transformation formats (UTF)�?span lang="EN-US">

　　UTF8是以8bits�?span lang="EN-US">1Bytes为编码的最基本单位�Q�当然也可以有基�?span lang="EN-US">16bits�?span lang="EN-US">32bits的�Ş式，分别�U�CؓUTF16�?span lang="EN-US">UTF32�Q�但目前用得不多�Q��?span lang="EN-US">UTF8则被�q�泛应用在文件储存和�|�络传输中�?span lang="EN-US">

�~�码原理

先看�q�个模板�Q?span lang="EN-US">

UCS-4 range (hex.) UTF-8 octet sequence (binary)
0000 0000-0000 007F 0xxxxxxx
0000 0080-0000 07FF 110xxxxx 10xxxxxx
0000 0800-0000 FFFF 1110xxxx 10xxxxxx 10xxxxxx

0001 0000-001F FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
0020 0000-03FF FFFF 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
0400 0000-7FFF FFFF 1111110x 10xxxxxx ... 10xxxxxx

�~�码步骤�Q?span lang="EN-US">
1) 首先��定需要多��个8bits(octets)
2) 按照上述模板填充每个octets的高�?span lang="EN-US">bits
3) 把字�W�的bits填充�?span lang="EN-US">x中，字符��序�Q�低�?span lang="EN-US">�?/span>高位�Q?span lang="EN-US">UTF8��序�Q�最后一�?span lang="EN-US">octet的最末位x�?/span>�W�一�?span lang="EN-US">octet最高位x
4) 解码的原理一栗��?span lang="EN-US">

实例�Q?span lang="EN-US">(留意每个bit的颜�Ԍ��_�体字�ؓ模板内容)

UCS-4 UTF-8
HEX BIN Bytes BIN HEX Bytes
0000 000A 00001010 4 00001010 0A 1
0000 0099 10011001 4 11000010 10011001 C2 99 2
0000 8D99 10001101 10011001 4 11101000 10110110 10011001 E8 B6 99 3

　　不知大家看懂了没有，其实不懂也无所谓，反正又不用自��q��Q�程式可以完全代功�?span lang="EN-US">

　　�?span lang="EN-US">UTF8格式储存的文件档首标识�ؓEF BB BF�?span lang="EN-US">

效率

　　从上�q�编码原理中得出的结论是�Q?span lang="EN-US">
　　　1.每个英文字母、数字所占的�I�间�?span lang="EN-US">1 Byte�Q?span lang="EN-US">
　　　2.泛欧语系、斯拉夫语字母占2 Bytes�Q?span lang="EN-US">
　　　3.汉字�?span lang="EN-US">3 Bytes�?span lang="EN-US">

　　由此可见UTF8对英文来说是个非常诱人的�Ҏ��Q�但对中文来说则不太合算�Q�无论用ANSI�q�是 Unicode/UCS2来编码都只用2 Bytes�Q�但�?span lang="EN-US">UTF8则需�?span lang="EN-US">3 Bytes�?span lang="EN-US">

　　以下是一些统计资料，昄��?span lang="EN-US">UTF8来储存文件每个字�W�所需的��^均字节：
　　　1.拉丁语系�q�_��?span lang="EN-US">1.1 Bytes�Q?span lang="EN-US">
　　　2.希腊文、俄文、阿拉伯文和希伯莱文�q�_��?span lang="EN-US">1.7 Bytes�Q?span lang="EN-US">
　　　3.其他大部份文字如中文、日文、韩文�?span lang="EN-US">Hindi(北印度语)用约3 Bytes�Q?span lang="EN-US">
　　　4.用超�q?span lang="EN-US">4 Bytes的都是些非常��用的文字符受��?span lang="EN-US">

词条�Q?span lang="EN-US">GB2312
字符必须�~�码后才能被计算机处理。计��机使用的缺省编码方式就是计��机的内码。早期的计算��Z��?span lang="EN-US">7位的ASCII�~�码�Q��ؓ了处理汉字，�E�序员设计了用于��体中文的GB2312和用于繁体中文的big5�?

GB2312支持的汉字太��?span lang="EN-US">1995�q�的汉字扩展规范GBK1.0收录�?span lang="EN-US">21886个符��P��它分为汉字区和图形符号区。汉字区包括21003个字�W��?span lang="EN-US">2000�q�的GB18030是取�?span lang="EN-US">GBK1.0的正式国家标准。该标准收录�?span lang="EN-US">27484个汉字，同时�q�收录了藏文、蒙文、维向ְ�文等主要的少数民族文字。现在的PC�q�_��必须支持GB18030�Q�对嵌入式��品暂不作要求。所以手机�?span lang="EN-US">MP3一般只支持GB2312�?

�?span lang="EN-US">ASCII�?span lang="EN-US">GB2312�?span lang="EN-US">GBK�?span lang="EN-US">GB18030�Q�这些编码方法是向下兼容的，卛_��一个字�W�在�q�些�Ҏ��中��L��有相同的�~�码�Q�后面的标准支持更多的字�W�。在�q�些�~�码中，英文和中文可以统一地处理。区分中文编码的�Ҏ��是高字节的最高位不�ؓ0。按照程序员的称��|��GB2312�?span lang="EN-US">GBK�?span lang="EN-US">GB18030都属于双字节字符�?span lang="EN-US"> (DBCS)�?

有的中文Windows的缺省内码还�?span lang="EN-US">GBK�Q�可以通过GB18030升��包升�U�到GB18030。不�q?span lang="EN-US">GB18030相对GBK增加的字�W�，普通�h是很隄��到的�Q�通常我们�q�是�?span lang="EN-US">GBK指代中文Windows内码�?

�q�里�q�有一些细节：

GB2312的原文还是区位码�Q�从��Z��码到内码�Q�需要在高字节和低字节上分别加上A0�?

�?span lang="EN-US">DBCS中，GB内码的存储格式始�l�是big endian�Q�即高位在前�?

GB2312的两个字节的最高位都是1。但�W�合�q�个条�g的码位只�?span lang="EN-US">128*128=16384个。所�?span lang="EN-US">GBK�?span lang="EN-US">GB18030的低字节最高位都可能不�?span lang="EN-US">1。不�q�这不媄�?span lang="EN-US">DBCS字符��的解析�Q�在��d��DBCS字符��时�Q�只要遇到高位�ؓ1的字节，��可以将下两个字节作��Z��个双字节�~�码�Q�而不用管低字节的高位是什么�?

肥仔 2008-11-07 22:43 发表评论

肥仔 — Fri, 07 Nov 2008 14:39:00 GMT

怎样�?a name="baidusnap2">汉字转换�?a name="baidusnap0">整数�Q�又怎样把该整数�q�原�?b>汉字

char * str="汉字";BYTE *pstr=(BYTE*)str;BYTE B=pstr[i];B ��是整数

一引入问题

代码 wchar_t a[3]=L�?/span>中国�?/span>�Q�编译时出错�Q�出错信息�ؓ�Q�数�l�越界。但wchar_t 是一个宽字节�c�d��Q�数�l?span lang="EN-US">a的大��应�?span lang="EN-US">6个字节，而两个汉字的�?span lang="EN-US">unicode码占4个字节，再加上一个结束符�Q�最�?span lang="EN-US">6个字节，所以应该不会越界�?span lang="EN-US">

��N��是编译器出问题了�Q?span lang="EN-US">

�?解决引入问题所需的知�?/span>

主要需两方面的知识�Q�第一个�ؓ字符��其是汉字的�~�码�Q�以及语�a�和工��L��支持情况�Q�第二个�?span lang="EN-US">vc/c++�?span lang="EN-US">MutiByte Charater Set �?span lang="EN-US"> Wide Character Set有关内存分配的情��c�?span lang="EN-US">

�?汉字的编码方式及�?span lang="EN-US">vc/c++中的处理

1.汉字�~�码方式的介�l?/span>

对英文字�W�的处理�Q?span lang="EN-US">7�?span lang="EN-US">ASCII码字�W�集中的字符卛_��满��使用需求，且英文字�W�在计算��Z��的输入及输出也非常简单，因此�Q�英文字�W�的输入、存储、内部处理和输出都可以只用同一个编码（�?span lang="EN-US">ASCII码）�?span lang="EN-US">

而汉字是一�U�象形文字，字数极多�Q�现代汉字中仅常用字��有六、七千个�Q��d��数高�?span lang="EN-US">5万个以上�Q�，且字形复杂，每一个汉字都�?span lang="EN-US">"韟뀁�Ş、义"三要素，同音字、异体字也很多，�q�些都给汉字的的计算机处理带来了很大的困难。要在计��机中处理汉字，必须解决以下几个问题�Q�首先是汉字的输入，卛_��何把�l�构复杂的方块汉字输入到计算��Z��去，�q�是汉字处理的关键；其次�Q�汉字在计算机内如何表示和存储？如何与西文兼容？最后，如何��汉字的处理�l�果从计��机内输出？

为此�Q�必��d��汉字代码化，卛_��汉字�q�行�~�码。对应于上述汉字处理�q�程中的输入、内部处理及输出�q�三个主要环节，每一个汉字的�~�码都包括输入码、交换码、内部码和字形码。在计算机的汉字信息处理�pȝ��中，处理汉字时要�q�行如下的代码�{换：输入码→交换码→内部码→字�Ş码�?span lang="EN-US">

(1)输入码：作用是，利用它和现有的标准西文键盘结合来输入汉字。输入码也称为外码。主要归为四�c�：

a) 数字�~�码�Q�数字编码是用等长的数字串�ؓ汉字逐一�~�号�Q�以�q�个�~�号作�ؓ汉字的输入码。例如，��Z��码、电报码�{�都属于数字�~�码�?span lang="EN-US">

b) 拼音码：拼音码是以汉字的读音为基��的输入办法�?span lang="EN-US">

c) 字�Ş码：字�Ş码是以汉字的字�Ş�l�构为基��的输入编码。例如，五笔字型码（王码�Q��?span lang="EN-US">

d) 韛_Ş码：韛_Ş码是兼顾汉字的读韛_��字�Ş的输入编码�?span lang="EN-US">

(2)交换码：用于汉字外码和内部码的交换。交换码的国家标准代号�ؓGB2312-80�?span lang="EN-US">

(3)内部码：内部码是汉字在计��机内的基本表示形式�Q�是计算机对汉字�q�行识别、存储、处理和传输所用的�~�码。内部码也是双字节编码，��国标码两个字节的最高位都置�?span lang="EN-US">"1"�Q�即转换成汉字的内部码�?span lang="EN-US">

(4)字�Ş码：字�Ş码是表示汉字字�Ş信息�Q�汉字的�l�构、�Ş状、笔划等�Q�的�~�码�Q�用来实现计��机�Ҏ��字的输出�Q�显�C�、打华ͼ��?span lang="EN-US">

2.VC中汉字的�~�码方式

vc/c++正是采用�?span lang="EN-US">GB2312内部码作为汉字的�~�码方式,因此vc/c++中的各种输入输出�Ҏ��Q�如cin/wcin,cout/wcout,scanf/wsanf,printf/wprintf...都是��Z��GB2312的，如果汉字的内码不是这�U�编码方式，那么利用上述各种�Ҏ��׃��会正��的解析汉字�?span lang="EN-US">

仔细观察ASCII字符表，从第161个字�W�开始，后面的字�W��ƈ不经��ؓ用户所使用�Q�负��g��未��用�?span lang="EN-US">GB2312�~�码方式充分利用�q�一�Ҏ��，��?span lang="EN-US">161-255�Q?span lang="EN-US">-95~-1�Q�之间的数值空间作为汉字的标识码。既�?span lang="EN-US">255-161 = 94不能满��汉字定w��的要求，��将每两个字�W��ƈ在一�?span lang="EN-US">(即一个汉字占两个字节)�Q�显�Ӟ��94* 94 =8836基本上已�l�满��了常用汉字个数的要求。计��机处理字符�Ӟ��当连�l�处理到两个大与160(�?span lang="EN-US">-95~-1)的字节时�Q�就认�ؓ�q�两个字节存放了一个汉字字�W�。可以用下面�?span lang="EN-US">Demo�E�序来模�?span lang="EN-US">vc/c++中输出汉字字�W�的�q�程�?span lang="EN-US">

unsigned char input[50];

cin>>input;

int flag=0;

for(int i =0 ;i < 50 ;i++)

{

if(input[i] > 0xa0 && input[i] != 0)

{

if(flag == 1)

{

cout<<"chinese character"<

flag = 0;

}

else

{

flag++;

}

else if(input[i] == 0)

{

break;

}

else

{

cout<<"english character"<

}

输入�Q?span lang="EN-US">Hello中国 �Q?span lang="EN-US">�?/span>中国�?/span>对应�?span lang="EN-US">GB2312内码为：214 208�Q?span lang="EN-US">185 250�Q?span lang="EN-US">

输出�Q?span lang="EN-US">english character

english character

chinese character

vc/c++中的英文字符仍然采用ASCII�~�码方式。可以设惻I��其他国家�E�序员利�?span lang="EN-US">vc/c++�~�写�E�序输入本国字符�Ӟ��vc/c++则会采用该国的字�W�编码方式来处理�q�些字符�?span lang="EN-US">

问题又��生了�Q�韩国的vc/c++�E�序在中国的vc/c++上运行时�Q�如果没有相应的内码库，则对韩语字符的显�C�有可能出现��q��。我个�h猜测�Q?span lang="EN-US">vc安装�E�序中应该带有不同国家的内码库，�q�样一来肯定会占用很大的空间。如果所有的国家使用�l�一的编码方式，且所有的�E�序设计语言和开发工具都支持�q�种�~�码方式该多好！而现实中�Q�确实已�l�有�q�种�~�码方式了，且许多新的语�a�也都支持�q�种�~�码方式�Q�如Java�?span lang="EN-US">C#�{�，它就是下面的Unicode�~�码

3.新的内码标准---Unicode

Unicode�Q�统1990�q�开始研发，1994�q�正式公布。随着计算机工作能力的增强�Q?span lang="EN-US">Unicode也在面世以来的十多年里得到普及。最新版本的 Unicode �?span lang="EN-US"> 2005�q?�?1�?/span>推出的Unicode 4.1.0 。另外，5.0 Beta已于2005�q?span lang="EN-US">12�?span lang="EN-US">12�?/st1:chsdate>推出�Q�以供各会员评�h�?span lang="EN-US">

Unicode �~�码�pȝ��可分为编码方式和实现方式两个层次�?span lang="EN-US">

�~�码方式�Q?span lang="EN-US">Unicode 的编码方式与 ISO 10646 的通用字符集（Universal Character Set�Q?span lang="EN-US">UCS�Q�概�늛�对应�Q�目前的用于实用�?span lang="EN-US"> Unicode 版本对应�?span lang="EN-US"> UCS-2�Q��?span lang="EN-US">16位的�~�码�I�间。也��是每个字符占用2个字节。这��L��Z��一共最多可以表�C?span lang="EN-US"> 216 个字�W�。基本满��_��U�语�a�的��用。实际上目前版本�?span lang="EN-US"> Unicode ��未填充满这16位编码，保留了大量空间作为特�D��用或��来扩展�?span lang="EN-US">

实现方式�Q?span lang="EN-US">Unicode 的实现方式不同于�~�码方式。一个字�W�的 Unicode �~�码是确定的。但是在实际传输�q�程中，�׃��不同�pȝ��q�_��的设计不一定一��_��以及��Z��节省�I�间的目的，�?span lang="EN-US"> Unicode �~�码的实现方式有所不同�?span lang="EN-US">Unicode 的实现方式称�?span lang="EN-US">Unicode转换格式�Q?span lang="EN-US">Unicode Translation Format�Q�简�U�Cؓ UTF�Q�。如�Q?span lang="EN-US">UTF-8 �~�码�Q�这是一�U�变长编码，它将基本7�?span lang="EN-US">ASCII字符仍用7位编码表�C�，占用一个字节（首位�?span lang="EN-US">0�Q�。而遇��C��其他 Unicode 字符混合的情况，��按一定算法�{换，每个字符使用1-3个字节编码，�q�利用首位�ؓ0�?span lang="EN-US">1�q�行识别�?span lang="EN-US">

Java�?span lang="EN-US">C#语言都是采用Unicode�~�码方式�Q�在�q�两�U�语�a�中定义一个字�W�，在内存中存放的就是这个字�W�的两字�?span lang="EN-US">Unicode码。如下所�C�：

char a='�?span lang="EN-US">'; => 内存中存攄��Unicode码�ؓ�Q?span lang="EN-US">25105

肥仔 2008-11-07 22:39 发表评论

Win32 字符�~�码

肥仔 — Fri, 07 Nov 2008 14:33:00 GMT

摘要: 毫无疑问�Q�我们都看到�q�像 TCHAR, std::string, BSTR �{�各�U�各��L��字符串类型，�q�有那些�?_tcs 开头的奇怪的宏。你也许正在盯着昄��器发愁。本指引��ȝ��引进各种字符�c�d��的目的，展示一些简单的用法�Q��ƈ告诉您在必要�Ӟ��如何实现各种字符串类型之间的转换。　　在第一部分�Q�我们将介绍3�U�字�W�编码类型。了解各�U�编码模式的工作方式是很重要的事情。即使你已经知道一个字�W�串是一个字�W�数�l�，�?.. 阅读全文

肥仔 2008-11-07 22:33 发表评论

肥仔 — Fri, 07 Nov 2008 14:33:00 GMT

我们看看他的定义�Q?span lang="EN-US">

#ifdef UNICODE
typedef wchar_t TCHAR;
#else
typedef char TCHAR;
#endif

我们说一些小问题�Q?span lang="EN-US">

VC6生成�?span lang="EN-US">console application�?span lang="EN-US">
int main(int argc, char* argv[])

VS C++ 2005生成的是

int _tmain(int argc, _TCHAR* argv[])

昄��Q�用_tmain更好�Q?span lang="EN-US">why?

我们也会常常看到如下一些字�W�类型，

肥仔 2008-11-07 22:33 发表评论

�l�基癄��----UTF-16

肥仔 — Fri, 07 Nov 2008 14:31:00 GMT

�l�基癄��Q�自��q��癄��全书

跌��{�?/span>: ��D��, 搜寻

UTF-16�?/span>Unicode的其中一个��用方式�?/span> UTF�?/span> Unicode/UCS Transformation Format�Q�即�?/span>Unicode转做某种格式的意思�?/span>

它定义于ISO/IEC 10646-1的附�?/span>Q�Q��?/span>RFC2781也定义了�怼�的做法�?/span>

�?/span>Unicode基本多文�U��^�?/span>定义的字�W�（无论是拉丁字母、汉字或其它文字或符��P��Q�一律��?/span>2字节储存。而在辅助�q�面定义的字�W�，会以代理�?/i>�Q?/span>surrogate pair�Q�的形式�Q�以两个2字节的值来储存�?/span>

UTF-16比�vUTF-8�Q�好处在于大部分字符都以固定长度的字�?/span> (2字节) 储存�Q�但UTF-16却无法兼容于ASCII�~�码�?/span>

[�~�辑] UTF-16的编码模�?/span>

UTF-16的大��ֺ�和小��ֺ�储存形式都在用。一般来��_��?/span>Macintosh制作或储存的文字使用大尾序格式，�?/span>Microsoft�?/span>Linux制作或储存的文字使用��尾序格式�?/span>

��Z��弄清�?/span>UTF-16文�g的大��尾序，�?/span>UTF-16文�g的开首，都会攄��一�?/span>U+FEFF字符作�ؓByte Order Mark (UTF-16LE �?/span> FF FE 代表�Q?/span>UTF-16BE �?/span> FE FF 代表)�Q�以昄��q�个文本文�g是以UTF-16�~�码�Q�其�?/span>U+FEFF字符�?/span>UNICODE中代表的意义�?/span>ZERO WIDTH NO-BREAK SPACE�Q�顾名思义�Q�它是个没有宽度也没有断字的�I�白�?/span>

以下的例子有三个字符�Q�「朱�?/span>(U+6731)、半角逗号 (U+002C)、「聿�?/span>(U+807F)�?/span>

使用 UTF-16 �~�码的例�?/span>

�~�码名称

�~�码�ơ序

�~�码

BOM

"�?/span>"

","

"�?/span>"

UTF-16LE

��尾�?/span>

31 67

2C 00

7F 80

UTF-16BE

大尾�?/span>

67 31

00 2C

80 7F

UTF-16

��尾序，包含BOM

FF FE

31 67

2C 00

7F 80

UTF-16

大尾序，包含BOM

FE FF

67 31

00 2C

80 7F

[�~�辑] UTF-16 �?span lang="EN-US"> UCS-2 的关�p?/span>

UTF-16可看成是UCS-2�?/span>爉��。在没有辅助�q�面字符前，UTF-16�?/span>UCS-2所指的是同一的意思。但当引入辅助��^面字�W�后�Q�就只称�?/span>UTF-16了。现在若有��Y件声�U�自己支�?/span>UCS-2�~�码�Q�那其实是暗指它不能支持辅助�q�面字符的委婉语�?/span>

肥仔 2008-11-07 22:31 发表评论

肥仔 — Fri, 07 Nov 2008 14:14:00 GMT

�q�是一��程序员写给�E�序员的��味�ȝ��。所谓趣��x��指可以比较轻村֜�了解一些原来不清楚的概念，增进知识�Q�类��g��?span lang=EN-US>RPG游戏的升�U�。整理这��文章的动机是两个问题：

问题一�Q?

使用Windows��C��本的“另存�?span lang=EN-US>”�Q�可以在GBK�?span lang=EN-US>Unicode�?span lang=EN-US>Unicode big endian�?span lang=EN-US>UTF-8�q�几�U�编码方式间�怺�转换。同��h��txt文�g�Q?span lang=EN-US>Windows是怎样识别�~�码方式的呢�Q?span lang=EN-US>

我很早前��发�?span lang=EN-US>Unicode�?span lang=EN-US>Unicode big endian�?span lang=EN-US>UTF-8�~�码�?span lang=EN-US>txt文�g的开头会多出几个字节�Q�分别是FF�?span lang=EN-US>FE�Q?span lang=EN-US>Unicode�Q?span lang=EN-US>,FE�?span lang=EN-US>FF�Q?span lang=EN-US>Unicode big endian�Q?span lang=EN-US>,EF�?span lang=EN-US>BB�?span lang=EN-US>BF�Q?span lang=EN-US>UTF-8�Q�。但�q�些标记是基于什么标准呢�Q?span lang=EN-US>

问题二：

最�q�在�|�上看到一�?span lang=EN-US>ConvertUTF.c�Q�实��C��UTF-32�?span lang=EN-US>UTF-16�?span lang=EN-US>UTF-8�q�三�U�编码方式的�怺�转换。对�?span lang=EN-US>Unicode(UCS2)�?span lang=EN-US>GBK�?span lang=EN-US>UTF-8�q�些�~�码方式�Q�我原来��׃��解。但�q�个�E�序让我有些�p�涂�Q�想不�v�?span lang=EN-US>UTF-16�?span lang=EN-US>UCS2有什么关�p�R�?

查了查相兌��料，�ȝ��这些问题弄清楚了，��带也了解了一�?span lang=EN-US>Unicode的细节。写成一��文章，送给有过�c�M��疑问的朋友。本文在写作时尽量做到通俗易懂�Q�但要求读者知道什么是字节�Q�什么是十六�q�制�?span lang=EN-US>

0�?span lang=EN-US>big endian�?span lang=EN-US>little endian

big endian�?span lang=EN-US>little endian�?span lang=EN-US>CPU处理多字节数的不同方式。例�?span lang=EN-US>“�?span lang=EN-US>”字的Unicode�~�码�?st1:chmetcnv unitname="C" sourcevalue="6" hasspace="False" negative="False" numbertype="1" tcsc="0" w:st="on">6C49。那么写到文仉��Ӟ��I�竟是将6C写在前面�Q�还是将49写在前面�Q�如果将6C写在前面�Q�就�?span lang=EN-US>big endian。还是将49写在前面�Q�就�?span lang=EN-US>little endian�?span lang=EN-US>

“endian”�q�个词出自《格列佛游记》。小人国的内战就源于吃鸡蛋时是究竟从大头(Big-Endian)敲开�q�是从小�?span lang=EN-US>(Little-Endian)敲开�Q�由此曾发生�q�六�ơ叛乱，其中一个皇帝送了命，另一个丢了王位�?span lang=EN-US>

我们一般将endian��译�?span lang=EN-US>“字节�?span lang=EN-US>”�Q�将big endian�?span lang=EN-US>little endian�U�C��“大尾”�?span lang=EN-US>“��尾”�?span lang=EN-US>

1、字�W�编码、内码，��带介绍汉字�~�码

字符必须�~�码后才能被计算机处理。计��机使用的缺省编码方式就是计��机的内码。早期的计算��Z��?span lang=EN-US>7位的ASCII�~�码�Q��ؓ了处理汉字，�E�序员设计了用于��体中文的GB2312和用于繁体中文的big5�?span lang=EN-US>

GB2312(1980�q?span lang=EN-US>)一共收录了7445个字�W�，包括6763个汉字和682个其它符受��汉字区的内码范围高字节�?span lang=EN-US>B0-F7�Q�低字节�?span lang=EN-US>A1-FE�Q�占用的码位�?span lang=EN-US>72*94=6768。其中有5个空位是D7FA-D7FE�?span lang=EN-US>

GB2312支持的汉字太��?span lang=EN-US>1995�q�的汉字扩展规范GBK1.0收录�?span lang=EN-US>21886个符��P��它分为汉字区和图形符号区。汉字区包括21003个字�W��?span lang=EN-US>2000�q�的GB18030是取�?span lang=EN-US>GBK1.0的正式国家标准。该标准收录�?span lang=EN-US>27484个汉字，同时�q�收录了藏文、蒙文、维向ְ�文等主要的少数民族文字。现在的PC�q�_��必须支持GB18030�Q�对嵌入式��品暂不作要求。所以手机�?span lang=EN-US>MP3一般只支持GB2312�?span lang=EN-US>

�?span lang=EN-US>ASCII�?span lang=EN-US>GB2312�?span lang=EN-US>GBK�?span lang=EN-US>GB18030�Q�这些编码方法是向下兼容的，卛_��一个字�W�在�q�些�Ҏ��中��L��有相同的�~�码�Q�后面的标准支持更多的字�W�。在�q�些�~�码中，英文和中文可以统一地处理。区分中文编码的�Ҏ��是高字节的最高位不�ؓ0。按照程序员的称��|��GB2312�?span lang=EN-US>GBK�?span lang=EN-US>GB18030都属于双字节字符�?span lang=EN-US> (DBCS)�?span lang=EN-US>

有的中文Windows的缺省内码还�?span lang=EN-US>GBK�Q�可以通过GB18030升��包升�U�到GB18030。不�q?span lang=EN-US>GB18030相对GBK增加的字�W�，普通�h是很隄��到的�Q�通常我们�q�是�?span lang=EN-US>GBK指代中文Windows内码�?span lang=EN-US>

�q�里�q�有一些细节：

·         GB2312的原文还是区位码�Q�从��Z��码到内码�Q�需要在高字节和低字节上分别加上A0�?span lang=EN-US>

·         �?span lang=EN-US>DBCS中，GB内码的存储格式始�l�是big endian�Q�即高位在前�?span lang=EN-US>

·         GB2312的两个字节的最高位都是1。但�W�合�q�个条�g的码位只�?span lang=EN-US>128*128=16384个。所�?span lang=EN-US>GBK�?span lang=EN-US>GB18030的低字节最高位都可能不�?span lang=EN-US>1。不�q�这不媄�?span lang=EN-US>DBCS字符��的解析�Q�在��d��DBCS字符��时�Q�只要遇到高位�ؓ1的字节，��可以将下两个字节作��Z��个双字节�~�码�Q�而不用管低字节的高位是什么�?span lang=EN-US>

2�?span lang=EN-US>Unicode�?span lang=EN-US>UCS�?span lang=EN-US>UTF

前面提到�?span lang=EN-US>ASCII�?span lang=EN-US>GB2312�?span lang=EN-US>GBK�?span lang=EN-US>GB18030的编码方法是向下兼容的。�?span lang=EN-US>Unicode只与ASCII兼容�Q�更准确地说�Q�是�?span lang=EN-US>ISO-8859-1兼容�Q�，�?span lang=EN-US>GB码不兼容。例�?span lang=EN-US>“�?span lang=EN-US>”字的Unicode�~�码�?st1:chmetcnv unitname="C" sourcevalue="6" hasspace="False" negative="False" numbertype="1" tcsc="0" w:st="on">6C49�Q��?span lang=EN-US>GB码是BABA�?span lang=EN-US>

Unicode也是一�U�字�W�编码方法，不过它是由国际组�l�设计，可以容纳全世界所有语�a�文字的编码方案�?span lang=EN-US>Unicode的学名是"Universal Multiple-Octet Coded Character Set"�Q�简�U�CؓUCS�?span lang=EN-US>UCS可以看作�?span lang=EN-US>"Unicode Character Set"的羃写�?span lang=EN-US>

�Ҏ��l�基癄��全书(http://zh.wikipedia.org/wiki/)的记载：历史上存在两个试囄��立设�?span lang=EN-US>Unicode的组�l�，卛_��际标准化�l�织�Q?span lang=EN-US>ISO�Q�和一个��Y件制造商的协会（unicode.org�Q��?span lang=EN-US>ISO开发了ISO 10646��目�Q?span lang=EN-US>Unicode协会开发了Unicode��目�?span lang=EN-US>

�?span lang=EN-US>1991�q�前后，双方都认识到世界不需要两个不兼容的字�W�集。于是它们开始合�q�双方的工作成果�Q��ƈ为创立一个单一�~�码表而协同工作。从Unicode2.0开始，Unicode��目采用了与ISO 10646-1相同的字库和字码�?span lang=EN-US>

目前两个��目仍都存在�Q��ƈ独立地公布各自的标准�?span lang=EN-US>Unicode协会现在的最新版本是2005�q�的Unicode 4.1.0�?span lang=EN-US>ISO的最新标准是10646-3:2003�?span lang=EN-US>

UCS规定了怎么用多个字节表�C�各�U�文字。怎样传输�q�些�~�码�Q�是�?span lang=EN-US>UTF(UCS Transformation Format)规范规定的，常见�?span lang=EN-US>UTF规范包括UTF-8�?span lang=EN-US>UTF-7�?span lang=EN-US>UTF-16�?span lang=EN-US>

IETF�?span lang=EN-US>RFC2781�?span lang=EN-US>RFC3629�?span lang=EN-US>RFC的一贯风��|��清晰、明快又不失严�}地描�q�C��UTF-16�?span lang=EN-US>UTF-8的编码方法。我��L��C��?span lang=EN-US>IETF�?span lang=EN-US>Internet Engineering Task Force的羃写。但IETF负责�l�护�?span lang=EN-US>RFC�?span lang=EN-US>Internet上一切规范的基础�?span lang=EN-US>

3�?span lang=EN-US>UCS-2�?span lang=EN-US>UCS-4�?span lang=EN-US>BMP

UCS有两�U�格式：UCS-2�?span lang=EN-US>UCS-4。顾名思义�Q?span lang=EN-US>UCS-2��是用两个字节编码，UCS-4��是�?span lang=EN-US>4个字节（实际上只用了31位，最高位必须�?span lang=EN-US>0�Q�编码。下面让我们做一些简单的数学游戏�Q?span lang=EN-US>

UCS-2�?span lang=EN-US>2^16=65536个码位，UCS-4�?span lang=EN-US>2^31=2147483648个码位�?span lang=EN-US>

UCS-4�Ҏ��最高位�?span lang=EN-US>0的最高字节分�?span lang=EN-US>2^7=128�?span lang=EN-US>group。每�?span lang=EN-US>group再根据次高字节分�?span lang=EN-US>256�?span lang=EN-US>plane。每�?span lang=EN-US>plane�Ҏ��W?span lang=EN-US>3个字节分�?span lang=EN-US>256�?span lang=EN-US> (rows)�Q�每行包�?span lang=EN-US>256�?span lang=EN-US>cells。当然同一行的cells只是最后一个字节不同，其余都相同�?span lang=EN-US>

group 0�?span lang=EN-US>plane 0被称�?span lang=EN-US>Basic Multilingual Plane, �?span lang=EN-US>BMP。或者说UCS-4中，高两个字节�ؓ0的码位被�U�C��BMP�?span lang=EN-US>

��?span lang=EN-US>UCS-4�?span lang=EN-US>BMP��L��前面的两个零字节��得��C��UCS-2。在UCS-2的两个字节前加上两个零字节，��得��C��UCS-4�?span lang=EN-US>BMP。而目前的UCS-4规范中还没有��M��字符被分配在BMP之外�?span lang=EN-US>

4�?span lang=EN-US>UTF�~�码

UTF-8��是�?span lang=EN-US>8位�ؓ单元�?span lang=EN-US>UCS�q�行�~�码。从UCS-2�?span lang=EN-US>UTF-8的编码方式如下：

UCS-2�~�码(16�q�制)

UTF-8 字节��?span lang=EN-US>(二进�?span lang=EN-US>)

0000 - 007F

0xxxxxxx

0080 - 07FF

110xxxxx 10xxxxxx

0800 - FFFF

1110xxxx 10xxxxxx 10xxxxxx

例如“�?span lang=EN-US>”字的Unicode�~�码�?st1:chmetcnv unitname="C" sourcevalue="6" hasspace="False" negative="False" numbertype="1" tcsc="0" w:st="on">6C49�?st1:chmetcnv unitname="C" sourcevalue="6" hasspace="False" negative="False" numbertype="1" tcsc="0" w:st="on">6C49�?span lang=EN-US>0800-FFFF之间�Q�所以肯定要�?span lang=EN-US>3字节模板了：1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是�Q?span lang=EN-US>0110 110001 001001�Q?用这个比�Ҏ��依次代替模板中的x�Q�得刎ͼ�11100110 10110001 10001001�Q�即E6 B1 89�?span lang=EN-US>

读者可以用��C��本测试一下我们的�~�码是否正确�?span lang=EN-US>

UTF-16�?span lang=EN-US>16位�ؓ单元�?span lang=EN-US>UCS�q�行�~�码。对于小�?span lang=EN-US>0x10000�?span lang=EN-US>UCS码，UTF-16�~�码��q��?span lang=EN-US>UCS码对应的16位无�W�号整数。对于不��于0x10000�?span lang=EN-US>UCS码，定义了一个算法。不�q�由于实际��用的UCS2�Q�或�?span lang=EN-US>UCS4�?span lang=EN-US>BMP必然��于0x10000�Q�所以就目前而言�Q�可以认�?span lang=EN-US>UTF-16�?span lang=EN-US>UCS-2基本相同。但UCS-2只是一个编码方案，UTF-16却要用于实际的传输，所以就不得不考虑字节序的问题�?span lang=EN-US>

5�?span lang=EN-US>UTF的字节序�?span lang=EN-US>BOM

UTF-8以字节�ؓ�~�码单元�Q�没有字节序的问题�?span lang=EN-US>UTF-16以两个字节�ؓ�~�码单元�Q�在解释一�?span lang=EN-US>UTF-16文本前，首先要弄清楚每个�~�码单元的字节序。例如收��C��?span lang=EN-US>“�?span lang=EN-US>”�?span lang=EN-US>Unicode�~�码�?span lang=EN-US>594E�Q?span lang=EN-US>“�?span lang=EN-US>”�?span lang=EN-US>Unicode�~�码�?span lang=EN-US>4E59。如果我们收�?span lang=EN-US>UTF-16字节��?span lang=EN-US>“594E”�Q�那么这�?span lang=EN-US>“�?span lang=EN-US>”�q�是“�?span lang=EN-US>”�Q?span lang=EN-US>

Unicode规范中推荐的标记字节��序的方法是BOM�?span lang=EN-US>BOM不是“Bill Of Material”�?span lang=EN-US>BOM表，而是Byte Order Mark�?span lang=EN-US>BOM是一个有点小聪明的想法：

�?span lang=EN-US>UCS�~�码中有一个叫�?span lang=EN-US>"ZERO WIDTH NO-BREAK SPACE"的字�W�，它的�~�码�?span lang=EN-US>FEFF。�?span lang=EN-US>FFFE�?span lang=EN-US>UCS中是不存在的字符�Q�所以不应该出现在实际传输中�?span lang=EN-US>UCS规范��我们在传输字节流前，先传输字�W?span lang=EN-US>"ZERO WIDTH NO-BREAK SPACE"�?span lang=EN-US>

�q�样如果接收者收�?span lang=EN-US>FEFF�Q�就表明�q�个字节��是Big-Endian的；如果收到FFFE�Q�就表明�q�个字节��是Little-Endian的。因此字�W?span lang=EN-US>"ZERO WIDTH NO-BREAK SPACE"又被�U�C��BOM�?span lang=EN-US>

UTF-8不需�?span lang=EN-US>BOM来表明字节顺序，但可以用BOM来表明编码方式。字�W?span lang=EN-US>"ZERO WIDTH NO-BREAK SPACE"�?span lang=EN-US>UTF-8�~�码�?span lang=EN-US>EF BB BF�Q�读者可以用我们前面介绍的编码方法验证一下）。所以如果接收者收��C��EF BB BF开头的字节��，��q��道这�?span lang=EN-US>UTF-8�~�码了�?span lang=EN-US>

Windows��是使用BOM来标记文本文件的�~�码方式的�?span lang=EN-US>

6、进一步的参考资�?span lang=EN-US>

本文主要参考的资料�?span lang=EN-US> "Short overview of ISO-IEC 10646 and Unicode" (http://www.nada.kth.se/i18n/ucs/unicode-iso10646-oview.html)�?span lang=EN-US>

我还找了两篇看上��M��错的资料�Q�不�q�因为我开始的疑问都找��C��{�案�Q�所以就没有看：

"Understanding Unicode A general introduction to the Unicode Standard" (http://scripts.sil.org/cms/scripts/page.php?site_id=nrsi&item_id=IWS-Chapter04a)
"Character set encoding basics Understanding character set encodings and legacy encodings" (http://scripts.sil.org/cms/scripts/page.php?site_id=nrsi&item_id=IWS-Chapter03)

我写�q?span lang=EN-US>UTF-8�?span lang=EN-US>UCS-2�?span lang=EN-US>GBK�怺�转换的��Y件包�Q�包括��?span lang=EN-US>Windows API和不使用Windows API的版本。以后有旉��的话�Q�我会整理一下放到我的个��Z��上(http://fmddlmyy.home4u.china.com)�?span lang=EN-US>

我是��x��楚所有问题后才开始写�q�篇文章的，原以��Z��会儿��p��写好。没惛_��考虑措辞和查证细节花费了很长旉��Q�竟然从下午1:30写到9:00。希望有读者能从中受益�?span lang=EN-US>

附录1 再说说区位码、GB2312、内码和代码��?br>有的朋友�Ҏ��章中�q�句话还有疑问：
“GB2312的原文还是区位码�Q�从��Z��码到内码�Q�需要在高字节和低字节上分别加上A0�?#8221;

我再详细解释一下：

“GB2312的原�?#8221;是指国家1980�q�的一个标准《中华�h民共和国国家标准信息交换用汉字编码字�W�集基本�?nbsp;GB 2312-80》。这个标准用两个数来�~�码汉字和中文符受��第一个数�U�Cؓ“�?#8221;�Q�第二个数称�?#8220;�?#8221;。所以也�U�Cؓ��Z��码�?-9区是中文�W�号�Q?6-55区是一�U�汉字，56-87区是二��汉字。现在Windows也还有区位输入法�Q�例如输�?601得到“�?#8221;。（�q�个��Z��输入法可以自动识�?6�q�制的GB2312�?0�q�制的区位码�Q�也��是说输入B0A1同样会得�?#8220;�?#8221;。）

内码是指操作�pȝ��内部的字�W�编码。早期操作系�l�的内码是与语言相关的。现在的Windows在系�l�内部支持Unicode�Q�然后用代码��适应各种语言�Q?#8220;内码”的概念就比较模糊了。微软一般将�~�省代码��|��定的�~�码说成是内码�?br>
内码�q�个词汇�Q��ƈ没有什么官方的定义�Q�代码页也只是微软这个公司的叫法。作为程序员�Q�我们只要知道它们是什么东西，没有必要�q�多地考证�q�些名词�?br>
所谓代码页(code page)��是针对一�U�语�a�文字的字�W�编码。例如GBK的code page是CP936�Q�BIG5的code page是CP950�Q�GB2312的code page是CP20936�?br>
Windows中有�~�省代码��늚�概念�Q�即�~�省用什么编码来解释字符。例如Windows的记事本打开了一个文本文�Ӟ��里面的内�Ҏ��字节��：BA、BA、D7、D6。Windows应该��L��么解释它呢�Q?br>
是按照Unicode�~�码解释、还是按照GBK解释、还是按照BIG5解释�Q�还是按照ISO8859-1去解释？如果按GBK去解释，��׃��得到“汉字”两个字。按照其它编码解释，可能找不到对应的字符�Q�也可能扑ֈ�错误的字�W�。所�?#8220;错误”是指与文本作者的本意不符�Q�这时就产生了�ؕ码�?br>
�{�案是Windows按照当前的缺省代码页去解释文本文仉��的字节流。缺省代码页可以通过控制面板的区域选项讄��。记事本的另存�ؓ中有一��ANSI�Q�其实就是按照缺省代码页的编码方法保存�?br>
Windows的内码是Unicode�Q�它在技术上可以同时支持多个代码��c��只要文件能说明自己使用什么编码，用户又安装了对应的代码页�Q�Windows��p��正确昄��Q�例如在HTML文�g中就可以指定charset�?br>
有的HTML文�g作者，特别是英文作者，认�ؓ世界上所有�h都��用英文，在文件中不指定charset。如果他使用�?x80-0xff之间的字�W�，中文Windows又按照缺省的GBK去解释，��׃��出现��q��。这时只要在�q�个html文�g中加上指定charset的语句，例如�Q?br>
如果原作者��用的代码��和ISO8859-1兼容�Q�就不会出现��q��了�?br>
再说��Z��码，啊的��Z��码是1601�Q�写�?6�q�制�?x10,0x01。这和计��机�q�泛使用的ASCII�~�码冲突。�ؓ了兼�?0-7f的ASCII�~�码�Q�我们在��Z��码的高、低字节上分别加上A0。这�?#8220;�?#8221;的编码就成�ؓB0A1。我们将加过两个A0的编码也�U�CؓGB2312�~�码�Q�虽然GB2312的原文根本没提到�q�一炏V�?span lang=EN-US style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体; mso-bidi-font-family: arial">

肥仔 2008-11-07 22:14 发表评论

使用 UTF-16 �~�码的例�?/span>
�~�码名称	�~�码�ơ序	�~�码
�~�码名称	�~�码�ơ序	BOM	"�?/span>"	","	"�?/span>"
UTF-16LE	��尾�?/span>		31 67	2C 00	7F 80
UTF-16BE	大尾�?/span>		67 31	00 2C	80 7F
UTF-16	��尾序，包含BOM	FF FE	31 67	2C 00	7F 80
UTF-16	大尾序，包含BOM	FE FF	67 31	00 2C	80 7F

UCS-2�~�码(16�q�制)	UTF-8 字节��?span lang=EN-US>(二进�?span lang=EN-US>)
0000 - 007F	0xxxxxxx
0080 - 07FF	110xxxxx 10xxxxxx
0800 - FFFF	1110xxxx 10xxxxxx 10xxxxxx

在线国产欧美,国产丝袜美腿一区二区三区,噜噜爱69成人精品

unicode utf-8 gb18030 gb2312 gbk各种�~�码�Ҏ��

GBK, UCS和UTF8�怺�转换

字符�~�码方式基本知识

Win32 字符�~�码

�l�基癄���----UTF-16

�l�基癄����Q�自��q��癄���全书

[�~�辑] UTF-16的编码模�?/span>

[�~�辑] UTF-16 �?span lang="EN-US"> UCS-2 的关�p?/span>

0�?span lang=EN-US>big endian�?span lang=EN-US>little endian

1、字�W�编码、内码，��带介绍汉字�~�码

2�?span lang=EN-US>Unicode�?span lang=EN-US>UCS�?span lang=EN-US>UTF

3�?span lang=EN-US>UCS-2�?span lang=EN-US>UCS-4�?span lang=EN-US>BMP

4�?span lang=EN-US>UTF�~�码

5�?span lang=EN-US>UTF的字节序�?span lang=EN-US>BOM

6、进一步的参考资�?span lang=EN-US>

�l�基癄��----UTF-16

�l�基癄��Q�自��q��癄��全书