woaidongmao

文章均收錄自他人博客，但不喜標題前加-[轉(zhuǎn)貼]，因其丑陋，見諒！~

隨筆 - 1469, 文章 - 0, 評論 - 661, 引用 - 0

數(shù)據(jù)加載中……

GBK, UCS和UTF8相互轉(zhuǎn)換

最近學(xué)習(xí)了下編碼

以下地址可以很好的學(xué)習(xí)到相關(guān)的知識

http://dev.csdn.net/develop/article/69/69883.shtm

http://dev.csdn.net/develop/article/72/72888.shtm

其中講了UTF8的編碼

當(dāng)要表示的內(nèi)容是　7位　的時候就用一個字節(jié)：0******* 　第一個0為標志位，剩下的空間正好可以表示ASCII　0－127　的內(nèi)容。
　　當(dāng)要表示的內(nèi)容在　8　到　11　位的時候就用兩個字節(jié)：110***** 10****** 　第一個字節(jié)的110和第二個字節(jié)的10為標志位。
　　當(dāng)要表示的內(nèi)容在　12　到　16　位的時候就用三個字節(jié)：1110***** 10****** 10****** 　　　和上面一樣，第一個字節(jié)的1110和第二、三個字節(jié)的10都是標志位，剩下的空間正好可以表示漢字。
　　以此類推：
四個字節(jié)：11110**** 10****** 10****** 10******
　　五個字節(jié)：111110*** 10****** 10****** 10****** 10******
　　六個字節(jié)：1111110** 10****** 10****** 10****** 10****** 10******
　　.............................................

我自己寫了轉(zhuǎn)換的代碼如下

UCS和UTF8相互轉(zhuǎn)換

int UCS2UTF8(wchar_t* pUCS,unsigned char* pUTF8)
{
int UCSlen = 0, UTF8len = 0, i;
unsigned char* pTempUTF8 = NULL;
UCSlen = wcslen(pUCS);

if(pUCS == NULL || pUTF8 == NULL)
return -1;

pTempUTF8 = pUTF8;
for(i = 0; i < UCSlen; i++)
{
if(pUCS[i] <= 0x007F)//1 byte 0xxxxxxx
{
   *(pTempUTF8++) = LOBYTE(pUCS[i]);
   UTF8len++;
}
else if(pUCS[i] <=0x07FF)//2 bytes 110xxxxx 10xxxxxx
{
   *(pTempUTF8++) = HIBYTE(pUCS[i] << 2) & 0x3F | 0xC0;
   *(pTempUTF8++) = LOBYTE(pUCS[i] & 0x3f) | 0x80;
   UTF8len += 2;
}
else//3 bytes 1110xxxx 10xxxxxx 10xxxxxx
{
   *(pTempUTF8++) = HIBYTE(pUCS[i] >> 4) | 0xe0;
   *(pTempUTF8++) = HIBYTE(pUCS[i] << 2) & 0x3F | 0x80;
   *(pTempUTF8++) = LOBYTE(pUCS[i]) & 0x3F | 0x80;
   UTF8len += 3;
}
}

return UTF8len;
}
int UTF82UCS(unsigned char *pUTF8, wchar_t *pUCS)
{
int UCSlen = 0, i;
unsigned char *pTempUCS = NULL;
unsigned char *pTempUTF8 = NULL;

if(pUCS == NULL || pUTF8 == NULL)
return -1;
UCSlen = MultiByteToWideChar(CP_UTF8,0,pUTF8,-1,NULL,0);
UCSlen--;
pTempUCS = (char*)pUCS;
pTempUTF8 = pUTF8;
for(i = 0; i < UCSlen; i++)
{
if((*pTempUTF8) <= 0x7F) //1 byte
{
   *(pTempUCS + 1) = 0x00;
   *pTempUCS = *(pTempUTF8++);
   pTempUCS += 2;
}
else if((*pTempUTF8) >= 0xC0 && (*pTempUTF8) <= 0xDF)//2 bytes
{
   *(pTempUCS + 1) = ((*pTempUTF8) >> 2) & 0x07;
   *pTempUCS = ((*pTempUTF8) << 6) | (*(pTempUTF8 + 1) & 0x3F);
   pTempUTF8 += 2;
   pTempUCS += 2;
}
else//3 bytes
{
   *(pTempUCS + 1) = ((*pTempUTF8) << 4) | ((*(pTempUTF8 + 1) >> 2) & 0x0F);
   pTempUTF8++;
   *pTempUCS = ((*pTempUTF8) << 6) | (*(pTempUTF8+1) & 0x3F);
   pTempUTF8 += 2;
   pTempUCS += 2;
}
}
return UCSlen;
}

其他編碼和UCS轉(zhuǎn)換

int ToUCS(unsigned char *p,wchar_t* pUCS,int codepage)
{
int len = 0;

if(pUCS == NULL || p == NULL)
return -1;
len = MultiByteToWideChar(codepage,0,p,-1,NULL,0);
MultiByteToWideChar(codepage,0,p,-1,pUCS,len);
return len;
}

int UCSTo(wchar_t* pUCS,char *p,int codepage)
{
int len = 0;

if(pUCS == NULL || pBIG5 == NULL)
return -1;

len = WideCharToMultiByte(codepage,0,pUCS,-1,NULL,0,NULL,NULL);
WideCharToMultiByte(codepage,0,pUCS,-1,p,len,NULL,NULL);
len--;
return len;
}

這里的codepage在MSDN定義如下

Bit	Code page	Description
ANSI
0	1252	Latin 1
1	1250	Latin 2: Eastern Europe
2	1251	Cyrillic
3	1253	Greek
4	1254	Turkish
5	1255	Hebrew
6	1256	Arabic
7	1257	Baltic
8	1258	VietNam
9 - 15		Reserved for ANSI
ANSI and OEM
16	874	Thai
17	932	Japanese, Shift-JIS
18	936	Chinese: Simplified chars—PRC and Singapore
19	949	Korean Unified Hangeul Code (Hangeul TongHabHyung Code)
20	950	Chinese: Traditional chars—Hong Kong SAR, PRC and Taiwan
21	1361	Korean (Johab)
22 - 29		Reserved for alternate ANSI and OEM
30 - 31		Reserved by system.
OEM
32 - 46		Reserved for OEM
47	1258	VietNam
48	869	IBM Greek
49	866	MS-DOS Russian
50	865	MS-DOS Nordic
51	864	Arabic
52	863	MS-DOS Canadian French
53	862	Hebrew
54	861	MS-DOS Icelandic
55	860	MS-DOS Portuguese
56	857	IBM Turkish
57	855	IBM Cyrillic; primarily Russian
58	852	Latin 2
59	775	Baltic
60	737	Greek; former 437 G
61	708	Arabic; ASMO 708
62	850	Western European/Latin 1
63	437	US

posted on 2009-09-10 23:13 肥仔閱讀(2056) 評論(0) 編輯收藏引用所屬分類: 字符編碼

只有注冊用戶登錄后才能發(fā)表評論。
【推薦】100%開源！大型工業(yè)跨平臺軟件C++源碼提供，建模，組態(tài)！

相關(guān)文章: 字符編碼筆記：ASCII，Unicode和UTF-8 寫入UTF-16文件的時候，不要忘記在文件頭添加BOM 判斷字符串是否UTF8編碼 EUC 怎樣學(xué)習(xí)使用libiconv庫 unicode utf-8 gb18030 gb2312 gbk各種編碼對比 GB18030編碼研究以及GBK、GB18030與Unicode的映射 GBK, UCS和UTF8相互轉(zhuǎn)換 C程序?qū)崿F(xiàn)漢字內(nèi)碼與GB碼 C++的三種字符編碼方式

網(wǎng)站導(dǎo)航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

woaidongmao

GBK, UCS和UTF8相互轉(zhuǎn)換

UCS和UTF8相互轉(zhuǎn)換

其他編碼和UCS轉(zhuǎn)換

導(dǎo)航

常用鏈接

留言簿(10)

隨筆分類

隨筆檔案

搜索

最新評論

閱讀排行榜

評論排行榜