昨天發(fā)布的http協(xié)議嗅探插件源碼,里面有UTF-8轉(zhuǎn)GB2312的一個(gè)函數(shù)BOOL UTF8_2_GB2312(const void * pIn,int inLen,char *pOut,int *outLen ),這里介紹下。
目前很多的中文網(wǎng)頁(yè)都采用UTF-8或GB2312編碼,UTF-8和GB2312都是字符集的編碼,具體格式這里不做討論,這里主要是看看如何用把UTF-8轉(zhuǎn)為GB2312的。在vc的開(kāi)發(fā)平臺(tái)里UTF-8漢字會(huì)顯示成亂碼,需要轉(zhuǎn)換成GB2312才能顯示。
大概的思路是這樣的,先把UTF8轉(zhuǎn)換成UNICODE,再把UNICODE轉(zhuǎn)換成GB2312,為什么會(huì)這樣想呢,因?yàn)閣indows
API里提供了多字節(jié)轉(zhuǎn)寬字節(jié)(MultiByteToWideChar),寬字節(jié)轉(zhuǎn)多字節(jié)(WideCharToMultiByte)的方法。好了,下
面是具體的API使用:MultiByteToWideChar(CP_UTF8, 0, (LPCTSTR)pIn,inLen, pWchar,
len),第一個(gè)參數(shù)是CP_UTF8,這樣就把UTF8轉(zhuǎn)成UNICODE了。你再用WideCharToMultiByte就能把UNICODE轉(zhuǎn)成
GB2312了。
如果你是在MFC下,,直接用CString構(gòu)造就能把UNICODE轉(zhuǎn)成GB2312,構(gòu)造函數(shù)是有類型轉(zhuǎn)換功能滴。。。
函數(shù)源碼,VC6編譯通過(guò):
BOOL UTF8_2_GB2312(const void * pIn,int inLen,char *pOut,int *outLen )
{
ASSERT( ( (NULL==pIn) ||( NULL==pOut) ) );
int len=MultiByteToWideChar(CP_UTF8, 0, (LPCTSTR)pIn, -1, NULL,0);
wchar_t *pWchar = new wchar_t[len+1];
if (NULL==pWchar)
return FALSE;
memset(pWchar,0,(len+1)* sizeof(wchar_t));
MultiByteToWideChar(CP_UTF8, 0, (LPCTSTR)pIn,inLen, pWchar, len);
CString str=CString(pWchar);
ASSERT(str.GetLength()>(*outLen));//not enough output buff
*outLen = str.GetLength();
memcpy(pOut,str.GetBuffer(0),*outLen);
delete[]pWchar;
return TRUE;
}