字符集相關問題
字符集目前有兩個大的類別:本地字符集和國際字符集,其中每一類別的字符集又有多個
不同的字符編碼實例。比如:本地字符集中基本上對于每一個不同的地區(qū)和國家就會形成一個
屬于自己的字符集(ascii, latin-1, chs等),國際字符集中同樣包括多種不同的編碼方案
(utf8, utf16等)。
那么在C/C++程序中如何完成上述字符集之間的轉換工作呢?分成兩種情況:
1. 通過const char *cstr使用開發(fā)環(huán)境中的編輯器輸入字符串常量"中國",如下:
const char *cstr = "中國";
這樣一來cstr所指向的字符串內存中保存的則是本地字符編碼下所形成的字符串,也
就是說,上面的cstr中存儲著chs字符編碼集中的字符;
2. 通過const wchar_t *wstr使用開發(fā)環(huán)境中的編輯器輸入字符串常量"中國",如下:
const wchar_t *wstr = L"中國";
這樣一來wstr所指向的字符串內存中保存的則是國際字符編碼(在VC++下是ucs2,
在gcc下是ucs4)下所形成的字符串,也就是說,上面的wstr中存儲著utf16字符編
碼集中的字符;
那么如何將cstr轉換成為wstr呢?可以通過C語言中的標準轉換函數(shù)mbstowcs來完成該工
作,此時需要注意的是如果直接使用mbstowcs進行轉換會得到一個錯誤的結果,并不能成功
的完成轉換成為國際寬字符的要求,這是為什么呢?在C/C++語言標準中定義了其運行時的
字符集環(huán)境為"C",也就是ASCII字符集的一個子集,那么mbstowcs在工作時會將cstr中所包
含的字符串看作是ASCII編碼的字符,而不認為是一個包含有chs編碼的字符串,所以他會將
每一個中文拆成2個ASCII編碼進行轉換,這樣得到的結果就是會形成4個wchar_t的字符組成
的串,那么如何才能夠讓mbstowcs正常工作呢?在調用mbstowcs進行轉換之間必須明確的告
訴mbstowcs目前cstr串中包含的是chs編碼的字符串,通過setlocale( LC_ALL, "chs" )函數(shù)
調用來完成,需要注意的是這個函數(shù)會改變整個應用程序的字符集編碼方式,必須要通過重
新調用setlocale( LC_ALL, "C" )函數(shù)來還原,這樣就可以保證mbstowcs在轉換時將cstr中
的串看作是中文串,并且轉換成為2個wchar_t字符,而不是4個。
字符集目前有兩個大的類別:本地字符集和國際字符集,其中每一類別的字符集又有多個
不同的字符編碼實例。比如:本地字符集中基本上對于每一個不同的地區(qū)和國家就會形成一個
屬于自己的字符集(ascii, latin-1, chs等),國際字符集中同樣包括多種不同的編碼方案
(utf8, utf16等)。
那么在C/C++程序中如何完成上述字符集之間的轉換工作呢?分成兩種情況:
1. 通過const char *cstr使用開發(fā)環(huán)境中的編輯器輸入字符串常量"中國",如下:
const char *cstr = "中國";
這樣一來cstr所指向的字符串內存中保存的則是本地字符編碼下所形成的字符串,也
就是說,上面的cstr中存儲著chs字符編碼集中的字符;
2. 通過const wchar_t *wstr使用開發(fā)環(huán)境中的編輯器輸入字符串常量"中國",如下:
const wchar_t *wstr = L"中國";
這樣一來wstr所指向的字符串內存中保存的則是國際字符編碼(在VC++下是ucs2,
在gcc下是ucs4)下所形成的字符串,也就是說,上面的wstr中存儲著utf16字符編
碼集中的字符;
那么如何將cstr轉換成為wstr呢?可以通過C語言中的標準轉換函數(shù)mbstowcs來完成該工
作,此時需要注意的是如果直接使用mbstowcs進行轉換會得到一個錯誤的結果,并不能成功
的完成轉換成為國際寬字符的要求,這是為什么呢?在C/C++語言標準中定義了其運行時的
字符集環(huán)境為"C",也就是ASCII字符集的一個子集,那么mbstowcs在工作時會將cstr中所包
含的字符串看作是ASCII編碼的字符,而不認為是一個包含有chs編碼的字符串,所以他會將
每一個中文拆成2個ASCII編碼進行轉換,這樣得到的結果就是會形成4個wchar_t的字符組成
的串,那么如何才能夠讓mbstowcs正常工作呢?在調用mbstowcs進行轉換之間必須明確的告
訴mbstowcs目前cstr串中包含的是chs編碼的字符串,通過setlocale( LC_ALL, "chs" )函數(shù)
調用來完成,需要注意的是這個函數(shù)會改變整個應用程序的字符集編碼方式,必須要通過重
新調用setlocale( LC_ALL, "C" )函數(shù)來還原,這樣就可以保證mbstowcs在轉換時將cstr中
的串看作是中文串,并且轉換成為2個wchar_t字符,而不是4個。