<本文PDF文檔下載>std::locale
通過前面兩節的知識,我們知道了在C/C++中,字符(串)和寬字符(串)之間的轉換不是簡單的,固定的數學關系,寬窄轉換依賴于本地化策略集(locale)。換句話說,一個程序在運行之前并不知道系統的本地化策略集是什么,程序只有在運行之后才通過locale獲得當時的本地化策略集。
C有自己的locale函數,我們這里直接介紹C++的locale類。
先討論locale的構造函數:
locale() throw();
這個構造函數是獲得當前程序的locale,用法如下:
std::locale app_loc = std::locale();
或者(這是構造對象的兩種表示方式,后同)
std::locale app_loc;
另外一個構造函數是:
explicit locale(const char* name);
這個構造函數以name的名字創建新的locale。重要的locale對象有:
std::locale sys_loc(""); //獲得當前系統環境的locale
std::locale C_loc("C"); 或者 std::locale C_loc = std::locale::classic(); //獲得C定義locale
std::locale old_loc = std::locale::global(new_loc); //將new_loc設置為當前全局locale,并將原來的locale返回給old_loc
除了這些,其它的name具體名字依賴于C++編譯器和操作系統,比如Linux下gcc中文系統的locale名字為"zh_CN.UTF-8",中文Windows可以用"chs"(更加完整的名字可以用name()函數查看)。
mbstowcs()和wcstombs()
這兩個C運行時庫函數依賴于全局locale進行轉換,所以,使用前必須先設置全局locale。
std::locale已經包含在<iostream>中了,再加上我們需要用到的C++字符串,所以包含<string>。
我們先看窄到寬的轉換函數:
const std::wstring s2ws(const std::string& s)
{
std::locale old_loc =
std::locale::global(std::locale(""));
const char* src_str = s.c_str();
const size_t buffer_size = s.size() + 1;
wchar_t* dst_wstr = new wchar_t[buffer_size];
wmemset(dst_wstr, 0, buffer_size);
mbstowcs(dst_wstr, src_str, buffer_size);
std::wstring result = dst_wstr;
delete []dst_wstr;
std::locale::global(old_loc);
return result;
}
我們將全局locale設置為系統locale,并保存原來的全局locale在old_loc中。
在制定轉換空間緩存大小的時候,考慮如下:char是用1個或多個對象,也就是1個或者多個字節來表示各種符號:比如,GB2312用1個字節表示數字和字母,2個字節表示漢字;UTF-8用一個字節表示數字和字母,3個字節表示漢字,4個字節表示一些很少用到的符號,比如音樂中G大調符號等。wchar_t是用1個對象(2字節或者4字節)來表示各種符號。因此,表示同樣的字符串,寬字符串的大小(也就是wchar_t對象的數量)總是小于或者等于窄字符串大小(char對象數量)的。+1是為了在最后預留一個值為0的對象,以便讓C風格的char或者wchar_t字符串自動截斷——這當然是寬串大小等于窄串大小的時候才會用上的,大部分時候,字符串早在前面某個轉換完畢的位置就被0值對象所截斷了。
最后我們將全局locale設置回原來的old_loc。
窄串到寬串的轉換函數:
const std::string ws2s(const std::wstring& ws)
{
std::locale old_loc =
std::locale::global(std::locale(""));
const wchar_t* src_wstr = ws.c_str();
size_t buffer_size = ws.size() * 4 + 1;
char* dst_str = new char[buffer_size];
memset(dst_str, 0, buffer_size);
wcstombs(dst_str ,src_wstr, buffer_size);
std::string result = dst_str;
delete []dst_str;
std::locale::global(old_loc);
return result;
}
這里考慮轉換空間緩存大小的策略正好相反,在最極端的情況下,所有的wchar_t都需要4個char來表示,所以最大的可能就是4倍加1。
這兩個函數在VC和gcc中都能正常運行(MinGW因為前面說到的原因不支持寬字符的正常使用),在VC中會給出不安全的警告,這是告訴給那些弄不清寬窄轉換實質的人的警告,對于了解到目前這些知識的你我來說,這就是啰嗦了。
posted on 2010-06-26 11:17
lf426 閱讀(2980)
評論(1) 編輯 收藏 引用 所屬分類:
語言基礎、數據結構與算法