在VC++的世界里,MS比較鼓勵使用_UNICODE,std::wstring。而在Web, XML則提倡用UTF8。當在C++的程序里要保存/讀取XML數據,就存在wstring與string之間的轉換。C++11里提供方便的轉換工具(參照:
std::wstring_convert處理UTF8 )
有人說,MS引入_UNICODE就是個錯誤,STL引入wstring也是個錯誤;而鼓勵使用UTF8 string做為程序內部string存儲格式。在與GUI交互的時候,轉換為wstring(假定GUI使用的是_UNICODE)。這樣做至少有一個好處:相對的可以減少程序運行時占用內存的大小。當然現在內存資源也不是個什么大問題,我更關心的是保存/讀取XML數據的效率。
VC++默認構造std::string的時候是ANSI格式,如
std::string nstr = "123,我是誰?我愛十八大!";
為了構造個UTF8的string,總不能這樣寫吧
inline std::string ToUTF8(const wchar_t* wideStr)
{
std::wstring_convert<std::codecvt_utf8<wchar_t>> conv;
return conv.to_bytes(wideStr);
}
std::string nstr = ToUTF8(L"123,我是誰?我愛十八大!");
這樣寫能Work,但總感覺有問題。
VC++ 2008 SP1提供了個編譯選項,可以默認就構造出UTF8的string,不需要上述轉換。
#pragma execution_character_set("utf-8")
這樣string就是utf8。
那wstring的編碼格式會變嗎?若變,會變成啥呢?
std::wstring str = L"123,我是誰?";
另外C++11定義了u8,類似L
std::string nstr = u8"123,我是誰?";
但VS2010SP1并不支持。
注:
以上說的都是VC++的事兒。而Clang,據說默認就是utf8(有待驗證)。