在VC++的世界里,MS比較鼓勵(lì)使用_UNICODE,std::wstring。而在Web, XML則提倡用UTF8。當(dāng)在C++的程序里要保存/讀取XML數(shù)據(jù),就存在wstring與string之間的轉(zhuǎn)換。C++11里提供方便的轉(zhuǎn)換工具(參照:
std::wstring_convert處理UTF8 )
有人說(shuō),MS引入_UNICODE就是個(gè)錯(cuò)誤,STL引入wstring也是個(gè)錯(cuò)誤;而鼓勵(lì)使用UTF8 string做為程序內(nèi)部string存儲(chǔ)格式。在與GUI交互的時(shí)候,轉(zhuǎn)換為wstring(假定GUI使用的是_UNICODE)。這樣做至少有一個(gè)好處:相對(duì)的可以減少程序運(yùn)行時(shí)占用內(nèi)存的大小。當(dāng)然現(xiàn)在內(nèi)存資源也不是個(gè)什么大問(wèn)題,我更關(guān)心的是保存/讀取XML數(shù)據(jù)的效率。
VC++默認(rèn)構(gòu)造std::string的時(shí)候是ANSI格式,如
std::string nstr = "123,我是誰(shuí)?我愛(ài)十八大!";
為了構(gòu)造個(gè)UTF8的string,總不能這樣寫吧
inline std::string ToUTF8(const wchar_t* wideStr)
{
std::wstring_convert<std::codecvt_utf8<wchar_t>> conv;
return conv.to_bytes(wideStr);
}
std::string nstr = ToUTF8(L"123,我是誰(shuí)?我愛(ài)十八大!");
這樣寫能Work,但總感覺(jué)有問(wèn)題。
VC++ 2008 SP1提供了個(gè)編譯選項(xiàng),可以默認(rèn)就構(gòu)造出UTF8的string,不需要上述轉(zhuǎn)換。
#pragma execution_character_set("utf-8")
這樣string就是utf8。
那wstring的編碼格式會(huì)變嗎?若變,會(huì)變成啥呢?
std::wstring str = L"123,我是誰(shuí)?";
另外C++11定義了u8,類似L
std::string nstr = u8"123,我是誰(shuí)?";
但VS2010SP1并不支持。
注:
以上說(shuō)的都是VC++的事兒。而Clang,據(jù)說(shuō)默認(rèn)就是utf8(有待驗(yàn)證)。