Enic — Mon, 19 Nov 2012 11:31:00 GMT

使用fstream操作文�g的时候突然发��C��文字�W�无法识别了�Q�最后发现是local的问题！�Q�！
//////////////////////////////////////////////////////////////

对C++ Local的经典分�?/h2>

文章地址�Q?http://kittsoft.xp3.biz/?p=86

“�q�个问题比你惌��中复�?#8221;
�Q�我也学下BS的风��|��虽然�q�句话是我自�׃��时想说的。^^�Q?br />从字�W�到整数
char是一�U�整数类型，�q�句话的含义是，char所能表�C�的字符在C/C++中都是整数类型。好�Q�接下来�Q�很多文章就会�D��Z��个典型例子，比如�Q?#8217;a' 的数值就�?×61。这�U�说法对吗？如果你细心的读过K&R和BS对于C和C++描述的原著，你就会马上反驳道�Q?×61只是’a'的ASCII ��|��q�没有�Q何规定C/C++的char值必��d��应ASCII。C/C++甚至没有规定char占几位，只是规定了sizeof(char)�{�于1�?br />当然�Q�目前大部分情况下，char�?位的�Q��ƈ且，在ASCII范围内的��|��与ASCII对应�?br />本地化策略集�Q�locale�Q?br />“��?#8217;a'��译�?×61的整数�?#8221;�Q?#8220;��ASCII范围内的�~�码与char的整数值对应�v�?#8221;�Q�类��D��L��规定�Q�是特定�pȝ��和特定编译器制定的，C/C++中有个特定的名词来描�q�这�U�规定的集合�Q�本地化�{�略集（locale。也有翻译成“现场”�Q�。而翻�?#8212;—也就是代码�{换（codecvt�Q? 只是�q�个集合中的一个，C++中定义�ؓ�{�略�Q�facet。也有翻译�ؓ“刻面”�Q?br />C/C++的编译策�?br />“本地化策略集”是个很好的概念，可惜在字�W�和字符串这个层面上�Q�C/C++�q�不使用�Q�C++的locale通常只是影响��（stream�Q�）�Q�C/C++使用更直接简单的�{�略�Q�硬�~�码�?br />��单的��_��字符�Q�串�Q�在�E�序文�g�Q�可执行文�g�Q�非源文�Ӟ��中的表示�Q�与在程序执行中在内存中的表�C�Z��致。考虑两种情况�Q?br />A、char c = 0×61;
B、char c = ‘a’;
情况A下，�~�译器可以直接认识作为整数的c�Q�但是在情况B下，�~�译器必��d��’a'��译成整数。编译器的策略也很简单，��是直接��d��字符�Q�串�Q�在源文件中的编码数倹{��比如：
const char* s = “中文abc”;
�q�段字符串在GB2312�Q�Windows 936�Q�，也就是我们的windows默认中文�pȝ��源文件中的编码�ؓ�Q?br />0xD6   0xD0   0xCE 0xC4 0×61 0×62 0×63
在UTF-8�Q�也��是Linux默认�pȝ��源文件中的编码�ؓ�Q?br />0xE4   0xB8   0xAD   0xE6   0×96   0×87   0×61   0×62   0×63
一般情况下�Q�编译器会忠实于源文件的�~�码为s赋��|��例外的情冉|��如VC会自作聪明的把大部分其他�c�d��~�码的字�W�串转换成GB2312�Q�除了像UTF-8 without signature�q�样的幸存者）�?br />�E�序在执行的时候，s也就保持是这��L��~�码�Q�不会再做其他的转换�?br />宽字�W? wchar_t
正如char没有规定大小�Q�wchar_t同样没有标准限定�Q�标准只是要求一个wchar_t可以表示��M��pȝ��所能认识的字符�Q�在win32 中，wchar_t�?6位；Linux中是32位。wchar_t同样没有规定�~�码�Q�因为Unicode的概忉|��们后面才解释�Q�所以这里只是提一下，�? win32中，wchar_t的编码是UCS-2BE�Q�而Linux中是UTF-32BE�Q�等价于UCS-4BE�Q�，不过��单的��_��?6位以内，一个字 �W�的�q?�U�编码值是一��L��。因此：
const wchar_t* ws = L”中文abc”;
的编码分别�ؓ�Q?br />0x4E2D   0×6587    0×0061   0×0062   0×0063                                                //win32�Q?6�?br />0x00004E2D   0×00006587    0×00000061   0×00000062   0×00000063        //Linux�Q?2�?br />大写的L是告诉编译器�Q�这是宽字符丌Ӏ�所以，�q�时候是需要编译器�Ҏ��locale来进行翻译的�?br />比如�Q�在Windows环境中，�~�译器的��译�{�略是GB2312到UCS-2BE�Q�Linux环境中的�{�略是UTF-8到UTF-32BE�?br />�q�时候就要求源文件的�~�码与编译器的本地化�{�略集中代码��译的策略一��_��例如VC只能��d��GB2312的源代码�Q�这里还是例外，VC太自作聪明了 �Q�会��很多其他代码在�~�译时自动�{换成GB2312�Q�，而gcc只能��d��UTF-8的源代码�Q�这里就有个��尬�Q�MinGW�q�行win32下，所以只�? GB2312�pȝ��才认�Q�而MinGW却用gcc�~�写�Q�所以自己只认UTF-8�Q�所以结果就是，MinGW的宽字符被废掉了�Q��?br />宽字�W�（�Ԍ��q��译器��译�Q�还是被��编码进�E�序文�g中�?/p>

Unicode和UCS
Unicode和UCS是两个独立的�l�织分别制定的一套编码标准，但是因�ؓ历史的原因，�q�两套标准是完全一��L��。Unicode�q�个词用得比较多的原因可能是因�ؓ比较�Ҏ��C��Q�如果没有特别的声明�Q�在本文所提及的Unicode和UCS��是一个意思。Unicode的目标是建立一套可以包含�h�c�L��有语�a��? 字符号你惛_��到想不到的各�U�东西的�~�码�Q�其�~�码定w��甚至预留了火星语以及银河�p�M��外语�a�的空�?#8212;—开个玩�W�，反正��单的��_��Unicode�~�码集��够的大，如果用计��机单位来表�C�，其数量比3个字节大一些，不到4个字节�?br />Unicode和UTF
因�ؓUnicode包含的内容太多，其编码在计算��Z��的表�C�方法就成�ؓ了一个有必要研究的问题。传�l�编码，比如标准�?位ASCII�Q�在计算��Z��的表�C�方法就是占一个字节的�?位，�q�似乎是不需要解释就�W�合大家习惯的表�C�方法。但是当今Unicode的��L��辑ֈ�32位（计算机的最��单位是字节�Q�所以大�? 字节�Q�就只能臛_��?字节表示�Q�，对于大部分常用字�W�，比如Unicode�~�码只占一个字节大��的��p��字母�Q�占两个字节大小汉字�Q�都�?个字节来储存太奢侈了。另外，如果都用4字节直接表示�Q�就不可避免的出��Cؓ0的字节。而我们知道，在C语言中，0×00的字节就�?#8217;\0′�Q�表�C�的是一个字�W�串�Q�char 字符�Ԍ��非wchar_t�Q�的�l�束�Q�换句话��_��C风格的char字符串无法表�C�Unicode�?br />因�ؓ�c�M��的种�U�问题，为Unicode在计��机中的�~�码�Ҏ��出现了，�q�就是UTF�Q�所对应的，为UCS�~�码实现的方式也有自��q��说法。一般来��_��UTF- x�Q�x表示�q�套�~�码一个单位至��占用x位，因�ؓUnicode最长达�?2位，所以UTF-x通常是变长的——除了UTF-32�Q�而UCS-y表示一个单位就占用y个字节，所以能表示当今Unicode的UCS-y只有UCS-4�Q�但是因为历史的原因�Q�当Unicode�q�没那么庞大的时候，2个字节��够表 �C�，所以有UCS-2�Q�现在看来，UCS-2所能表�C�的Unicode只是当今Unicode的一个子集�?br />也就是说�Q�如果某�U�编码，能根据一定的规则��法�Q�得到Unicode�~�码�Q�那么这�U�编码方式就可以�U�C��为UTF�?br />UTF-8和Windows GB2312
UTF-8是一�?#8220;聪明”的编码，可能�?�Q?�Q?�Q?个字节表�C�。通过UTF-8的算法，每一个字节表�C�的信息都很明确�Q�这是不是某个Unicode�~? 码的�W�一个字节；如果是第一个字节，�q�是一个几位Unicode�~�码。这�U?#8220;聪明”被称为UTF-8的自我同步，也是UTF-8成�ؓ�|�络传输标准�~�码的原因�?br />另外�Q�UTF-8也不会出�?字节�Q�所以可以表�C�Zؓchar字符�Ԍ��所以可以成为系�l�的�~�码。Linux�pȝ��默认使用UTF-8�~�码�?br />Windows GB2312一般自�U�CؓGB2312�Q�其实真正的名字应该是Windows Codepage 936�Q�这也是一�U�变长的�~�码�Q?个字节表�C�Z��l�的ASCII部分�Q�汉字部分是两个字节的GBK�Q�国标扩�Q�展�Q�，拼音声母�Q�。Codepage 936也可以表�C�Zؓchar字符�Ԍ��是中文Windows�pȝ��的默认编码�?br />我们在第1节中看到�?br />const char* s = “中文abc”;
在Windows中的�~�码��是Codepage 936�Q�在Linux中的�~�码��是UTF-8�?br />需要注意的是，Codepage 936不像UTF�Q�跟Unicode没有换算的关�p�，所以只能通过“代码��?#8221;技术查表对应�?br />UTF-16和UCS-2
UTF-16�?个字节或�?个字节表�C�。在2个字节大��的时候，跟UCS-2是一��L��。UTF-16不像UTF-8�Q�没有自我同步机�Ӟ��所以，�~�码大位在前�q�是��位在前�Q�就成了见仁见智的问题。我们在�W?节中�Q?#8220;�?#8221;的UCS-2BE�Q�因为是两个字节�Q�所以也��是UTF-16BE�Q�编码是0x4E2D�Q? �q�里的BE��是大位在后的意思（也就是小位在前了�Q�，对应的，如果是UCS-2LE�Q�编码就成了0x2D4E�?br />Windows中的wchar_t��是采用UCS-2BE�~�码。需要指出的是，C++标准中对wchar_t的要求是要能表示所有系�l�能识别的字�W�。Windows自称支持Unicode�Q�但是其wchar_t却不能表�C�所有的Unicode�Q�由此违背了C++标准�?br />UTF-32和UCS-4
UTF-32在目前阶�D늭�价于UCS-4�Q�都用定长的4个字节表�C�。UTF-32同样存在BE和LE的问题。Linux的wchar_t�~�码��是UTF- 32BE。在16位以内的时候，UTF-32BE的后两位�Q�前两位�?×00 0×00�Q�等价于UTF-16BE也就�{��h于UCS-2BE
BOM
��Z��说明一个文仉��用的是什么编码，在文件最开始的部分�Q�可以有BOM�Q�比�?xFE 0xFF表示UTF-16BE�Q?xFF 0xFE 0×00 0×00表示UTF-32LE。UTF-8原本是不需要BOM的，因�ؓ其自我同步的�Ҏ��，但是��Z��明确说明�q�是UTF-8�Q�而不是让文本�~�辑器去猜）�Q�也可以加上UTF-8的BOM�Q?xEF 0xBB 0xBF
以上内容都讲�q�得很概略，详细信息��h��阅维基百�U�相兛_��宏V�?/p>

std::locale
通过前面两节的知识，我们知道了在C/C++中，字符�Q�串�Q�和宽字�W�（�Ԍ��之间的�{换不是简单的�Q�固定的数学关系�Q�宽�H��{换依赖于本地化策略集 �Q�locale�Q�。换句话��_��一个程序在�q�行之前�q�不知道�pȝ��的本地化�{�略集是什么，�E�序只有在运行之后才通过locale获得当时的本地化�{�略集�?br />C有自��q��locale函数�Q�我们这里直接介�l�C++的locale�c�R�?br />先讨论locale的构造函敎ͼ�
locale() throw();
�q�个构造函数是获得当前�E�序的locale�Q�用法如下：
std::locale app_loc = std::locale();
或者（�q�是构造对象的两种表示方式�Q�后同）
std::locale app_loc;
另外一个构造函数是�Q?br />explicit locale(const char* name);
�q�个构造函��C��name的名字创建新的locale。重要的locale对象有：
std::locale sys_loc(“”);      //获得当前�pȝ��环境的locale
std::locale C_loc(“C”);      或�?nbsp;     std::locale C_loc = std::locale::classic();      //获得C定义locale
std::locale old_loc = std::locale::global(new_loc);      //��new_loc讄��为当前全局locale�Q��ƈ��原来的locale�q�回�l�old_loc
除了�q�些�Q�其它的name具体名字依赖于C++�~�译器和操作�pȝ��Q�比如Linux下gcc中文�pȝ��的locale名字�?#8221;zh_CN.UTF-8″�Q�中文Windows可以�?#8221;chs”�Q�更加完整的名字可以用name()函数查看�Q��?br />mbstowcs()和wcstombs()
�q�两个C�q�行时库函数依赖于全局locale�q�行转换�Q�所以，使用前必��d��讄��全局locale�?br />std::locale已经包含�?lt;iostream>中了�Q�再加上我们需要用到的C++字符�Ԍ��所以包�?lt;string>�?br />我们先看�H�到宽的转换函数�Q?/p>

const std::wstring s2ws(const std::string& s)
{
std::locale old_loc = std::locale::global(std::locale(""));
const char* src_str = s.c_str();
const size_t buffer_size = s.size() + 1;
wchar_t* dst_wstr = new wchar_t[buffer_size];
wmemset(dst_wstr, 0, buffer_size);
mbstowcs(dst_wstr, src_str, buffer_size);
std::wstring result = dst_wstr;
delete []dst_wstr;
std::locale::global(old_loc);
return result;
}

我们��全局locale讄��为系�l�locale�Q��ƈ保存原来的全局locale在old_loc中�?br />在制定�{换空间缓存大��的时候，考虑如下�Q�char是用1个或多个对象�Q�也��是1个或者多个字节来表示各种�W�号�Q�比如，GB2312�?个字节表�C�数字和字母�Q?个字节表�C�汉字；UTF-8用一个字节表�C�数字和字母�Q?个字节表�C�汉字，4个字节表�C�Z��些很��用到的�W�号�Q�比如音乐中G大调�W�号�{��? wchar_t是用1个对象（2字节或�?字节�Q�来表示各种�W�号。因此，表示同样的字�W�串�Q�宽字符串的大小�Q�也��是wchar_t对象的数量）��L��于�? 者等于窄字符串大��（char对象数量�Q�的�?1是�ؓ了在最后预留一个��gؓ0的对象，以便让C风格的char或者wchar_t字符串自动截�?#8212;—�q�当�? 是宽串大��等于窄串大��的时候才会用上的�Q�大部分时候，字符串早在前面某个�{换完毕的位置��p��0值对象所截断了�?br />最后我们将全局locale讄��回原来的old_loc�?br />�H�串到宽串的转换函数�Q?/p>

const std::string ws2s(const std::wstring& ws)
{
std::locale old_loc = std::locale::global(std::locale(""));
const wchar_t* src_wstr = ws.c_str();
size_t buffer_size = ws.size() * 4 + 1;
char* dst_str = new char[buffer_size];
memset(dst_str, 0, buffer_size);
wcstombs(dst_str ,src_wstr, buffer_size);
std::string result = dst_str;
delete []dst_str;
std::locale::global(old_loc);
return result;
}

�q�里考虑转换�I�间�~�存大小的策略正好相反，在最极端的情况下�Q�所有的wchar_t都需�?个char来表�C�，所以最大的可能��是4倍加1�?br />�q�两个函数在VC和gcc中都能正常运行（MinGW因�ؓ前面说到的原因不支持宽字�W�的正常使用�Q�，在VC中会�l�出不安全的警告�Q�这是告诉给那些弄不清宽�H��{换实质的人的警告�Q�对于了解到目前�q�些知识的你我来��_��q�就是啰嗦了�?/p>

locale和facet
C++的locale框架比C更完备。C++除了一个笼�l�本地策略集locale�Q�还可以为locale指定具体的策略facet�Q�甚臛_��以用自己定义�? facet��L��造一个现有的locale产生一个新的locale。如果有一个facet�c�NewFacet需要添加到某个old_loc中�Ş成新 new_loc�Q�需要另外一个构造函敎ͼ�通常的做法是�Q?br />std::locale new_loc(old_loc, new NewFacet);
标准库里的标准facet都具有自��q��有的功能�Q�访问一个locale对象中特定的facet需要��用模板函数use_facet�Q?br />template const Facet& use_factet(const locale&);
换一�U�说法，use_facet把一个facet�c�d��例化成了对象�Q�由此就可以使用�q�个facet对象的成员函数�?br />codecvt
codecvt��是一个标准facet。在C++的设计框枉��Q�这是一个通用的代码�{换模�?#8212;—也就是说�Q��ƈ不是仅仅为宽�H��{换制定的�?br />templat class std::codecvt: public locale, public codecvt_base{…};
I表示内部�~�码�Q�E表示外部�~�码�Q�State是不同�{换方式的标识�Q�如果定义如下类型：
typedef std::codecvt CodecvtFacet;
那么CodecvtFacet��是一个标准的宽窄转换facet�Q�其中mbstate_t是标准宽�H��{换的State�?br />内部�~�码和外部编�?br />我们考虑�W?节中提到的C++�~�译器读取源文�g时候的情�Ş�Q�当��d��L”中文abc”的时候，外部�~�码�Q�也��是源文件的�~�码�Q�是GB2312或者UTF-8 的char�Q�而编译器必须��其��译为UCS-2BE或者UTF-32BE的wchar_t�Q�这也就是程序的内部�~�码。如果不是宽字符�Ԍ��内外�~�码都是 char�Q�也��׃��需要�{换了。类似的�Q�当C++��d��文�g的时�? �Q�就会可能需要到内外�~�码转换。事实上�Q�codecvt��正是被文�g��缓存basic_filebuf所使用的。理解这一点很重要�Q�原因会在下一��节�? 到�?br />CodecvtFacet的in()和out()
因�ؓ在CodecvtFacet中，内部�~�码讄��为wchar_t�Q�外部编码设�|��ؓchar�Q��{换模式是标准宽窄转换mbstate_t�Q�所以，�c�L��? in()��是从char标准转换到wchar_t�Q�out()��是从wchar_t标准转换到char。这��成了我们正需要的内外转换函数�?br />result in(State& s, const E* from, const E* from_end, const E*& from_next, I* to, I* to_end, I*& to_next) const;
result out(State& s, const I* from, const I* from_end, const I*& from_next, E* to, E* to_end, E*& to_next) const;
其中�Q�s是非const引用�Q�保存着转换位移状态信息。这里需要重点强调的是，因�ؓ转换的实际工作交�l�了�q�行时库�Q�也��是��_��转换可能不是在程序的主进�E? 中完成的�Q�而�{换工作依赖于查询s的��|��因此�Q�如果s在�{换结束前析构�Q�就可能抛出�q�行时异常。所以，最安全的办法是�Q�将s讄��为全局变量�Q?br />const�?个指针分别是待�{换字�W�串的�v点，�l�点�Q�和出现错误时候的停点�Q�的下一个位�|�）�Q�另�?个指针是转换目标字符串的��L��Q�终点以及出现错误时候的停点�Q�的下一个位�|�）�?br />代码如下�Q?br />头文�Ӟ��

//Filename string_wstring_cppcvt.hpp
#ifndef STRING_WSTRING_CPPCVT_HPP
#define STRING_WSTRING_CPPCVT_HPP
#include
#include
const std::wstring s2ws(const std::string& s);
const std::string ws2s(const std::wstring& s);
#endif

实现�Q?/p>

#include "string_wstring_cppcvt.hpp"
mbstate_t in_cvt_state;
mbstate_t out_cvt_state;
const std::wstring s2ws(const std::string& s)
{
std::locale sys_loc("");
const char* src_str = s.c_str();
const size_t BUFFER_SIZE = s.size() + 1;
wchar_t* intern_buffer = new wchar_t[BUFFER_SIZE];
wmemset(intern_buffer, 0, BUFFER_SIZE);
const char* extern_from = src_str;
const char* extern_from_end = extern_from + s.size();
const char* extern_from_next = 0;
wchar_t* intern_to = intern_buffer;
wchar_t* intern_to_end = intern_to + BUFFER_SIZE;
wchar_t* intern_to_next = 0;
typedef std::codecvt CodecvtFacet;
CodecvtFacet::result cvt_rst =
std::use_facet(sys_loc).in(
in_cvt_state,
extern_from, extern_from_end, extern_from_next,
intern_to, intern_to_end, intern_to_next);
if (cvt_rst != CodecvtFacet::ok) {
switch(cvt_rst) {
case CodecvtFacet::partial:
std::cerr << "partial";
break;
case CodecvtFacet::error:
std::cerr << "error";
break;
case CodecvtFacet::noconv:
std::cerr << "noconv";
break;
default:
std::cerr << "unknown";
}
std::cerr << ", please check in_cvt_state."
<< std::endl;
}
std::wstring result = intern_buffer;
delete []intern_buffer;
return result;
}
const std::string ws2s(const std::wstring& ws)
{
std::locale sys_loc("");
const wchar_t* src_wstr = ws.c_str();
const size_t MAX_UNICODE_BYTES = 4;
const size_t BUFFER_SIZE =
ws.size() * MAX_UNICODE_BYTES + 1;
char* extern_buffer = new char[BUFFER_SIZE];
memset(extern_buffer, 0, BUFFER_SIZE);
const wchar_t* intern_from = src_wstr;
const wchar_t* intern_from_end = intern_from + ws.size();
const wchar_t* intern_from_next = 0;
char* extern_to = extern_buffer;
char* extern_to_end = extern_to + BUFFER_SIZE;
char* extern_to_next = 0;
typedef std::codecvt<wchar_t, char, mbstate_t> CodecvtFacet;
CodecvtFacet::result cvt_rst =
std::use_facet(sys_loc).out(
out_cvt_state,
intern_from, intern_from_end, intern_from_next,
extern_to, extern_to_end, extern_to_next);
if (cvt_rst != CodecvtFacet::ok) {
switch(cvt_rst) {
case CodecvtFacet::partial:
std::cerr << "partial";
break;
case CodecvtFacet::error:
std::cerr << "error";
break;
case CodecvtFacet::noconv:
std::cerr << "noconv";
break;
default:
std::cerr << "unknown";
}
std::cerr << ", please check out_cvt_state."
<< std::endl;
}
std::string result = extern_buffer;
delete []extern_buffer;
return result;
}

最后补充说明一下std::use_facet<CodecvtFacet>(sys_loc).in()�? std::use_facet(sys_loc).out()。sys_loc是系�l�的locale�Q�这�? locale中就包含着特定的codecvt facet�Q�我们已�l�typedef��Z��CodecvtFacet。用use_facet对CodecvtFacet�q�行了实例化�Q�所以可以��用这�? facet的方法in()和out()�?/p>

C++的流和本地化�{�略�?br />BS在设计C++��的时候希望其具备��化，�q�且是可扩展的智能化�Q�也��是��_��C++的流可以“��L��”一些内宏V��比如：

std::cout << 123 << “ok” << std::endl;

�q�句代码中，std::cout是能判断�?23是int�?#8221;ok”是const char[3]。利用流的智能，甚至可以做一些基��c�d��的�{换，比如从int到string�Q�string到int�Q?/p>

std::string str("123");
std::stringstream sstr(str);
int i;
sstr >> i;
int i = 123;
std::stringstream sstr;
sstr << i;
std::string str = sstr.str();

��管如此�Q�C++�q�不满��Q�C++甚至希望��能“明白”旉��Q�货币的表示法。而时间和货币的表�C�方法在世界范围内是不同的，所以，每一个流都有自己的locale在媄响其行�ؓ�Q�C++中叫做激�z�（imbue�Q�也有翻译成��染�Q�。而我们知道，每一个locale都有多个facet�Q�这些facet�q�� L��被use_facet使用的。决定��用哪些facet的，是流的缓存basic_streambuf及其�z��c�basic_stringbuf�? basic_filebuf。我们要用到的facet是codecvt�Q�这个facet只被basic_filebuf使用——�q�就是�ؓ什么只能用 fstream来实现宽�H��{换，而无法��用sstream来实现的原因�?br />头文�Ӟ��

//filename string_wstring_fstream.hpp
#ifndef STRING_WSTRING_FSTREAM_HPP
#define STRING_WSTRING_FSTREAM_HPP
#include <string>
const std::wstring s2ws(const std::string& s);
const std::string ws2s(const std::wstring& s);
#endif

实现�Q?/p>

#include
#include
#include "string_wstring_fstream.hpp"
const std::wstring s2ws(const std::string& s)
{
std::locale sys_loc("");
std::ofstream ofs("cvt_buf");
ofs << s;
ofs.close();
std::wifstream wifs("cvt_buf");
wifs.imbue(sys_loc);
std::wstring wstr;
wifs >> wstr;
wifs.close();
return wstr;
}
const std::string ws2s(const std::wstring& s)
{
std::locale sys_loc("");
std::wofstream wofs("cvt_buf");
wofs.imbue(sys_loc);
wofs << s;
wofs.close();
std::ifstream ifs("cvt_buf");
std::string str;
ifs >> str;
ifs.close();
return str;
}

在窄到宽的�{化中�Q�我们先使用默认的本地化�{�略集（locale�Q�将s通过�H�文件流ofs传入文�g�Q�这是char到char的传递，没有��M��转换�Q? 然后我们打开宽文件流wifs�Q��ƈ用系�l�的本地化策略集�Q�locale�Q�去�Ȁ�z�（imbue�Q�之�Q�流在读回宽串wstr的时候，��是char�? wchar_t的�{换，�q�且因�ؓ�Ȁ�z�M��sys_loc�Q�所以实现标准窄到宽的�{换�?br />在宽到窄的�{化中�Q�我们先打开的是宽文件流wofs�Q��ƈ且用�pȝ��的本地化�{�略集sys_loc�Ȁ�z�（imbue�Q�之�Q�这时候，因�ؓ要写的文�? cvt_buf是一个外部编码，所以执行了从wchar_t到char的标准�{换。读回来的文件流从char到char�Q�不做�Q何�{换�?/p>

��编码的��伤
我们现在知道�Q�C/C++的宽�H��{换是依赖�pȝ��的locale的，�q�且在运行时完成。考虑�q�样一�U�情况，我们在简体中文Windows下编译如下语句：
const char* s = “中文abc”;
�Ҏ��我们之前的讨论，�~�译器将按照Windows Codepage936�Q�GB2312�Q�对�q�个字符串进行编码。如果我们在�E�序中运行宽�H��{换函敎ͼ��s转换为宽字符串ws�Q�如果这个程序运行在��体中�? 环境下是没问题的�Q�将执行从GB2312到UCS-2BE的�{换；但是�Q�如果在其他语言环境下，比如是繁体中文BIG5�Q�程序将�Ҏ��pȝ��的locale�? 行从BIG5到UCS-2BE的�{换，�q�显然就出现了错误�?br />补救
有没有补救这个问题的办法呢？一个解��x��案就是执行不依赖locale的宽�H��{换。实际上�Q�这��已�l�不是宽�H��{换之间的问题了，而是�~�码之间转换的问�? 了。我们可以用GNU的libiconv实现��L��~�码间的转换�Q�对于以上的具体情况�Q�指明是从GB2312到UCS-2BE��׃��会出错。（请参考本人前�?的章节：win32下的libiconv�Q�，但这昄��是一个笨拙的�{�略�Q�我们在��体中文Windows下必��M��用GB2312到UCS-2BE版本的宽�H��{换函敎ͼ��C��BIG5环境下，��必��重新写从BIG5到UCS-2BE的宽�H��{换函数�?br />Windows的策�?br />Windows的策略是淘汰了窄字符�Ԍ��q�脆只用宽字�W�串。所有的��编码全部加上特定宏�Q�比如TEXT()�Q�如果程序是所谓Unicode�~�译�Q�在�~�译时就��译为UCS2-BE——Windows自称为Unicode�~�程�Q�其本质是��用了UCS-2BE�?6位宽字符丌Ӏ?br />Linux的策�?br />Linux下根本就不存在这个问题！因�ؓ各种语言的Linux都��用UTF-8的编码，所以，无论�pȝ��locale如何变化�Q�窄到宽转换的规则一直是UTF-8到UTF32-BE �?br />跨��^台策�?br />因�ؓ�?6位的范围内，UTF32-BE的前16位�ؓ0�Q�后16位与UCS2-BE是一��L��Q�所以，即��wchar_t的sizeof()不一��P��在一般情况下�Q�跨�q�_��使用宽字�W�（�Ԍ��也应该是兼容的。但是依然存在潜在的问题�Q�就是那�?字节的UTF32�~�码�?br />gettext�{�略
以上都是��ASCII及以外的�~�码��编码在�E�序中的办法。GNU的gettext提供了另外一�U�选择�Q�在�E�序中只��编码ASCII�Q�多语言支持由gettext函数库在�q�行时加载。（对gettext的介�l�请参考本人前面的章节�Q?a href="http://www.shnenglu.com/deane/archive/2011/lf426/archive/2008/03/30/45723.html" target="\"_blank\"">Win32下的GetText�Q��? gettext的多语言��译文�g不在�E�序中，而是单独的提出来攑֜�特定的位�|�。gettext明确的知道这些翻译文件的�~�码�Q�所以可以准��的告诉�l�系�l�翻译的正确信息�Q�而系�l�将�q�些信息以当前的�pȝ��locale�~�码成窄字符串反馈给�E�序。例如，在简体中文Windows中，gettext的po文�g也可�? 以UTF-8储存�Q�gettext��po文�g��译成mo文�g�Q�确保mo文�g在�Q何系�l�和语言环境下都能够正确��译。在�q�行是传�l�win32�E�序的窄串符�? 当前locale�Q�是GB2312。gettext让国际化的翻译更加的方便�Q�缺�Ҏ��目前我没扑ֈ�支持宽字�W�串的版本（据说是有ugettext()支持宽字�W�串�Q�，所以要使用gettext只能使用�H�字�W�串。但是gettext可以转换到宽字符�Ԍ��而且不会出现宽窄转换的问题，因�ؓgettext是运�? 时根据locale��译的。例如：
const char* s = gettext(“Chinese a b c”);
其中”Chinese a b c”在po中的��译�?#8221;中文abc”
使用依赖locale的运行时宽窄转换函数�Q?br />const std::wstring wstr = s2ws(s);
�q�行时调用该po文�g对应的mo文�g�Q�在��体中文环境下��׃��GB2312传给�E�序�Q�在�J�体中文中就以BIG5传给�E�序�Q�这样s2ws()总能够正常换��编码�?br />更多
在本文的最后，我想回到C++的stream问题上。用fstream转换如此的简单，sstream却不支持。改造一个支持codecvt�? string stream需要改造basic_stringbuf。basic_stringbuf和basic_filebuf都派生自 basic_streambuf�Q�所不同的是basic_filebuf在构造和open()的时候调用了codecvt�Q�只需要在 basic_stringbuf中添加这个功能就可以了。说��h��Ҏ��Q�实际上是需要重新改造一个STL模板�Q�尽��这些模板源代码都是在标准库头文件中现成的，但是我还是水�q�x��限，没有��L��I�了。另外一个思�\是构��Z��个基于内存映��的虚拟文�g�Q�这个框架在boost的iostreams库中�Q�有兴趣的朋友可以深入的研究�?br />�Q�完�Q?/p>Related Posts:

Enic 2012-11-19 19:31 发表评论

std::fstream 句柄泄漏陷阱

Enic — Wed, 07 Mar 2012 05:01:00 GMT

�Q�search key: std::fstream句柄泄漏 std::fstream析构是否关闭句柄 )

蔡亮 12:49:19
std::fstream 析构的时候会关闭文�g句柄么？
蔡亮 12:50:34
求stl高手指导�Q�，�Q?br />
我记得是会关闭的�Q�，�Q?br />矛_��(172106137) 12:51:35
ifstream?
矛_��(172106137) 12:51:44
ifstream �?br />蔡亮 12:52:35
哦，�q�我��放心了
矛_��(172106137) 12:54:58
嗯，
矛_��(172106137) 12:55:02
但要注意一点，
矛_��(172106137) 12:55:15
ifstream只关闭你最后一�ơ打开的文件�?br />蔡亮 12:56:36
也就是说复用 fstream的时候有可能应�ؓ忘记关闭句柄��D��泄漏�Q?br />矛_��(172106137) 12:56:57
�?br />蔡亮 12:57:04
�?br />矛_��(172106137) 12:57:19
它只在析构时关闭�Q?br />蔡亮 12:57:41

妹的�Q�以前没注意�Q�，�Q?br />矛_��(172106137) 12:57:40
如果你用同一个对象操作一个文件后�Q�不调用close�Q�却再打开另一个文�Ӟ��
矛_��(172106137) 12:57:51
那个handle��׃��没�h关闭的�?br />蔡亮 12:58:39
刚刚用�Q务管理器看了下，析构的时候确实关闭了�Q�，�Q?br />
调试的时候跟�q�去看的太痛苦了�Q�n多层�Q�，�Q?br />

********************************************************************
在后来的开发过�E�中我们发现一个问题：
(search key: fopen 最多打开多少句柄 fopen打开文�g��p�| fopen打开句柄限制)

��目中出现fopen打开文�g��p�|现象�Q�第一反应是文件句柄泄漏，然后查看��d��理器，�q�程句柄�?400个，以往常的�l�验�?400即��是泄漏也不会严重到无法打开新的句柄。于是写代码��试验证是不是fopen的问�?br />
使用标准库的 fopen 打开的文件句柄��L��是受限制的，�l�过��试我们发现默认情况下windows�q�_��使用CreateFile臛_��可以创徏3w个以上的文�g句柄�Q�而��用标准库的fopen最多则只能创徏512个，后来发现标准库对�q�个��实是有限制的，有一个函数可以设�|�fopen能打开的句柄个�?br />

// c标准库对fopen的文件个数有限制默认�?12
::_setmaxstdio(2048);
linux�q�_��也有相应的限�?br />********************************************************************
后来在网�l�上查到的，没有�l�过实际��试�Q�仅作参考：

(search key: fstream最多打开多少句柄 )

我做�q�实验，fopen有限�Ӟ��只能同时打开46�Q�还�?7个左�?br />ofstream
fstream
CreatFile�q�三�U�方法没有限�Ӟ��可以同时打开很多文�g�Q�我��试的是打开10w个，再多�Q�我没实验了�Q?/div>*********************************************************************

Enic 2012-03-07 13:01 发表评论

夜夜精品视频一区二区,国产精品私房写真福利视频,亚洲女女女同性video

使用fstream操作文�g的时候突然发��C��文字�W�无法识别了�Q�最后发现是local的问题！�Q�！
//////////////////////////////////////////////////////////////

对C++ Local的经典分�?/h2>

fstream和vector的化学反�? std::istreambuf_iterator boost::interprocess::bufferstream

std::fstream 句柄泄漏陷阱

夜夜精品视频一区二区,国产精品私房写真福利视频,亚洲女女女同性video

使用fstream操作文�g的时候突然发��C��文字�W�无法识别了�Q�最后发现是local的问题！�Q�！//////////////////////////////////////////////////////////////对C++ Local的经典分�?/h2>

fstream和vector的化学反�? std::istreambuf_iterator boost::interprocess::bufferstream

std::fstream 句柄泄漏陷阱

使用fstream操作文�g的时候突然发��C��文字�W�无法识别了�Q�最后发现是local的问题！�Q�！
//////////////////////////////////////////////////////////////

对C++ Local的经典分�?/h2>