• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            posts - 28, comments - 179, trackbacks - 0, articles - 1
              C++博客 :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理

            字符集相關問題

            Posted on 2007-05-30 16:54 chemz 閱讀(5802) 評論(14)  編輯 收藏 引用 所屬分類: C++
                                             字符集相關問題
                字符集目前有兩個大的類別:本地字符集和國際字符集,其中每一類別的字符集又有多個
            不同的字符編碼實例。比如:本地字符集中基本上對于每一個不同的地區和國家就會形成一個
            屬于自己的字符集(ascii, latin-1, chs等),國際字符集中同樣包括多種不同的編碼方案
            (utf8, utf16等)。
                那么在C/C++程序中如何完成上述字符集之間的轉換工作呢?分成兩種情況:
                1. 通過const char *cstr使用開發環境中的編輯器輸入字符串常量"中國",如下:
                        const char *cstr = "中國";
                   這樣一來cstr所指向的字符串內存中保存的則是本地字符編碼下所形成的字符串,也
                   就是說,上面的cstr中存儲著chs字符編碼集中的字符;
                2. 通過const wchar_t *wstr使用開發環境中的編輯器輸入字符串常量"中國",如下:
                        const wchar_t *wstr = L"中國";
                   這樣一來wstr所指向的字符串內存中保存的則是國際字符編碼(在VC++下是ucs2,
                   在gcc下是ucs4)下所形成的字符串,也就是說,上面的wstr中存儲著utf16字符編
                   碼集中的字符;
                那么如何將cstr轉換成為wstr呢?可以通過C語言中的標準轉換函數mbstowcs來完成該工
            作,此時需要注意的是如果直接使用mbstowcs進行轉換會得到一個錯誤的結果,并不能成功
            的完成轉換成為國際寬字符的要求,這是為什么呢?在C/C++語言標準中定義了其運行時的
            字符集環境為"C",也就是ASCII字符集的一個子集,那么mbstowcs在工作時會將cstr中所包
            含的字符串看作是ASCII編碼的字符,而不認為是一個包含有chs編碼的字符串,所以他會將
            每一個中文拆成2個ASCII編碼進行轉換,這樣得到的結果就是會形成4個wchar_t的字符組成
            的串,那么如何才能夠讓mbstowcs正常工作呢?在調用mbstowcs進行轉換之間必須明確的告
            訴mbstowcs目前cstr串中包含的是chs編碼的字符串,通過setlocale( LC_ALL, "chs" )函數
            調用來完成,需要注意的是這個函數會改變整個應用程序的字符集編碼方式,必須要通過重
            新調用setlocale( LC_ALL, "C" )函數來還原,這樣就可以保證mbstowcs在轉換時將cstr中
            的串看作是中文串,并且轉換成為2個wchar_t字符,而不是4個。


            Feedback

            # re: 字符集相關問題  回復  更多評論   

            2007-05-30 20:47 by 小明
            const wchar_t *wstr = "中國";

            這樣寫不合法吧
            const wchar_t *wstr = L"中國";

            # re: 字符集相關問題  回復  更多評論   

            2007-05-31 09:14 by chemz
            非常感謝指出,書寫時漏了L,謝謝!

            # re: 字符集相關問題  回復  更多評論   

            2007-05-31 11:00 by walkspeed
            看來有人也研究過的也。

            # re: 字符集相關問題  回復  更多評論   

            2007-06-04 14:32 by 看圖軟件
            研究下

            # re: 字符集相關問題  回復  更多評論   

            2007-06-26 21:17 by Jerry
            請教一下,在Solaris操作系統下中文字符串使用的是什么字符集。
            我在Solaris下用setlocale( LC_ALL, "chs" ),然后將字符串轉換成unicode
            得到錯誤結果,后來發現在solaris里面就沒有"chs"這種編碼方式,請問我怎樣才能正確轉換

            # re: 字符集相關問題  回復  更多評論   

            2007-06-27 08:51 by chemz
            我在搞solaris的時候也遇到過這個問題,我所在的環境是solaris9和10對于8我不太清楚。是這樣的,在solaris的操作系統安裝光盤中有一張單獨的Languages語言支持光盤,必須要選擇安裝對應的字符集支持,如果要顯示中文還必須要切換操作系統的當前語種到中文(任意一種中文都沒有問題,最好采用GB18030,否則會出現有些生僻的字沒有編碼的問題),這樣就可以轉換和顯示了。對于solaris8沒有試過,因為比較老了。

            # re: 字符集相關問題  回復  更多評論   

            2007-06-27 09:27 by Jerry
            謝謝chemz
            但是我在solaris下locale -a 查了一下他里面支持的中文字符集有
            zh,zh_CN.EUC,zh.GBK,zh.UTF-8,我一個個試過了,但是都不正確轉換,是不是真的需要另外加中文字符集,不清楚在solaris下面是不是真的有“chs”的字符集

            # re: 字符集相關問題  回復  更多評論   

            2007-06-27 10:27 by chemz
            你用的什么編譯器,GNU還是Sun的?

            # re: 字符集相關問題  回復  更多評論   

            2007-06-27 11:53 by Jerry
            Sun 的CC編譯器,

            # re: 字符集相關問題  回復  更多評論   

            2007-06-27 12:05 by chemz
            不好意思我沒有用過Sun的CC,凡是在Unix環境下開發我們都用統一的GNU gcc編譯器集合,這樣會比較好移植。

            # re: 字符集相關問題  回復  更多評論   

            2008-06-21 10:51 by 數字柔情
            我在LINUX企業版5上實驗了上面代碼,編譯時這句const wchar_t *wstr = L"中國";報錯converting to execution character set:無效或不完整的多字節字符或寬字符。
            是怎么回事啊,LINUX下不能把中文轉成UNICODE嗎?那怎么用。

            # re: 字符集相關問題  回復  更多評論   

            2008-06-22 13:55 by chemz
            樓上的需要注意你可能在寫const wchar_t *wstr = L"中國";這句話時引號是個中文的,所以才會有問題。

            # re: 字符集相關問題  回復  更多評論   

            2008-09-28 08:49 by soli

            我怎么知道我的字符串中是什么編碼呢?

            比如:

            m_ctrlEdit.GetWindowText(m_strEdit);

            此時m_strEdit中是什么編碼的字符串呢?

            # re: 字符集相關問題  回復  更多評論   

            2010-07-15 09:31 by hzpfly
            如果中英文混排的情況如何轉換成寬字符呢?
            const char* str = "I 服了 You";
            色欲综合久久躁天天躁| 精品国产青草久久久久福利| 久久免费精品一区二区| 国产精品99久久久久久www| 久久久久人妻一区精品 | 激情伊人五月天久久综合| 国产精品久久久久久吹潮| 国产精品熟女福利久久AV| 久久只有这精品99| 7777久久亚洲中文字幕| 亚洲国产精品成人久久蜜臀 | 国产精品久久久天天影视| 精品国产综合区久久久久久| 亚洲AV日韩AV永久无码久久| 99久久国产综合精品成人影院| 怡红院日本一道日本久久| 久久久久亚洲av成人网人人软件| 亚洲狠狠久久综合一区77777| 一级做a爰片久久毛片看看| 久久精品免费一区二区三区| 国产激情久久久久久熟女老人| 精品久久久久久国产牛牛app| 久久久久久久97| 亚洲精品乱码久久久久久蜜桃图片 | 午夜欧美精品久久久久久久| 香港aa三级久久三级老师2021国产三级精品三级在 | 一本久久久久久久| 亚洲国产精品一区二区久久hs | 久久99精品久久久久久秒播| 国产精品一久久香蕉国产线看观看| 日本精品久久久久久久久免费| 精品久久久久久中文字幕人妻最新| 亚洲人AV永久一区二区三区久久| 国产精品一区二区久久精品无码 | 久久香蕉国产线看观看99| 日日躁夜夜躁狠狠久久AV| 国产精品成人99久久久久 | 国产精品美女久久福利网站| 99久久国产综合精品网成人影院| 99久久久国产精品免费无卡顿| 亚洲精品无码久久久久去q|