• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            隨筆 - 96  文章 - 255  trackbacks - 0
            <2008年5月>
            27282930123
            45678910
            11121314151617
            18192021222324
            25262728293031
            1234567

            E-mail:zbln426@163.com QQ:85132383 長期尋找對戰略游戲感興趣的合作伙伴。

            常用鏈接

            留言簿(21)

            隨筆分類

            隨筆檔案

            SDL相關網站

            我的個人網頁

            我的小游戲

            資源下載

            搜索

            •  

            積分與排名

            • 積分 - 492263
            • 排名 - 38

            最新評論

            閱讀排行榜

            評論排行榜

            <本文PDF文檔下載>

            “這個問題比你想象中復雜”
            (我也學下BS的風格,雖然這句話是我自己臨時想說的。^^)

            從字符到整數

            char是一種整數類型,這句話的含義是,char所能表示的字符在C/C++中都是整數類型。好,接下來,很多文章就會舉出一個典型例子,比如,'a'的數值就是0x61。這種說法對嗎?如果你細心的讀過K&R和BS對于C和C++描述的原著,你就會馬上反駁道,0x61只是'a'的ASCII值,并沒有任何規定C/C++的char值必須對應ASCII。C/C++甚至沒有規定char占幾位,只是規定了sizeof(char)等于1。
            當然,目前大部分情況下,char是8位的,并且,在ASCII范圍內的值,與ASCII對應。

            本地化策略集(locale)

            “將'a'翻譯成0x61的整數值”,“將ASCII范圍內的編碼與char的整數值對應起來”,類似這樣的規定,是特定系統和特定編譯器制定的,C/C++中有個特定的名詞來描述這種規定的集合:本地化策略集(locale。也有翻譯成“現場”)。而翻譯——也就是代碼轉換(codecvt)只是這個集合中的一個,C++中定義為策略(facet。也有翻譯為“刻面”)

            C/C++的編譯策略

            “本地化策略集”是個很好的概念,可惜在字符和字符串這個層面上,C/C++并不使用(C++的locale通常只是影響流(stream)),C/C++使用更直接簡單的策略:硬編碼。
            簡單的說,字符(串)在程序文件(可執行文件,非源文件)中的表示,與在程序執行中在內存中的表示一致。考慮兩種情況:
            A、char c = 0x61;
            B、char c = 'a';
            情況A下,編譯器可以直接認識作為整數的c,但是在情況B下,編譯器必須將'a'翻譯成整數。編譯器的策略也很簡單,就是直接讀取字符(串)在源文件中的編碼數值。比如:
            const char* s = "中文abc";
            這段字符串在GB2312(Windows 936),也就是我們的windows默認中文系統源文件中的編碼為:
            0xD6   0xD0   0xCE 0xC4 0x61 0x62 0x63
            在UTF-8,也就是Linux默認系統源文件中的編碼為:
            0xE4   0xB8   0xAD   0xE6   0x96   0x87   0x61   0x62   0x63
            一般情況下,編譯器會忠實于源文件的編碼為s賦值,例外的情況比如VC會自作聰明的把大部分其他類型編碼的字符串轉換成GB2312(除了像UTF-8 without signature這樣的幸存者)。
            程序在執行的時候,s也就保持是這樣的編碼,不會再做其他的轉換。

            寬字符 wchar_t
            正如char沒有規定大小,wchar_t同樣沒有標準限定,標準只是要求一個wchar_t可以表示任何系統所能認識的字符,在win32中,wchar_t為16位;Linux中是32位。wchar_t同樣沒有規定編碼,因為Unicode的概念我們后面才解釋,所以這里只是提一下,在win32中,wchar_t的編碼是UCS-2BE;而Linux中是UTF-32BE(等價于UCS-4BE),不過簡單的說,在16位以內,一個字符的這3種編碼值是一樣的。因此:
            const wchar_t* ws = L"中文abc";
            的編碼分別為:
            0x4E2D   0x6587    0x0061   0x0062   0x0063                                                //win32,16位
            0x00004E2D   0x00006587    0x00000061   0x00000062   0x00000063        //Linux,32位
            大寫的L是告訴編譯器:這是寬字符串。所以,這時候是需要編譯器根據locale來進行翻譯的。
            比如,在Windows環境中,編譯器的翻譯策略是GB2312到UCS-2BE;Linux環境中的策略是UTF-8到UTF-32BE。
            這時候就要求源文件的編碼與編譯器的本地化策略集中代碼翻譯的策略一致,例如VC只能讀取GB2312的源代碼(這里還是例外,VC太自作聰明了 ,會將很多其他代碼在編譯時自動轉換成GB2312),而gcc只能讀取UTF-8的源代碼(這里就有個尷尬,MinGW運行win32下,所以只有GB2312系統才認;而MinGW卻用gcc編寫,所以自己只認UTF-8,所以結果就是,MinGW的寬字符被廢掉了)。
            寬字符(串)由編譯器翻譯,還是被硬編碼進程序文件中。
            posted on 2010-06-25 14:41 lf426 閱讀(21113) 評論(6)  編輯 收藏 引用 所屬分類: 語言基礎、數據結構與算法

            FeedBack:
            # re: 徹底解密C++寬字符:1、從char到wchar_t 2010-06-26 14:44 唐風
            哈哈,好,這個系列會很有價值的樓主!  回復  更多評論
              
            # re: 徹底解密C++寬字符:1、從char到wchar_t[未登錄] 2011-04-15 21:29 hzh
            a=97  回復  更多評論
              
            # re: 徹底解密C++寬字符:1、從char到wchar_t 2011-06-20 17:56 路人
            @hzh
            哥,0x61 確實等于 97 的說  回復  更多評論
              
            # re: 徹底解密C++寬字符:1、從char到wchar_t[未登錄] 2012-11-09 21:53 afei
            寫的真好,樓主很強。  回復  更多評論
              
            # re: 徹底解密C++寬字符:1、從char到wchar_t[未登錄] 2013-01-17 23:20 smile
            "在win32中,wchar_t的編碼是UCS-2BE"
            樓主仔細測試了嗎,應該是ucs-2le才對吧?  回復  更多評論
              
            # re: 徹底解密C++寬字符:1、從char到wchar_t 2013-12-19 21:43 ligand
            在win32中,wchar_t的編碼是UCS-2LE;在Linux上,是UCS-4LE  回復  更多評論
              
            久久激情亚洲精品无码?V| 无码国内精品久久人妻蜜桃| 国产精品免费久久久久影院| 久久综合久久综合久久综合| 久久播电影网| 色综合久久无码中文字幕| 久久本道伊人久久| 国产精品99久久久久久宅男小说| 欧美一区二区三区久久综| 久久精品中文字幕一区| 亚洲色婷婷综合久久| 久久精品国产99久久香蕉| 日韩精品久久久久久免费| 久久久91人妻无码精品蜜桃HD | 久久人妻少妇嫩草AV蜜桃| 国产精品久久久天天影视| 亚洲精品无码久久久| 99久久免费只有精品国产| 色婷婷久久综合中文久久蜜桃av| 久久久99精品一区二区| 久久99免费视频| 久久久精品人妻一区二区三区四| 亚洲国产成人久久综合区| 国产精品嫩草影院久久| 精品久久久久久无码中文字幕一区 | 精品多毛少妇人妻AV免费久久 | 欧洲精品久久久av无码电影| 亚洲精品午夜国产va久久| 国产精品日韩深夜福利久久| 精品久久人妻av中文字幕| 欧美熟妇另类久久久久久不卡 | 99精品国产综合久久久久五月天 | 亚洲国产二区三区久久| 久久综合九色综合欧美狠狠| 久久人人爽人人爽人人片AV不 | 久久夜色精品国产噜噜亚洲a| 久久久精品国产Sm最大网站| 久久久久亚洲AV成人网| 亚洲欧美国产日韩综合久久| 久久久久亚洲av成人网人人软件 | 亚洲va久久久噜噜噜久久天堂|