• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            Windows環境下Unicode編程總結 (轉載自CSDN )

            UNICODE環境設置
            在安裝Visual Studio時,在選擇VC++時需要加入unicode選項,保證相關的庫文件可以拷貝到system32下。


            UNICODE編譯設置:
            C/C++, Preprocessor difinitions 去除_MBCS,加_UNICODE,UNICODE
            在ProjectSetting/link/output 中設置Entry為wWinMainCRTStartup
            反之為MBCS(ANSI)編譯。


            Unicode :寬字節字符集


            1. 如何取得一個既包含單字節字符又包含雙字節字符的字符串的字符個數?
            可以調用Microsoft Visual C++的運行期庫包含函數_mbslen來操作多字節(既包括單字節也包括雙字節)字符串。
            調用strlen函數,無法真正了解字符串中究竟有多少字符,它只能告訴你到達結尾的0之前有多少個字節。


            2. 如何對DBCS(雙字節字符集)字符串進行操作?
            函數 描述
            PTSTR CharNext ( LPCTSTR ); 返回字符串中下一個字符的地址
            PTSTR CharPrev ( LPCTSTR, LPCTSTR ); 返回字符串中上一個字符的地址
            BOOL IsDBCSLeadByte( BYTE ); 如果該字節是DBCS字符的第一個字節,則返回非0值


            3. 為什幺要使用Unicode?
            (1) 可以很容易地在不同語言之間進行數據交換。
            (2) 使你能夠分配支持所有語言的單個二進制.exe文件或DLL文件。
            (3) 提高應用程序的運行效率。
            Windows 2000是使用Unicode從頭進行開發的,如果調用任何一個Windows函數并給它傳遞一個ANSI字符串,那幺系統首先要將字符串轉換成Unicode,然后將Unicode字符串傳遞給操作系統。如果希望函數返回ANSI字符串,系統就會首先將Unicode字符串轉換成ANSI字符串,然后將結果返回給你的應用程序。進行這些字符串的轉換需要占用系統的時間和內存。通過從頭開始用Unicode來開發應用程序,就能夠使你的應用程序更加有效地運行。
            Windows CE 本身就是使用Unicode的一種操作系統,完全不支持ANSI Windows函數
            Windows 98 只支持ANSI,只能為ANSI開發應用程序。
            Microsoft公司將COM從16位Windows轉換成Win32時,公司決定需要字符串的所有COM接口方法都只能接受Unicode字符串。


            4. 如何編寫Unicode源代碼?
            Microsoft公司為Unicode設計了WindowsAPI,這樣,可以盡量減少代碼的影響。實際上,可以編寫單個源代碼文件,以便使用或者不使用Unicode來對它進行編譯。只需要定義兩個宏(UNICODE和_UNICODE),就可以修改然后重新編譯該源文件。
            _UNICODE宏用于C運行期頭文件,而UNICODE宏則用于Windows頭文件。當編譯源代碼模塊時,通常必須同時定義這兩個宏。


            5. Windows定義的Unicode數據類型有哪些?
            數據類型 說明
            WCHAR Unicode字符
            PWSTR 指向Unicode字符串的指針
            PCWSTR 指向一個恒定的Unicode字符串的指針
            對應的ANSI數據類型為CHAR,LPSTR和LPCSTR。
            ANSI/Unicode通用數據類型為TCHAR,PTSTR,LPCTSTR。


            6. 如何對Unicode進行操作?
            字符集 特性 實例
            ANSI 操作函數以str開頭 strcpy
            Unicode 操作函數以wcs開頭 wcscpy
            MBCS 操作函數以_mbs開頭 _mbscpy
            ANSI/Unicode 操作函數以_tcs開頭 _tcscpy(C運行期庫)
            ANSI/Unicode 操作函數以lstr開頭 lstrcpy(Windows函數)
            所有新的和未過時的函數在Windows2000中都同時擁有ANSI和Unicode兩個版本。ANSI版本函數結尾以A表示;Unicode版本函數結尾以W表示。Windows會如下定義:
            #ifdef UNICODE
            #define CreateWindowEx CreateWindowExW
            #else
            #define CreateWindowEx CreateWindowExA
            #endif // !UNICODE


            7. 如何表示Unicode字符串常量?
            字符集 實例
            ANSI “string”
            Unicode L“string”
            ANSI/Unicode T(“string”)或_TEXT(“string”)if( szError[0] == _TEXT(‘J’) ){ }


            8. 為什幺應當盡量使用操作系統函數?
            這將有助于稍稍提高應用程序的運行性能,因為操作系統字符串函數常常被大型應用程序比如操作系統的外殼進程Explorer.exe所使用。由于這些函數使用得很多,因此,在應用程序運行時,它們可能已經被裝入RAM。
            如:StrCat,StrChr,StrCmp和StrCpy等。


            9. 如何編寫符合ANSI和Unicode的應用程序?
            (1) 將文本串視為字符數組,而不是chars數組或字節數組。
            (2) 將通用數據類型(如TCHAR和PTSTR)用于文本字符和字符串。
            (3) 將顯式數據類型(如BYTE和PBYTE)用于字節、字節指針和數據緩存。
            (4) 將TEXT宏用于原義字符和字符串。
            (5) 執行全局性替換(例如用PTSTR替換PSTR)。
            (6) 修改字符串運算問題。例如函數通常希望在字符中傳遞一個緩存的大小,而不是字節。這意味著不應該傳遞sizeof(szBuffer),而應該傳遞(sizeof(szBuffer)/sizeof(TCHAR)。另外,如果需要為字符串分配一個內存塊,并且擁有該字符串中的字符數目,那幺請記住要按字節來分配內存。這就是說,應該調用
            malloc(nCharacters *sizeof(TCHAR)),而不是調用malloc(nCharacters)。


            10. 如何對字符串進行有選擇的比較?
            通過調用CompareString來實現。
            標志 含義
            NORM_IGNORECASE 忽略字母的大小寫
            NORM_IGNOREKANATYPE 不區分平假名與片假名字符
            NORM_IGNORENONSPACE 忽略無間隔字符
            NORM_IGNORESYMBOLS 忽略符號
            NORM_IGNOREWIDTH 不區分單字節字符與作為雙字節字符的同一個字符
            SORT_STRINGSORT 將標點符號作為普通符號來處理


            11. 如何判斷一個文本文件是ANSI還是Unicode?
            判斷如果文本文件的開頭兩個字節是0xFF和0xFE,那幺就是Unicode,否則是ANSI。


            12. 如何判斷一段字符串是ANSI還是Unicode?
            用IsTextUnicode進行判斷。IsTextUnicode使用一系列統計方法和定性方法,以便猜測緩存的內容。由于這不是一種確切的科學方法,因此 IsTextUnicode有可能返回不正確的結果。


            13. 如何在Unicode與ANSI之間轉換字符串?
            Windows函數MultiByteToWideChar用于將多字節字符串轉換成寬字符串;函數WideCharToMultiByte將寬字符串轉換成等價的多字節字符串。


            14. Unicode和DBCS之間的區別
            Unicode使用(特別在C程序設計語言環境里)“寬字符集”。「Unicode中的每個字符都是16位寬而不是8位寬。」在Unicode中,沒有單單使用8位數值的意義存在。相比之下,在“雙位組字符集”中我們仍然處理8位數值。有些位組自身定義字符,而某些位組則顯示需要和另一個位組共同定義一個字符。
            處理DBCS字符串非常雜亂,但是處理Unicode文字則像處理有秩序的文字。您也許會高興地知道前128個Unicode字符(16位代碼從0x0000到0x007F)就是ASCII字符,而接下來的128個Unicode字符(代碼從0x0080到0x00FF)是ISO 8859-1對ASCII的擴展。Unicode中不同部分的字符都同樣基于現有的標準。這是為了便于轉換。希臘字母表使用從0x0370到0x03FF的代碼,斯拉夫語使用從0x0400到0x04FF的代碼,美國使用從0x0530到0x058F的代碼,希伯來語使用從0x0590到0x05FF的代碼。中國、日本和韓國的象形文字(總稱為CJK)占用了從0x3000到0x9FFF的代碼。Unicode的最大好處是這里只有一個字符集,沒有一點含糊。


            15.衍生標準
            Unicode是一個標準。UTF-8是其概念上的子集,UTF-8是具體的編碼標準。而UNICODE是所有想達到世界統一編碼標準的標準。UTF-8標準就是Unicode(ISO10646)標準的一種變形方式,
            UTF的全稱是:Unicode/UCS Transformation Format,其實有兩種UTF,一種是UTF-8,一種是UTF-16,
            不過UTF-16使用較少,其對應關系如下:
            在Unicode中編碼為 0000 - 007F 的 UTF-8 中編碼形式為: 0xxxxxxx
            在Unicode中編碼為 0080 - 07FF 的 UTF-8 中編碼形式為: 110xxxxx 10xxxxxx
            在Unicode中編碼為 0000 - 007F 的 UTF-8 中編碼形式為: 1110xxxx 10xxxxxx 10xxxxxx


            utf-8是unicode的一個新的編碼標準,其實unicode有過好幾個標準.我們知道一直以來使用的unicode字符內碼都是16位,它實際上還不能把全世界的所有字符編在一個平面系統,比如中國的藏文等小語種,所以utf-8擴展到了32位,也就是說理論在utf-8中可容納二的三十二次方個字符. UNICODE的思想就是想把所有的字符統一編碼,實現一個統一的標準.big5、gb都是獨立的字符集,這也叫做遠東字符集,把它拿到德文版的WINDOWS上可能將會引起字符編碼的沖突....早期的WINDOWS默認的字符集是ANSI.notepad中輸入的漢字是本地編碼,但在NT/2000內部是可以直接支持UNICODE的。notepad.exe在WIN95和98中都是ANSI字符,在NT中則是UNICODE.ANSI和UNICODE可以方便的實現對應映射,也就是轉換 ASCII是8位范圍內的字符集,對于范圍之外的字符如漢字它是無法表達的。unicode是16位范圍內的字符集,對于不同地區的字符分區分配,unicode是多個IT巨頭共同制定的字符編碼標準。如果在unicode環境下比如WINDOWS NT上,一個字符占兩字節16位,而在ANSI環境下如WINDOWS98下一個字符占一個字節8位.Unicode字符是16位寬,最多允許65,535字符,數據類型被稱為WCHAR。
            對于已有的ANSI字符,unicode簡單的將其擴展為16位:比如ANSI"A"=0x43,則對應的UNICODE為
            "A"= 0x0043
            而ASCII用七存放128個字符,ASCII是一個真正的美國標準,所以它不能滿足其他國家的需要,例如斯拉夫語的字母和漢字于是出現了Windows ANSI字符集,是一種擴展的ASCII碼,用8位存放字符,低128位仍然存放原來的ASCII碼,
            而高128位加入了希臘字母等
            if def UNICODE
            ? TCHAR = wchar
            else
            ? TCHAR = char
            你需要在Project\Settings\C/C++\Preprocesser definitions中添加UNICODE和_UNICODE
            UINCODE,_UNICODE都要定義。不定義_UNICODE的話,用SetText(HWND,LPCTSTR),將被解釋為SetTextA(HWND,LPTSTR),這時API將把你給的Unicode字符串看作ANSI字符串,顯示亂碼。因為windows API是已經編譯好存在于dll中的,由于不管UNICODE還是ANSI字符串,都被看作一段buffer,如"0B A3 00 35 24 3C 00 00"如果按ANSI讀,因為ANSI字串是以'\0'結束的,所以只能讀到兩字節"0B A3 \0",如果按UNICODE讀,將完整的讀到'\0\0'結束。
            由于UNICODE沒有額外的指示位,所以系統必須知道你提供的字串是哪種格式。此外,UNICODE好象是ANSI C++規定的,_UNICODE是windows SDK提供的。如果不編寫windows程序,可以只定義UNICODE。
            開發過程:
            圍繞著文件讀寫、字符串處理展開。文件主要有兩種:.txt和.ini文件
            1.??? 在unicode和非unicode環境下字符串做不同處理的,那么需要參考以上9,10兩條,以適應不同環境得字符串處理要求。
            對文件讀寫也一樣。只要調用相關接口函數時,參數中的字符串前都加上_TEXT等相關宏。如果寫成的那個文件需要是unicode格式保存的,那么在創建文件時需要加入一個字節頭。
            CFile file;
            ??? WCHAR szwBuffer[128];
            ???
            ??? WCHAR *pszUnicode = L"Unicode string\n"; // unicode string
            ??? CHAR *pszAnsi = "Ansi string\n"; // ansi string
            ??? WORD wSignature = 0xFEFF;
            ???
            ??? file.Open(TEXT("Test.txt"), CFile::modeCreate|CFile::modeWrite);
            ???
            ??? file.Write(&wSignature, 2);
            ???
            ??? file.Write(pszUnicode, lstrlenW(pszUnicode) * sizeof(WCHAR));
            ??? // explicitly use lstrlenW function
            ???
            ??? MultiByteToWideChar(CP_ACP, 0, pszAnsi, -1, szwBuffer, 128);
            ???
            ??? file.Write(szwBuffer, lstrlenW(szwBuffer) * sizeof(WCHAR));
            ???
            file.Close();
            //以上這段代碼在unicode和非unicode環境下都有效。這里顯式的指明用Unicode來進行操作。
            2.??? 在非unicode環境下,缺省調用的都是ANSI格式的字符串,此時TCHAR轉換為CHAR類型的,除非顯式定義WCHAR。所以在這個環境下,如果讀取unicode文件,那么首先需要移動2個字節,然后讀取得字符串需要用MultiByteToWideChar來轉換,轉換后字符串信息才代表unicode數據。
            3.??? 在unicode環境下,缺省調用得都是unicode格式得字符串,也就是寬字符,此時TCHAR轉換為WCHAR,相關得API函數也都調用寬字符類型的函數。此時讀取unicode文件也和上面一樣,但是讀取得數據是WCHAR的,如果要轉換成ANSI格式,需要調用WideCharToMultiByte。如果讀取ANSI的,則不用移動兩個字節,直接讀取然后視需要轉換即可。


            某些語言(如韓語)必須在unicode環境下才能顯示,這種情況下,在非unicode環境下開發,就算用字符串函數轉換也不能達到顯示文字的目的,因為此時調用得API函數是用ANSI的(雖然底層都是用UNICODE處理但是處理結果是按照程序員調用的API來顯示的)。所以必須用unicode來開發。

            posted on 2006-04-23 18:21 bo 閱讀(3031) 評論(1)  編輯 收藏 引用 所屬分類: Language

            評論

            # re: Windows環境下Unicode編程總結 (轉載自CSDN ) 2007-11-14 05:01 15057708707

            恢復上次提交  回復  更多評論   

            <2006年4月>
            2627282930311
            2345678
            9101112131415
            16171819202122
            23242526272829
            30123456

            導航

            統計

            常用鏈接

            留言簿(4)

            隨筆分類(23)

            隨筆檔案(23)

            URL

            最新隨筆

            搜索

            積分與排名

            最新隨筆

            最新評論

            閱讀排行榜

            評論排行榜

            亚洲va久久久噜噜噜久久男同| 色欲久久久天天天综合网精品| 久久99精品国产99久久| 国产精品99久久精品爆乳| 国产精品成人99久久久久91gav| 婷婷综合久久狠狠色99h| 日韩va亚洲va欧美va久久| 亚洲女久久久噜噜噜熟女| 91精品国产高清久久久久久国产嫩草| 久久久久99精品成人片三人毛片 | 久久精品中文无码资源站| 久久不射电影网| 热re99久久6国产精品免费| 国产呻吟久久久久久久92| 人妻无码久久一区二区三区免费| 国产巨作麻豆欧美亚洲综合久久 | 久久精品国产精品青草| 欧美久久久久久| 精品人妻伦九区久久AAA片69| 成人国内精品久久久久一区| 久久久亚洲裙底偷窥综合| 久久精品国产亚洲7777| 国产福利电影一区二区三区久久久久成人精品综合 | 久久人人爽人人人人爽AV| 日本精品久久久久影院日本 | 国产精品成人99久久久久 | 狠狠狠色丁香婷婷综合久久俺| 久久精品综合网| 久久久久久久波多野结衣高潮 | 漂亮人妻被黑人久久精品| 久久人人爽人人爽人人片AV麻烦| 国产成人精品久久一区二区三区av | 亚洲午夜久久影院| 精品一区二区久久| 久久免费线看线看| 国产女人aaa级久久久级| 久久久精品视频免费观看 | 久久久久女人精品毛片| 久久久噜噜噜www成人网| 国产精品99精品久久免费| 久久精品www|