• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            woaidongmao

            文章均收錄自他人博客,但不喜標題前加-[轉(zhuǎn)貼],因其丑陋,見諒!~
            隨筆 - 1469, 文章 - 0, 評論 - 661, 引用 - 0
            數(shù)據(jù)加載中……

            VC/C++的中文字符處理方式

            怎樣把漢字轉(zhuǎn)換成整數(shù),又怎樣把該整數(shù)還原成漢字

            char * str="漢字";BYTE *pstr=(BYTE*)str;BYTE B=pstr[i];B 就是整數(shù)

            一 引入問題

            代碼 wchar_t a[3]=L”中國,編譯時出錯,出錯信息為:數(shù)組越界。但wchar_t 是一個寬字節(jié)類型,數(shù)組a的大小應(yīng)為6個字節(jié),而兩個漢字的的unicode碼占4個字節(jié),再加上一個結(jié)束符,最多6個字節(jié),所以應(yīng)該不會越界。

            難道是編譯器出問題了?

            二 解決引入問題所需的知識

               主要需兩方面的知識,第一個為字符尤其是漢字的編碼,以及語言和工具的支持情況,第二個是vc/c++MutiByte Charater Set Wide Character Set有關(guān)內(nèi)存分配的情況。

            三 漢字的編碼方式及在vc/c++中的處理

            1.漢字編碼方式的介紹

            對英文字符的處理,7ASCII碼字符集中的字符即可滿足使用需求,且英文字符在計算機上的輸入及輸出也非常簡單,因此,英文字符的輸入、存儲、內(nèi)部處理和輸出都可以只用同一個編碼(如ASCII碼)。

            而漢字是一種象形文字,字數(shù)極多(現(xiàn)代漢字中僅常用字就有六、七千個,總字數(shù)高達5萬個以上),且字形復(fù)雜,每一個漢字都有"音、形、義"三要素,同音字、異體字也很多,這些都給漢字的的計算機處理帶來了很大的困難。要在計算機中處理漢字,必須解決以下幾個問題:首先是漢字的輸入,即如何把結(jié)構(gòu)復(fù)雜的方塊漢字輸入到計算機中去,這是漢字處理的關(guān)鍵;其次,漢字在計算機內(nèi)如何表示和存儲?如何與西文兼容?最后,如何將漢字的處理結(jié)果從計算機內(nèi)輸出?

            為此,必須將漢字代碼化,即對漢字進行編碼。對應(yīng)于上述漢字處理過程中的輸入、內(nèi)部處理及輸出這三個主要環(huán)節(jié),每一個漢字的編碼都包括輸入碼、交換碼、內(nèi)部碼和字形碼。在計算機的漢字信息處理系統(tǒng)中,處理漢字時要進行如下的代碼轉(zhuǎn)換:輸入碼→交換碼→內(nèi)部碼→字形碼。

            (1)輸入碼: 作用是,利用它和現(xiàn)有的標準西文鍵盤結(jié)合來輸入漢字。輸入碼也稱為外碼。主要歸為四類:

            a)      數(shù)字編碼:數(shù)字編碼是用等長的數(shù)字串為漢字逐一編號,以這個編號作為漢字的輸入碼。例如,區(qū)位碼、電報碼等都屬于數(shù)字編碼。

            b)      拼音碼:拼音碼是以漢字的讀音為基礎(chǔ)的輸入辦法。

            c)      字形碼:字形碼是以漢字的字形結(jié)構(gòu)為基礎(chǔ)的輸入編碼。例如,五筆字型碼(王碼)。

            d)      音形碼:音形碼是兼顧漢字的讀音和字形的輸入編碼。

            (2)交換碼:用于漢字外碼和內(nèi)部碼的交換。交換碼的國家標準代號為GB2312-80

            (3)內(nèi)部碼:內(nèi)部碼是漢字在計算機內(nèi)的基本表示形式,是計算機對漢字進行識別、存儲、處理和傳輸所用的編碼。內(nèi)部碼也是雙字節(jié)編碼,將國標碼兩個字節(jié)的最高位都置為"1",即轉(zhuǎn)換成漢字的內(nèi)部碼。

            (4)字形碼:字形碼是表示漢字字形信息(漢字的結(jié)構(gòu)、形狀、筆劃等)的編碼,用來實現(xiàn)計算機對漢字的輸出(顯示、打印)。

            2.VC中漢字的編碼方式

               vc/c++正是采用了GB2312內(nèi)部碼作為漢字的編碼方式,因此vc/c++中的各種輸入輸出方法,如cin/wcin,cout/wcout,scanf/wsanf,printf/wprintf...都是基于GB2312的,如果漢字的內(nèi)碼不是這種編碼方式,那么利用上述各種方法就不會正確的解析漢字。

            仔細觀察ASCII字符表,從第161個字符開始,后面的字符并不經(jīng)常為用戶所使用,負值也未使用。GB2312編碼方式充分利用這一特性,將161-255-95~-1)之間的數(shù)值空間作為漢字的標識碼。既然255-161 = 94不能滿足漢字容量的要求,就將每兩個字符并在一塊(即一個漢字占兩個字節(jié)),顯然,94* 94 =8836基本上已經(jīng)滿足了常用漢字個數(shù)的要求。計算機處理字符時,當連續(xù)處理到兩個大與160(-95~-1)的字節(jié)時,就認為這兩個字節(jié)存放了一個漢字字符。可以用下面的Demo程序來模擬vc/c++中輸出漢字字符的過程。

                unsigned char input[50];

            cin>>input;

                int flag=0;

                for(int i =0 ;i < 50 ;i++)

                {

                   if(input[i] > 0xa0 && input[i] != 0)

                   {

                       if(flag == 1)

                       {

                          cout<<"chinese character"<<endl;

                          flag = 0;

                       }

                       else

                       {

                          flag++;

                       }

                   }

             

                   else if(input[i] == 0)

                   {

                       break;

                   }

                   else

                   {

                       cout<<"english character"<<endl;

                   }

            }

            輸入:Hello中國 (中國對應(yīng)的GB2312內(nèi)碼為:214 208185 250

            輸出:english character

            english character

            english character

            english character

            english character

            chinese character

            chinese character

            vc/c++中的英文字符仍然采用ASCII編碼方式。可以設(shè)想,其他國家程序員利用vc/c++編寫程序輸入本國字符時,vc/c++則會采用該國的字符編碼方式來處理這些字符。

                問題又產(chǎn)生了,韓國的vc/c++程序在中國的vc/c++上運行時,如果沒有相應(yīng)的內(nèi)碼庫,則對韓語字符的顯示有可能出現(xiàn)亂碼。我個人猜測,vc安裝程序中應(yīng)該帶有不同國家的內(nèi)碼庫,這樣一來肯定會占用很大的空間。如果所有的國家使用統(tǒng)一的編碼方式,且所有的程序設(shè)計語言和開發(fā)工具都支持這種編碼方式該多好!而現(xiàn)實中,確實已經(jīng)有這種編碼方式了,且許多新的語言也都支持這種編碼方式,如JavaC#等,它就是下面的Unicode編碼

            3.新的內(nèi)碼標準---Unicode

            Unicode(統(tǒng)一碼、萬國碼、單一碼)是一種在計算機上使用的字符編碼。它為每種語言中的每個字符設(shè)定了統(tǒng)一并且唯一的二進制編碼,以滿足跨語言、跨平臺進行文本轉(zhuǎn)換、處理的要求。1990年開始研發(fā),1994年正式公布。隨著計算機工作能力的增強,Unicode也在面世以來的十多年里得到普及。最新版本的 Unicode 2005年3月31推出的Unicode 4.1.0 。另外,5.0 Beta已于20051212推出,以供各會員評價。

            Unicode 編碼系統(tǒng)可分為編碼方式和實現(xiàn)方式兩個層次。

            編碼方式:Unicode 的編碼方式與 ISO 10646 的通用字符集(Universal Character SetUCS)概念相對應(yīng),目前的用于實用的 Unicode 版本對應(yīng)于 UCS-2,使用16位的編碼空間。也就是每個字符占用2個字節(jié)。這樣理論上一共最多可以表示 216 個字符。基本滿足各種語言的使用。實際上目前版本的 Unicode 尚未填充滿這16位編碼,保留了大量空間作為特殊使用或?qū)頂U展。

            實現(xiàn)方式:Unicode 的實現(xiàn)方式不同于編碼方式。一個字符的 Unicode 編碼是確定的。但是在實際傳輸過程中,由于不同系統(tǒng)平臺的設(shè)計不一定一致,以及出于節(jié)省空間的目的,對 Unicode 編碼的實現(xiàn)方式有所不同。Unicode 的實現(xiàn)方式稱為Unicode轉(zhuǎn)換格式(Unicode Translation Format,簡稱為 UTF)。如,UTF-8 編碼,這是一種變長編碼,它將基本7ASCII字符仍用7位編碼表示,占用一個字節(jié)(首位補0)。而遇到與其他 Unicode 字符混合的情況,將按一定算法轉(zhuǎn)換,每個字符使用1-3個字節(jié)編碼,并利用首位為01進行識別。

            JavaC#語言都是采用Unicode編碼方式,在這兩種語言中定義一個字符,在內(nèi)存中存放的就是這個字符的兩字節(jié)Unicode碼。如下所示:

            char a='';    => 內(nèi)存中存放的Unicode碼為:25105

            posted on 2008-11-07 22:39 肥仔 閱讀(1047) 評論(0)  編輯 收藏 引用 所屬分類: 字符編碼

            噜噜噜色噜噜噜久久| 无码AV波多野结衣久久| 久久久久人妻精品一区三寸蜜桃| 久久这里只有精品视频99| 狠狠色丁香婷婷久久综合| 99国产精品久久| 亚洲欧洲精品成人久久奇米网| 久久99国产综合精品免费| 国产99久久久久久免费看| 亚洲人成精品久久久久| 亚洲国产精品久久久久久| 亚洲国产精品无码久久98| 久久久久国产日韩精品网站| 国内精品伊人久久久久av一坑 | 久久夜色精品国产噜噜噜亚洲AV| 久久综合综合久久狠狠狠97色88 | 伊人色综合九久久天天蜜桃| AAA级久久久精品无码区| 久久精品国产精品亚洲精品| 久久久www免费人成精品| 一本久久综合亚洲鲁鲁五月天| 久久免费国产精品一区二区| 996久久国产精品线观看| 亚洲精品无码久久久久| 久久亚洲国产成人影院| 免费一级欧美大片久久网| 青青草国产精品久久久久| 97超级碰碰碰久久久久| 人妻无码中文久久久久专区| 亚洲愉拍99热成人精品热久久| 久久这里只精品99re66| 久久九九久精品国产免费直播| 亚洲成av人片不卡无码久久| 一本久久免费视频| 色综合久久久久无码专区| 一本色道久久88—综合亚洲精品| 久久亚洲AV成人无码软件| 久久久久亚洲AV成人网人人网站 | 久久久综合九色合综国产| 一本色道久久88加勒比—综合| 91久久精品视频|