• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            Jiang's C++ Space

            創(chuàng)作,也是一種學(xué)習(xí)的過程。

               :: 首頁 :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理 ::

            初一看這個(gè)標(biāo)題,稍微做過C++編程的人都不認(rèn)為這是什么困難的事情,但細(xì)細(xì)想起來還是有些需要注意的。其中我想最主要的就是文本文件的格式了,我們目前常見的有下面這四種,也就是Windows的記事本所能保存的那四種格式了:

            1,ANSI,也是我們最最常見的文本文件格式,在中文操作系統(tǒng)中,使用默認(rèn)的GBK編碼,而港臺(tái)用的繁體中文操作系統(tǒng)則默認(rèn)使用Big5碼,簡(jiǎn)體中文操作系統(tǒng)打開Big5碼的文本文件,會(huì)顯示亂碼,反之亦然,ANSI是ASCII的超集,所以英文總是能正常顯示,英文占一個(gè)字節(jié),中文占兩個(gè)字節(jié),所以光憑文件大小是不知道字符數(shù)的。

            2,Unicode(Little endian,LE),這是Windows默認(rèn)的Unicode編碼,每個(gè)字符都是占據(jù)兩個(gè)字節(jié),全球統(tǒng)一,所以Unicode編碼的文本文件都不會(huì)顯示亂碼,只可能由于缺乏字體的支持而顯示出小方塊(默認(rèn)是小方塊,也可能是別的)。準(zhǔn)確說Unicode的字符并不一定是占據(jù)兩個(gè)字節(jié),但在Windows環(huán)境下這么認(rèn)為是沒有任何問題的。

            3
            ,Unicode(Big endian,BE),同上,唯一不同的是字節(jié)序,貌似這是Mac系統(tǒng)默認(rèn)的編碼格式。比如字的Unicode(LE)編碼是2D 4E,而Unicode(BE)的編碼這是4E 2D

            4,UTF-8,和Unicode編碼是一一對(duì)應(yīng)的關(guān)系,并且兼容ASCII,所以UTF-8編碼的文本文件同ANSI編碼的那樣,英文總是能正常顯示,而它每個(gè)字符所占據(jù)的字節(jié)也是不確定的,可能占據(jù)一到六個(gè)字節(jié),和Unicode不同,UTF-8并沒有字節(jié)序一說,所以它往往被用作文本傳輸?shù)臉?biāo)準(zhǔn)格式,實(shí)現(xiàn)文本的跨平臺(tái)傳輸。

            別的我知道的還有UTF-16等格式,由于用得少,就不提了。另外,對(duì)于以上各類格式,如果有必要,還要區(qū)分Windows版,Unix版和Mac版,它們的關(guān)鍵區(qū)別在于對(duì)換行的理解,Windows版的換行其實(shí)是
            回車字符+換行字符,也就是0x0D+0x0A,而Unix版的只有換行符0x0A,Mac版的只有回車符0x0D,真是有趣極了。

            那么,當(dāng)你試圖打開一個(gè)文本文件的時(shí)候,你會(huì)以哪種格式去
            閱讀它呢?這讓我想起以前我曾經(jīng)工作過的一家公司,把一個(gè)任務(wù)交給我,就是做文件分類,其中有一個(gè)類型就是文本文件,這十分讓我頭疼,因?yàn)槲谋疚募]有固定的格式,所以只好根據(jù)一些字符來判斷,這個(gè)是不一定準(zhǔn)的。通常,為了區(qū)分文本文件的格式,文本文件編輯器通常都會(huì)給文本文件添加一個(gè)叫BOM的標(biāo)志,BOM是Byte Order Marked的縮寫:

            ANSI:沒有BOM,直接是內(nèi)容。
            UNICODE(LE):FF FE
            UNICODE(BE):FE FF
            UTF-8:EF BB BF

            所以我們可以根據(jù)這些特征來判斷一個(gè)文本文件的編碼格式。

            那如果一個(gè)Unicode文件沒有BOM,我們把它判定為ANSI格式的,豈不是亂了套?那是肯定的,但有些比較高級(jí)的文本編輯器,如UltraEdit,就有智能識(shí)別文本格式的功能,即便文本文件缺乏BOM,但這個(gè)我們就不討論了。

            也許你要問了:
            有那么繁瑣么?我只是想用C運(yùn)行庫獲取文本內(nèi)容。在Windows環(huán)境下,目前還算比較簡(jiǎn)單了,VC++2005的運(yùn)行庫已經(jīng)支持讀取Unicode和UTF-8格式的文本文件,而下面我給出一個(gè)簡(jiǎn)單的例子,是讀取一個(gè)UTF-8格式的文本文件的。

            #include "stdafx.h"
            #include 
            <windows.h>

            //test_utf8.txt的內(nèi)容是四個(gè)漢字:“中文測(cè)試”
            //一共占據(jù)15個(gè)字節(jié),分別是:
            //EF BB BF E4 B8 AD E6 96 87 E6 B5 8B E8 AF 95
            //其中“EF BB BF”為BOM(Byte Order Mark),之后每個(gè)漢字占3個(gè)字節(jié)
            int _tmain(int argc, _TCHAR* argv[])
            {
                WCHAR szDataAll[
            64];
                FILE
            * pf = _wfopen(L"test_utf8.txt", L"r,ccs=utf-8");
                
            if (pf!=NULL)
                {
                   
            long pos = ftell(pf);          //3
             
                   ZeroMemory(szDataAll, 
            sizeof(szDataAll));
                   fread(szDataAll, 
            21, pf);
                   pos 
            = ftell(pf);               //9
                   OutputDebugStringW(szDataAll); //
             
                   ZeroMemory(szDataAll, 
            sizeof(szDataAll));
                   fread(szDataAll, 
            21, pf);
                   pos 
            = ftell(pf);               //11
                   OutputDebugStringW(szDataAll); //
             
                   ZeroMemory(szDataAll, 
            sizeof(szDataAll));
                   fread(szDataAll, 
            21, pf);
                   pos 
            = ftell(pf);               //13
                   OutputDebugStringW(szDataAll); //測(cè)
             
                   ZeroMemory(szDataAll, 
            sizeof(szDataAll));
                   fread(szDataAll, 
            21, pf);
                   pos 
            = ftell(pf);               //15
                   OutputDebugStringW(szDataAll); //
             
                   fclose(pf);
                }
                
            return 0;
            }

            需要注意的是,使用fopen的時(shí)候,記得使用其寬字符版_wfopen,另外,注意fopen的第二個(gè)參數(shù)ccs=utf-8,是ccs而不是css,寫錯(cuò)的話是無效的,這樣就能直接把UTF-8的文本讀進(jìn)來,而不用管BOM,也不需要額外的轉(zhuǎn)換,直接就已經(jīng)是Unicode編碼了。

            注意上面我使用了ftell來測(cè)試文件指針的位置,看起來文件指針的行為確實(shí)有些怪異,貌似ftell使用起來不靈了,這個(gè)時(shí)候,這是我們要注意的一個(gè)地方;另一個(gè)要注意的地方就是fread的第二個(gè)參數(shù),我寫了2,其實(shí)指的是讀進(jìn)來的Unicode編碼的字節(jié)數(shù),要讀一個(gè)字符,那就寫2,讀兩個(gè)字符,那就寫4,而不是UTF-8的3個(gè)字節(jié)一個(gè)漢字的這種長(zhǎng)度。

            如果你要讀取一個(gè)Unicode(LE)的文本文件,將fopen的
            ccs=utf-8參數(shù)改為ccs=unicode即可。

            這都是你已經(jīng)知道了文件格式的前提下,所使用的方法,如果文件格式未知,你還得手工判斷一下,先用
            _wfopen(L"abc.txt", L"rb")這種方式打開文件,再讀取頭幾個(gè)字節(jié)來分析。

            遺憾的是,
            ccs=utf-8這種參數(shù)并不是C的標(biāo)準(zhǔn),這是Microsoft VC++的功能,并且我發(fā)覺Windows Mobile平臺(tái)不能這樣用,so,下面我就只好完全自己動(dòng)手豐衣足食了,總的思路就是:判斷文件格式,根據(jù)格式類型和該格式類型的標(biāo)準(zhǔn),讀取一定字符數(shù)目(究竟讀取多少字節(jié),要計(jì)算),然后利用Windows的API,MultiByToWideChar將其轉(zhuǎn)為Unicode,當(dāng)然了,如果文件就是Unicode(LE)的話,處理掉BOM就可以直接讀取了,如果是Unicode(BE)的話,得倒一下字節(jié)序。

            下面給出我實(shí)現(xiàn)的類的代碼。

            這是頭文件TxtReader.h:

            #pragma once

            #include 
            <windows.h>
            #include 
            <stdio.h>

            enum
            {
                TXT_TYPE_NONE 
            = 0,
                TXT_TYPE_ANSI,
                TXT_TYPE_UNICODE_LE,
                TXT_TYPE_UNICODE_BE,
                TXT_TYPE_UTF8
            };

            class CTxtReader
            {
            public:
                CTxtReader(
            void);
                
            ~CTxtReader(void);

                BOOL Open(WCHAR
            * pFileName);
                
            void Close();
                BOOL Read(WCHAR
            * pBuff, DWORD dwToRead, DWORD& dwRead);
                LONG Tell();

            protected:
                FILE
            * m_pFile;
                INT m_iType;
                CPINFO m_codepage;
                INT m_iMaxLeadBytePairNum;

                BOOL NeedNextByte(BYTE byFirstByte);
            };

             這是CPP文件TxtReader.cpp:

            #include "TxtReader.h"

            CTxtReader::CTxtReader(
            void)
            {
                m_pFile 
            = NULL;
                m_iType 
            = TXT_TYPE_NONE;

                GetCPInfo(CP_ACP, 
            &m_codepage);

                m_iMaxLeadBytePairNum 
            = 0;
                
            int i;
                
            for(i=0; i<5; i++)
                {
                    
            if(m_codepage.LeadByte[i*2]==0 && m_codepage.LeadByte[i*2+1]==0)
                        
            break;
                    
            ++m_iMaxLeadBytePairNum;
                }
            }

            CTxtReader::
            ~CTxtReader(void)
            {
                Close();
            }

            BOOL CTxtReader::Open(WCHAR
            * pFileName)
            {
                Close();

                m_pFile 
            = _wfopen(pFileName, L"rb");
                
            if (m_pFile==NULL)
                    
            return FALSE;
                BYTE byBOM[
            3];
                size_t stRead 
            = fread(byBOM, 13, m_pFile);
                
            if (stRead==3 && byBOM[0]==0xEF && byBOM[1]==0xBB && byBOM[2]==0xBF)
                    m_iType 
            = TXT_TYPE_UTF8;
                
            else if (stRead>=2 && byBOM[0]==0xFF && byBOM[1]==0xFE)
                {
                    m_iType 
            = TXT_TYPE_UNICODE_LE;
                    fseek(m_pFile, 
            2, SEEK_SET);
                }
                
            else if (stRead>=2 && byBOM[0]==0xFE && byBOM[1]==0xFF)
                {
                    m_iType 
            = TXT_TYPE_UNICODE_BE;
                    fseek(m_pFile, 
            2, SEEK_SET);
                }
                
            else
                {
                    m_iType 
            = TXT_TYPE_ANSI;
                    fseek(m_pFile, 
            0, SEEK_SET);
                }
                
            return TRUE;
            }

            void CTxtReader::Close()
            {
                
            if (m_pFile!=NULL)
                {
                    fclose(m_pFile);
                    m_pFile 
            = NULL;
                }
                m_iType 
            = TXT_TYPE_NONE;
            }

            BOOL CTxtReader::Read(WCHAR
            * pBuff, DWORD dwToRead, DWORD& dwRead)
            {
                
            if (dwToRead==0)
                    
            return FALSE;
                INT iBuffSize;
                DWORD dwReadBytes;
                DWORD i;
                
            switch (m_iType)
                {
                
            case TXT_TYPE_ANSI:
                    iBuffSize 
            = dwToRead*2//ANSI's max bytes number of one char is 2;
                    break;
                
            case TXT_TYPE_UNICODE_LE:
                    dwReadBytes 
            = fread(pBuff, 1, dwToRead*2, m_pFile); //Each unicode char has two bytes.
                    if(dwReadBytes>0)
                    {
                        dwRead 
            = dwReadBytes/2;
                        
            return TRUE;
                    }
                    
            else
                        
            return FALSE;
                
            case TXT_TYPE_UNICODE_BE:
                    dwReadBytes 
            = fread(pBuff, 1, dwToRead*2, m_pFile); //Each unicode char has two bytes.
                    if (dwReadBytes>0)
                    {
                        dwRead 
            = dwReadBytes/2;
                        
            for (i=0; i<dwRead; i++)
                            pBuff[i] 
            = ((pBuff[i]&0xFF)<<8+ ((pBuff[i]>>8)&0xFF);

                        
            return TRUE;
                    }
                    
            else
                        
            return FALSE;
                    
            break;
                
            case TXT_TYPE_UTF8:
                    iBuffSize 
            = dwToRead*6//UTF-8's max bytes number of one char is 6
                    break;
                }

                BYTE 
            *pByBuff = new BYTE[iBuffSize];
                DWORD dwWcharRead 
            = 0//Read chars(in wide char)
                BYTE *pCurrPos = pByBuff;
                
            while (dwWcharRead<dwToRead)
                {
                    
            if(0==fread(pCurrPos, 11, m_pFile))
                        
            break;
                    BYTE byFirst 
            = *pCurrPos;
                    
            ++pCurrPos;
                    
            switch (m_iType)
                    {
                    
            case TXT_TYPE_ANSI:
                        
            if(NeedNextByte(byFirst))
                        {
                            fread(pCurrPos, 
            11,m_pFile);
                            
            ++pCurrPos;
                        }
                        
            ++dwWcharRead;
                        
            break;
                    
            case TXT_TYPE_UTF8:
                        
            if((byFirst|0xDF)==0xDF && (byFirst&0xC0)==0xC0// 110X XXXX : Two bytes.
                        {
                            fread(pCurrPos, 
            11, m_pFile);
                            
            ++pCurrPos;
                        }
                        
            else if((byFirst|0xEF)==0xEF && (byFirst&0xE0)==0xE0//1110 XXXX : Three bytes.
                        {
                            fread(pCurrPos, 
            12, m_pFile);
                            pCurrPos
            +=2;
                        }
                        
            else if((byFirst|0xF7)==0xF7 && (byFirst&0xF0)==0xF0//1111 0XXX : Four bytes.
                        {
                            fread(pCurrPos, 
            13, m_pFile);
                            pCurrPos
            +=3;
                        }
                        
            else if((byFirst|0xFB)==0xFB && (byFirst&0xF8)==0xF8//1111 10XX : Five bytes.
                        {
                            fread(pCurrPos, 
            14, m_pFile);
                            pCurrPos
            +=4;
                        }
                        
            else if((byFirst|0xFD)==0xFD && (byFirst&0xFC)==0xFC//1111 10XX : Six bytes.
                        {
                            fread(pCurrPos, 
            15, m_pFile);
                            pCurrPos
            +=5;
                        }
                        
            ++dwWcharRead;
                        
            break;
                    }
                }

                INT iConvertedNum;
                BOOL bSucceeded 
            = FALSE;
                
            if(pCurrPos-pByBuff>0)
                {
                    UINT iCP;
                    
            switch (m_iType)
                    {
                    
            case TXT_TYPE_ANSI:
                        iCP 
            = CP_ACP;
                        
            break;
                    
            case TXT_TYPE_UTF8:
                        iCP 
            = CP_UTF8;
                        
            break;
                    }
                    iConvertedNum 
            = MultiByteToWideChar(iCP, 0, (LPCSTR)pByBuff, pCurrPos-pByBuff, pBuff, dwToRead);
                    
            if (iConvertedNum>0)
                    {
                        dwRead 
            = iConvertedNum;
                        bSucceeded 
            = TRUE;
                    }
                }

                delete[] pByBuff;

                
            return bSucceeded;
            }

            LONG CTxtReader::Tell()
            {
                
            if (m_pFile!=NULL)
                    
            return ftell(m_pFile);
                
            return 0;
            }

            BOOL CTxtReader::NeedNextByte(BYTE byFirstByte)
            {
                
            int i;
                
            for(i=0; i<m_iMaxLeadBytePairNum; i++)
                {
                    
            if(byFirstByte>=m_codepage.LeadByte[i*2&& byFirstByte<=m_codepage.LeadByte[i*2+1])
                        
            return TRUE;
                }
                
            return FALSE;
            }

            其中需要特別說明的是GetCPInfo這個(gè)API,我用它來獲取相關(guān)的信息來確定:ANSI的格式下,什么字符需要讀取兩個(gè)字節(jié)。我不知道Linux環(huán)境下對(duì)應(yīng)的函數(shù)是什么,但我想應(yīng)該會(huì)有類似的函數(shù)的。

            利用這個(gè)CTxtReader類,我們就能輕松從四種格式的文本文件里獲取到我們指定字符數(shù)目的字符串了,而且,Tell方法也可以準(zhǔn)確反映出文件指針的位置。

            posted on 2011-06-08 12:26 Jiang Guogang 閱讀(5041) 評(píng)論(2)  編輯 收藏 引用 所屬分類: Windows Programming

            評(píng)論

            # re: 用VC++訪問文本文件 2011-06-08 19:13 王林
            你好,可以加QQ聯(lián)系下吧!
            275818489

            有個(gè)項(xiàng)目請(qǐng)請(qǐng)你幫忙開發(fā)!

            一定要加哦  回復(fù)  更多評(píng)論
              

            # re: 用VC++訪問文本文件 2011-06-10 15:29 jc_ontheroad
            當(dāng)年,曾經(jīng)在一段函數(shù)中實(shí)現(xiàn)了上述功能。這其實(shí)也由于架構(gòu)設(shè)計(jì)所需。

            樓主將以對(duì)象的形式來實(shí)現(xiàn),更具通用性。  回復(fù)  更多評(píng)論
              

            久久人人爽人人爽人人片AV麻豆| 久久久久久国产精品美女| 久久乐国产精品亚洲综合| 狠狠色丁香久久婷婷综合五月 | 国产成人精品久久亚洲| 日本欧美久久久久免费播放网| 亚洲人成无码网站久久99热国产| 国产精品成人无码久久久久久 | 久久久噜噜噜久久| 久久久青草久久久青草| 国产精品无码久久综合| 久久99精品综合国产首页| 久久久久亚洲AV成人片| 久久午夜羞羞影院免费观看 | 91精品国产色综合久久| 久久久国产乱子伦精品作者| 久久久久久九九99精品| 人妻精品久久久久中文字幕69| 一本久道久久综合狠狠爱| 亚洲国产精品无码成人片久久| 无码精品久久久天天影视| 久久久噜噜噜www成人网| 国内精品人妻无码久久久影院| 国产午夜福利精品久久2021| 精品999久久久久久中文字幕| 亚洲国产成人久久综合一 | 日韩人妻无码一区二区三区久久99| 少妇无套内谢久久久久| 久久国产免费直播| 久久精品国产亚洲av日韩| 99久久国产热无码精品免费久久久久 | 久久久久国色AV免费看图片| 色天使久久综合网天天 | 亚洲精品国产美女久久久| 久久精品蜜芽亚洲国产AV| 狠狠久久综合伊人不卡| 伊人色综合久久天天网| 国产精品免费看久久久| 欧美色综合久久久久久| 久久精品亚洲一区二区三区浴池| 成人亚洲欧美久久久久 |