初一看這個標題,稍微做過C++編程的人都不認為這是什么困難的事情,但細細想起來還是有些需要注意的。其中我想最主要的就是文本文件的格式了,我們目前常見的有下面這四種,也就是Windows的記事本所能保存的那四種格式了:
1,ANSI,也是我們最最常見的文本文件格式,在中文操作系統中,使用默認的GBK編碼,而港臺用的繁體中文操作系統則默認使用Big5碼,簡體中文操作系統打開Big5碼的文本文件,會顯示亂碼,反之亦然,ANSI是ASCII的超集,所以英文總是能正常顯示,英文占一個字節,中文占兩個字節,所以光憑文件大小是不知道字符數的。
2,Unicode(Little endian,LE),這是Windows默認的Unicode編碼,每個字符都是占據兩個字節,全球統一,所以Unicode編碼的文本文件都不會顯示亂碼,只可能由于缺乏字體的支持而顯示出小方塊(默認是小方塊,也可能是別的)。準確說Unicode的字符并不一定是占據兩個字節,但在Windows環境下這么認為是沒有任何問題的。
3,Unicode(Big endian,BE),同上,唯一不同的是字節序,貌似這是Mac系統默認的編碼格式。比如“中”字的Unicode(LE)編碼是“2D 4E”,而Unicode(BE)的編碼這是“4E 2D”。
4,UTF-8,和Unicode編碼是一一對應的關系,并且兼容ASCII,所以UTF-8編碼的文本文件同ANSI編碼的那樣,英文總是能正常顯示,而它每個字符所占據的字節也是不確定的,可能占據一到六個字節,和Unicode不同,UTF-8并沒有字節序一說,所以它往往被用作文本傳輸的標準格式,實現文本的跨平臺傳輸。
別的我知道的還有UTF-16等格式,由于用得少,就不提了。另外,對于以上各類格式,如果有必要,還要區分Windows版,Unix版和Mac版,它們的關鍵區別在于對換行的理解,Windows版的換行其實是“回車字符”+“換行字符”,也就是0x0D+0x0A,而Unix版的只有“換行符”0x0A,Mac版的只有“回車符”0x0D,真是有趣極了。
那么,當你試圖打開一個文本文件的時候,你會以哪種格式去“閱讀”它呢?這讓我想起以前我曾經工作過的一家公司,把一個任務交給我,就是做文件分類,其中有一個類型就是文本文件,這十分讓我頭疼,因為文本文件沒有固定的格式,所以只好根據一些字符來判斷,這個是不一定準的。通常,為了區分文本文件的格式,文本文件編輯器通常都會給文本文件添加一個叫BOM的標志,BOM是Byte Order Marked的縮寫:
ANSI:沒有BOM,直接是內容。
UNICODE(LE):FF FE
UNICODE(BE):FE FF
UTF-8:EF BB BF
所以我們可以根據這些特征來判斷一個文本文件的編碼格式。
那如果一個Unicode文件沒有BOM,我們把它判定為ANSI格式的,豈不是亂了套?那是肯定的,但有些比較高級的文本編輯器,如UltraEdit,就有智能識別文本格式的功能,即便文本文件缺乏BOM,但這個我們就不討論了。
也許你要問了:“有那么繁瑣么?我只是想用C運行庫獲取文本內容。”在Windows環境下,目前還算比較簡單了,VC++2005的運行庫已經支持讀取Unicode和UTF-8格式的文本文件,而下面我給出一個簡單的例子,是讀取一個UTF-8格式的文本文件的。
#include <windows.h>
//test_utf8.txt的內容是四個漢字:“中文測試”
//一共占據15個字節,分別是:
//EF BB BF E4 B8 AD E6 96 87 E6 B5 8B E8 AF 95
//其中“EF BB BF”為BOM(Byte Order Mark),之后每個漢字占3個字節
int _tmain(int argc, _TCHAR* argv[])
{
WCHAR szDataAll[64];
FILE* pf = _wfopen(L"test_utf8.txt", L"r,ccs=utf-8");
if (pf!=NULL)
{
long pos = ftell(pf); //3
ZeroMemory(szDataAll, sizeof(szDataAll));
fread(szDataAll, 2, 1, pf);
pos = ftell(pf); //9
OutputDebugStringW(szDataAll); //中
ZeroMemory(szDataAll, sizeof(szDataAll));
fread(szDataAll, 2, 1, pf);
pos = ftell(pf); //11
OutputDebugStringW(szDataAll); //文
ZeroMemory(szDataAll, sizeof(szDataAll));
fread(szDataAll, 2, 1, pf);
pos = ftell(pf); //13
OutputDebugStringW(szDataAll); //測
ZeroMemory(szDataAll, sizeof(szDataAll));
fread(szDataAll, 2, 1, pf);
pos = ftell(pf); //15
OutputDebugStringW(szDataAll); //試
fclose(pf);
}
return 0;
}
需要注意的是,使用fopen的時候,記得使用其寬字符版_wfopen,另外,注意fopen的第二個參數“ccs=utf-8”,是“ccs”而不是“css”,寫錯的話是無效的,這樣就能直接把UTF-8的文本讀進來,而不用管BOM,也不需要額外的轉換,直接就已經是Unicode編碼了。
注意上面我使用了ftell來測試文件指針的位置,看起來文件指針的行為確實有些怪異,貌似ftell使用起來不靈了,這個時候,這是我們要注意的一個地方;另一個要注意的地方就是fread的第二個參數,我寫了2,其實指的是讀進來的Unicode編碼的字節數,要讀一個字符,那就寫2,讀兩個字符,那就寫4,而不是UTF-8的3個字節一個漢字的這種長度。
如果你要讀取一個Unicode(LE)的文本文件,將fopen的“ccs=utf-8”參數改為“ccs=unicode”即可。
這都是你已經知道了文件格式的前提下,所使用的方法,如果文件格式未知,你還得手工判斷一下,先用“_wfopen(L"abc.txt", L"rb")”這種方式打開文件,再讀取頭幾個字節來分析。
遺憾的是,“ccs=utf-8”這種參數并不是C的標準,這是Microsoft VC++的功能,并且我發覺Windows Mobile平臺不能這樣用,so,下面我就只好完全自己動手豐衣足食了,總的思路就是:判斷文件格式,根據格式類型和該格式類型的標準,讀取一定字符數目(究竟讀取多少字節,要計算),然后利用Windows的API,MultiByToWideChar將其轉為Unicode,當然了,如果文件就是Unicode(LE)的話,處理掉BOM就可以直接讀取了,如果是Unicode(BE)的話,得倒一下字節序。
下面給出我實現的類的代碼。
這是頭文件TxtReader.h:
#include <windows.h>
#include <stdio.h>
enum
{
TXT_TYPE_NONE = 0,
TXT_TYPE_ANSI,
TXT_TYPE_UNICODE_LE,
TXT_TYPE_UNICODE_BE,
TXT_TYPE_UTF8
};
class CTxtReader
{
public:
CTxtReader(void);
~CTxtReader(void);
BOOL Open(WCHAR* pFileName);
void Close();
BOOL Read(WCHAR* pBuff, DWORD dwToRead, DWORD& dwRead);
LONG Tell();
protected:
FILE* m_pFile;
INT m_iType;
CPINFO m_codepage;
INT m_iMaxLeadBytePairNum;
BOOL NeedNextByte(BYTE byFirstByte);
};
這是CPP文件TxtReader.cpp:
CTxtReader::CTxtReader(void)
{
m_pFile = NULL;
m_iType = TXT_TYPE_NONE;
GetCPInfo(CP_ACP, &m_codepage);
m_iMaxLeadBytePairNum = 0;
int i;
for(i=0; i<5; i++)
{
if(m_codepage.LeadByte[i*2]==0 && m_codepage.LeadByte[i*2+1]==0)
break;
++m_iMaxLeadBytePairNum;
}
}
CTxtReader::~CTxtReader(void)
{
Close();
}
BOOL CTxtReader::Open(WCHAR* pFileName)
{
Close();
m_pFile = _wfopen(pFileName, L"rb");
if (m_pFile==NULL)
return FALSE;
BYTE byBOM[3];
size_t stRead = fread(byBOM, 1, 3, m_pFile);
if (stRead==3 && byBOM[0]==0xEF && byBOM[1]==0xBB && byBOM[2]==0xBF)
m_iType = TXT_TYPE_UTF8;
else if (stRead>=2 && byBOM[0]==0xFF && byBOM[1]==0xFE)
{
m_iType = TXT_TYPE_UNICODE_LE;
fseek(m_pFile, 2, SEEK_SET);
}
else if (stRead>=2 && byBOM[0]==0xFE && byBOM[1]==0xFF)
{
m_iType = TXT_TYPE_UNICODE_BE;
fseek(m_pFile, 2, SEEK_SET);
}
else
{
m_iType = TXT_TYPE_ANSI;
fseek(m_pFile, 0, SEEK_SET);
}
return TRUE;
}
void CTxtReader::Close()
{
if (m_pFile!=NULL)
{
fclose(m_pFile);
m_pFile = NULL;
}
m_iType = TXT_TYPE_NONE;
}
BOOL CTxtReader::Read(WCHAR* pBuff, DWORD dwToRead, DWORD& dwRead)
{
if (dwToRead==0)
return FALSE;
INT iBuffSize;
DWORD dwReadBytes;
DWORD i;
switch (m_iType)
{
case TXT_TYPE_ANSI:
iBuffSize = dwToRead*2; //ANSI's max bytes number of one char is 2;
break;
case TXT_TYPE_UNICODE_LE:
dwReadBytes = fread(pBuff, 1, dwToRead*2, m_pFile); //Each unicode char has two bytes.
if(dwReadBytes>0)
{
dwRead = dwReadBytes/2;
return TRUE;
}
else
return FALSE;
case TXT_TYPE_UNICODE_BE:
dwReadBytes = fread(pBuff, 1, dwToRead*2, m_pFile); //Each unicode char has two bytes.
if (dwReadBytes>0)
{
dwRead = dwReadBytes/2;
for (i=0; i<dwRead; i++)
pBuff[i] = ((pBuff[i]&0xFF)<<8) + ((pBuff[i]>>8)&0xFF);
return TRUE;
}
else
return FALSE;
break;
case TXT_TYPE_UTF8:
iBuffSize = dwToRead*6; //UTF-8's max bytes number of one char is 6
break;
}
BYTE *pByBuff = new BYTE[iBuffSize];
DWORD dwWcharRead = 0; //Read chars(in wide char)
BYTE *pCurrPos = pByBuff;
while (dwWcharRead<dwToRead)
{
if(0==fread(pCurrPos, 1, 1, m_pFile))
break;
BYTE byFirst = *pCurrPos;
++pCurrPos;
switch (m_iType)
{
case TXT_TYPE_ANSI:
if(NeedNextByte(byFirst))
{
fread(pCurrPos, 1, 1,m_pFile);
++pCurrPos;
}
++dwWcharRead;
break;
case TXT_TYPE_UTF8:
if((byFirst|0xDF)==0xDF && (byFirst&0xC0)==0xC0) // 110X XXXX : Two bytes.
{
fread(pCurrPos, 1, 1, m_pFile);
++pCurrPos;
}
else if((byFirst|0xEF)==0xEF && (byFirst&0xE0)==0xE0) //1110 XXXX : Three bytes.
{
fread(pCurrPos, 1, 2, m_pFile);
pCurrPos+=2;
}
else if((byFirst|0xF7)==0xF7 && (byFirst&0xF0)==0xF0) //1111 0XXX : Four bytes.
{
fread(pCurrPos, 1, 3, m_pFile);
pCurrPos+=3;
}
else if((byFirst|0xFB)==0xFB && (byFirst&0xF8)==0xF8) //1111 10XX : Five bytes.
{
fread(pCurrPos, 1, 4, m_pFile);
pCurrPos+=4;
}
else if((byFirst|0xFD)==0xFD && (byFirst&0xFC)==0xFC) //1111 10XX : Six bytes.
{
fread(pCurrPos, 1, 5, m_pFile);
pCurrPos+=5;
}
++dwWcharRead;
break;
}
}
INT iConvertedNum;
BOOL bSucceeded = FALSE;
if(pCurrPos-pByBuff>0)
{
UINT iCP;
switch (m_iType)
{
case TXT_TYPE_ANSI:
iCP = CP_ACP;
break;
case TXT_TYPE_UTF8:
iCP = CP_UTF8;
break;
}
iConvertedNum = MultiByteToWideChar(iCP, 0, (LPCSTR)pByBuff, pCurrPos-pByBuff, pBuff, dwToRead);
if (iConvertedNum>0)
{
dwRead = iConvertedNum;
bSucceeded = TRUE;
}
}
delete[] pByBuff;
return bSucceeded;
}
LONG CTxtReader::Tell()
{
if (m_pFile!=NULL)
return ftell(m_pFile);
return 0;
}
BOOL CTxtReader::NeedNextByte(BYTE byFirstByte)
{
int i;
for(i=0; i<m_iMaxLeadBytePairNum; i++)
{
if(byFirstByte>=m_codepage.LeadByte[i*2] && byFirstByte<=m_codepage.LeadByte[i*2+1])
return TRUE;
}
return FALSE;
}
其中需要特別說明的是GetCPInfo這個API,我用它來獲取相關的信息來確定:ANSI的格式下,什么字符需要讀取兩個字節。我不知道Linux環境下對應的函數是什么,但我想應該會有類似的函數的。
利用這個CTxtReader類,我們就能輕松從四種格式的文本文件里獲取到我們指定字符數目的字符串了,而且,Tell方法也可以準確反映出文件指針的位置。