上次說日本海嘯警報的時候,程序出錯。在解析代碼的時候,發(fā)現了MFC中的一個Bug。
一。問題的產生。
這個程序,用來處理日本各種天氣預報數據,包括災害的預報。如果地震,臺風之類的自然災害到來,程序會把預報數據進行處理,生成相應的警報信息,并在電視上面顯示滾動的字幕來提示。程序本身,是幾年前公司的其他人寫的。里面有涉及到文件讀寫的地方,有很多地方,用了MFC中自帶的文件讀寫類CStdioFile。
CStdioFile這個文件讀寫類,估計大家都不陌生。這個類的父類,是CFile類。CStdioFile類本身的功能也很簡單。CStdioFile類有一個成員函數是ReadString,函數的定義如下:
virtual LPTSTR ReadString(__out_ecount_z(nMax) LPTSTR lpsz, __in UINT nMax);
virtual BOOL ReadString(CString& rString);
MSDN定義如下
http://msdn.microsoft.com/library/x5t0zfyf(VS.80).aspx:
BOOL ReadString(CString& rString);
throw( CFileException );
Return Value
A pointer to the buffer containing the text data. NULL if end-of-file was reached without reading any data; or if boolean, FALSE if end-of-file was reached without reading any data.
ReadString函數能直接讀取文本中的一行數據到CString中,很方便。讀到文件結尾,沒有讀出任何數據的時候,返回FALSE。很簡單的函數,但恰恰是這個函數有Bug。
程序在處理數據的時候,會生成一些臨時文件,然后會讀取這些臨時文件中的數據,讀取操作,正是用的CStdioFile的ReadString函數。讀取流程很簡單:
while(dFile.ReadString(Str_temp))
{
doSomething();
}
當時的現象為,讀取到最后一行,總是直接返回FALSE,怎么也讀不出最后一行來??戳丝次募淖詈笠恍?,包含2176個字符的數據,沒有換行符。沒有任何異常啊。當時沒想到是MFC的Bug,因為以前有這樣那樣的毛病,多數是預報數據本身有問題,所以這次也是先分析數據了。分析來分析去,沒發(fā)現這次的數據有什么異常。后來發(fā)現如果最后一行的文件不是2176個字符,就能正常讀出來。奇了怪了,2176也不是什么特殊長度啊。實驗了幾次后,覺的是在不對勁。莫非是MFC的Bug?
二。發(fā)現問題所在
決定看看MFC的代碼再說。做了個簡單的測試程序,跟到MFC代碼里一看,果然是MFC的問題!測試代碼如下:
CStdioFile dFile;
dFile.Open("text.txt",CFile::modeRead);
CString str;
while (dFile.ReadString(str) != FALSE )
{
printf("%s", str);
}
dFile.Close();
測試代碼很簡單,讀text.txt文件中的每一行,然后打印出來。還是2176個字符就不行。確定了不是數據的問題,就是MFC代碼本身的Bug。
MFC的ReadString代碼如下:(中文是我加的注釋)
BOOL CStdioFile::ReadString(CString& rString)
{
ASSERT_VALID(this);
rString = &afxChNil; // empty string without deallocating
const int nMaxSize = 128; //臨時字符串的長度
LPTSTR lpsz = rString.GetBuffer(nMaxSize); //保存每次讀取到的字符串到CString中
LPTSTR lpszResult; //指向每次讀到的字符串
int nLen = 0;
for (;;)
{
lpszResult = _fgetts(lpsz, nMaxSize+1, m_pStream); //讀取操作
rString.ReleaseBuffer();
// handle error/eof case
if (lpszResult == NULL && !feof(m_pStream))
{
clearerr(m_pStream);
AfxThrowFileException(CFileException::generic, _doserrno,
m_strFileName);
}
// if string is read completely or EOF
if (lpszResult == NULL ||
(nLen = lstrlen(lpsz)) < nMaxSize ||
lpsz[nLen-1] == '\n')
break;
nLen = rString.GetLength();
lpsz = rString.GetBuffer(nMaxSize + nLen) + nLen; //位置后移
}
// remove '\n' from end of string if present
lpsz = rString.GetBuffer(0);
nLen = rString.GetLength();
if (nLen != 0 && lpsz[nLen-1] == '\n') // 最后結果中,去掉回車符
rString.GetBufferSetLength(nLen-1);
return lpszResult != NULL; // 這里就是Bug的關鍵。返回值不對!
}
可以看到,ReadString的底層,是用fgets來讀取文件的。在內部,每次讀取128個字符到CString中,然后位置后移,反復讀取128個字符,直到遇到回車符或者文件結束。最后把回車符去掉,返回一個CString。其中,lpszResult也指向每次讀出的字符串。
這里就看出問題所在了,2176個字符,正好是128的17倍!也就是說,只要文件最后一行是128倍數個字符,就一定會返回FALSE。
為什么會這樣呢,因為ReadString在每次讀取128個字符的時候,用lpszResult指向讀取到的字符串。如果讀滿了128個字符,就繼續(xù)讀,如果讀到的字符不夠128個,那么就結束讀取。
當一行數據正好為128的倍數,又沒有回車符的時候,會發(fā)生什么呢?比如最后一行數據是128個,那么,讀一次128個字符,會繼續(xù)讀下一次,但是下一次的讀取,什么也沒有讀到,lpszResult就指向NULL,最后的返回值,是return lpszResult != NULL; 所以返回FALSE。
但之前讀到的128個字符,已經在CString里面了。也就是說實際上讀取已經成功了,但還是返回了FALSE。返回值不恰當!
Bug的描述:當文件的最后一行數據,正好是128的倍數個字符的時候,用ReadString讀取,一定會返回FALSE。但實際上讀取是成功的,返回的CString中的數據是正確的!(VC6.0中存在這個Bug,VS2005中,沒有這個Bug)
這個Bug,只會影響到最后一行數據。因為如果有換行符的存在,lpszResult就不會為NULL。
三。解決方法
要解決這個問題,也簡單,修改一下判斷ReadString成功與否的語句:
while (dFile.ReadString(str) != FALSE || str.GetLength() != 0)
在返回FALSE的情況下,CString的長度不為0,就不算讀取失敗?;蛘哌@樣:
if(!dFile.ReadString(str) && str.GetLength() == 0)
在返回FALSE并且CString的長度為0,則算讀取失敗,否則就是讀取成功。
這個程序,是用VC6.0做的,我有看了看VC2005中的代碼,發(fā)現這個Bug被修復了,代碼如下:
BOOL CStdioFile::ReadString(CString& rString)
{
ASSERT_VALID(this);
rString = _T(""); // empty string without deallocating
const int nMaxSize = 128;
LPTSTR lpsz = rString.GetBuffer(nMaxSize);
LPTSTR lpszResult;
int nLen = 0;
for (;;)
{
lpszResult = _fgetts(lpsz, nMaxSize+1, m_pStream);
rString.ReleaseBuffer();
// handle error/eof case
if (lpszResult == NULL && !feof(m_pStream))
{
Afx_clearerr_s(m_pStream);
AfxThrowFileException(CFileException::genericException, _doserrno,
m_strFileName);
}
// if string is read completely or EOF
if (lpszResult == NULL ||
(nLen = (int)lstrlen(lpsz)) < nMaxSize ||
lpsz[nLen-1] == '\n')
break;
nLen = rString.GetLength();
lpsz = rString.GetBuffer(nMaxSize + nLen) + nLen;
}
// remove '\n' from end of string if present
lpsz = rString.GetBuffer(0);
nLen = rString.GetLength();
if (nLen != 0 && lpsz[nLen-1] == '\n')
rString.GetBufferSetLength(nLen-1);
return nLen != 0; //返回值變了!
}
我們看到,VC2005中,讀取部分的代碼與VC6.0中的代碼完全一樣。不一樣的地方只是返回值的部分。VC2005的ReadString中,返回值為
return nLen != 0;
也就是說,只要讀出的CString的長度不為0就為讀取成功。與我修改后的方法完全一致。就這樣向客戶解釋,然后修改了。悲劇的是,幾年前所有程序中所有使用ReadString函數的地方,都要進行修改。。。
MFC的這個Bug比較隱蔽,平常不容易發(fā)現,但一旦遇到特殊長度的數據,就會表現異常。所以,在用VC6.0開發(fā)的時候,盡量避免使用ReadString,或者在使用中,多判斷一步讀取出來的CString長度。避開這個Bug。