偶然發(fā)現(xiàn)一個(gè)用了STL很久都沒(méi)有發(fā)現(xiàn)的問(wèn)題,特記之。
事情的起因很簡(jiǎn)單,需要做一些簡(jiǎn)單的重構(gòu),將原來(lái)讀文件得到二進(jìn)制緩沖數(shù)據(jù)的部分分離開(kāi),拉一個(gè)單獨(dú)的API,接收文件二進(jìn)制內(nèi)容的緩沖區(qū)參數(shù);估計(jì)很多人都會(huì)做這樣的事情,將一個(gè)小程序變得更有用,不得不把300行的main拆開(kāi)來(lái),露幾個(gè)函數(shù)來(lái)用。
其他的部分都如想象般的簡(jiǎn)單,唯獨(dú)在測(cè)試原有讀文件調(diào)用新接口的地方卡住了。
原來(lái)的邏輯如此這般:
FILE* fin = open("file.bin", "rb");
if (fin == NULL)
{
exit(-1);
}
unsigned char buf[65536] = {0};
char ch;
int i = 0;
while ( (ch = fgetc(fin)) != EOF)
{
buf[i++] = ch;
if (i >= sizeof(buf))
exit(-2);
}
//..................
改寫后的調(diào)用接口如下:
typedef std::vector<unsigned char> BinaryBufferType;
int SomeFunc(BinaryBufferType& buf, ...)
為了完成接口測(cè)試并且還原原有功能,需要將文件內(nèi)容讀入到一個(gè)vector中來(lái)測(cè)試。初始的想法如下:
ifstream ifs("file.bin", ios::in|ios::binary);
if (!ifs.good())
{
exit(-1);
}
typedef std::istream_iterator<char> FsIt;
BinaryBufferType buf;
std::copy(FsIt(ifs), FsIt(), std::back_inserter(buf));
除了出錯(cuò)檢查,重要的部分就是一個(gè)copy調(diào)用將STL流的內(nèi)容自動(dòng)拷貝到vector里邊;這是一個(gè)很典型的例子,乃至SGI的文檔里邊關(guān)于copy算法的例子就是這樣的。
問(wèn)題是,這個(gè)代碼卻是有問(wèn)題的,和上邊的C代碼并不等價(jià),實(shí)際測(cè)試的過(guò)程中,發(fā)現(xiàn)居然漏掉了3個(gè)Byte的數(shù)據(jù)。
頓時(shí)感覺(jué)很奇怪了,馬上GDB跟了下,由于數(shù)據(jù)太多,一下子沒(méi)看出來(lái)那個(gè)出書丟了(后來(lái)發(fā)現(xiàn)是0c);想想是否與binary方式有關(guān)呢,已經(jīng)采用binary方式讀入了呀?
Google一番才發(fā)現(xiàn)有人遇到了同樣的問(wèn)題,原來(lái) stream_iterator 默認(rèn)采用的是formatted I/O方式處理數(shù)據(jù),所以某些東西會(huì)被跳過(guò)。
如果需要拷貝二進(jìn)制數(shù)據(jù),該采用如下的法子:
typedef std::istreambuf_iterator<char> FsIt;
BinaryBufferType buf;
std::copy(FsIt(buf.rdbuf()), FsIt(), std::back_inserter(buf));
就是這點(diǎn)小小的差別,以前一直被忽略了…… 浪費(fèi)了不少時(shí)間,當(dāng)時(shí)如果搜索istreambuf_iterator,似乎能發(fā)現(xiàn)Effective STL里邊講述過(guò)這個(gè),可惜當(dāng)時(shí)看的時(shí)候,很快過(guò)去,
居然一點(diǎn)印象都沒(méi)有?
真是“絕知此事要躬行”了。