偶然發現一個用了STL很久都沒有發現的問題,特記之。
事情的起因很簡單,需要做一些簡單的重構,將原來讀文件得到二進制緩沖數據的部分分離開,拉一個單獨的API,接收文件二進制內容的緩沖區參數;估計很多人都會做這樣的事情,將一個小程序變得更有用,不得不把300行的main拆開來,露幾個函數來用。
其他的部分都如想象般的簡單,唯獨在測試原有讀文件調用新接口的地方卡住了。
原來的邏輯如此這般:
FILE* fin = open("file.bin", "rb");
if (fin == NULL)
{
exit(-1);
}
unsigned char buf[65536] = {0};
char ch;
int i = 0;
while ( (ch = fgetc(fin)) != EOF)
{
buf[i++] = ch;
if (i >= sizeof(buf))
exit(-2);
}
//..................
改寫后的調用接口如下:
typedef std::vector<unsigned char> BinaryBufferType;
int SomeFunc(BinaryBufferType& buf, ...)
為了完成接口測試并且還原原有功能,需要將文件內容讀入到一個vector中來測試。初始的想法如下:
ifstream ifs("file.bin", ios::in|ios::binary);
if (!ifs.good())
{
exit(-1);
}
typedef std::istream_iterator<char> FsIt;
BinaryBufferType buf;
std::copy(FsIt(ifs), FsIt(), std::back_inserter(buf));
除了出錯檢查,重要的部分就是一個copy調用將STL流的內容自動拷貝到vector里邊;這是一個很典型的例子,乃至SGI的文檔里邊關于copy算法的例子就是這樣的。
問題是,這個代碼卻是有問題的,和上邊的C代碼并不等價,實際測試的過程中,發現居然漏掉了3個Byte的數據。
頓時感覺很奇怪了,馬上GDB跟了下,由于數據太多,一下子沒看出來那個出書丟了(后來發現是0c);想想是否與binary方式有關呢,已經采用binary方式讀入了呀?
Google一番才發現有人遇到了同樣的問題,原來 stream_iterator 默認采用的是formatted I/O方式處理數據,所以某些東西會被跳過。
如果需要拷貝二進制數據,該采用如下的法子:
typedef std::istreambuf_iterator<char> FsIt;
BinaryBufferType buf;
std::copy(FsIt(buf.rdbuf()), FsIt(), std::back_inserter(buf));
就是這點小小的差別,以前一直被忽略了…… 浪費了不少時間,當時如果搜索istreambuf_iterator,似乎能發現Effective STL里邊講述過這個,可惜當時看的時候,很快過去,
居然一點印象都沒有?
真是“絕知此事要躬行”了。