二進制文件,這個再基礎不過的名詞,正因為它的無處不在,或許沒有人會關注它背后隱含的內容。其實我也一樣,在寫下這些文字之前,我也是認為二進制文件就像空氣一樣,平常得讓人完全忽略了。
很偶然的,今天在寫代碼的時候使用了fopen函數:
FILE * fopen (const char * filename, const char * mode)
大家可以看到第二個參數是mode,而這個參數定義了文件打開的方式,w、a等都可以做為函數的實參。除此之外,還有兩個值:t和
b。這兩個值定義了文件是按照文本(text)還是二進制(binary)方式開發。正是這個兩個值引起了我對二進制文件的興趣,因為它們
讓我想到了很多問題。
首先,出現在腦海的第一個問題是:文本文件和二進制文件有什么區別呢?我想這個問題并不是每個程序員能夠馬上回答
上來的,至少我是不行了。查閱了資料之后,發現答案就在自己的知識范圍之內的:將文件看作是由一個一個字節(byte) 組成的,
那么文本文件中的每個字節的最高位都是0,也就是說文本文件使用了一個字節中的七位來表示所有的信息,而二進制文件則是將字
節中的所有位都用上了。這就是兩者的區別;
接著,第二個問題就是文件按照文本方式或者二進制方式打開,兩者會有什么不同呢?其實不管是二進制文件也好,還是
文本文件也好,都是一連串的0和1,但是打開方式不同,對于這些0和1的處理也就不同。如果按照文本方式打開,在打開的時候會
進行translate,將每個字節轉換成ASCII碼,而以按照二進制方式打開的話,則不會進行任何的translate;
最后就是文本文件和二進制文件在編輯的時候,使用的方式也是不同的。譬如,你在記事本中進行文本編輯的時候,你進
行編輯的最小單位是字節(byte);而對二進制文件進行編輯的話,最小單位則是位(bit),當然我們都不會直接通過手工的方式對二
進制文件進行編輯了。
----------------2---------------
二進制文件和文本文件都是0,1組成,但文件系統對他們的解釋不一樣,一般系統調用(或WIN32API)都會分為字符
式和二進制式(或流式).文本或字符文件代表慢速設備,而二進制文件代表可以大塊數據操作的快速外設,二進制文件內容基本無意義
,系統對它不加解釋地傳給調用者,解釋由調用者負責.而對字符文件,系統把他理解為單字節的ASCII或多字節的UNICODE字符串,并且
對其中的特殊字符(如回車等)加以特殊處理.所以同一個文件,可以使用不同類型的系統調用.
文本文件也叫做ASCII碼文件,與以‘文本方式’打開文件不是同一個概念!文本文件存儲的是ASSCII碼字符,即存儲在磁盤上只占用二進制的0x20--0x7e。另外,還有回車(0x0d),換行(0x0a),TAB(0x09)等,所以有可壓縮的空間。
換行和回車是不同的,而且在不同的操作系統,解釋也不相同。‘\n’一般會操作系統被翻譯成"行的結束",即LF(Line-Feed);‘\r’會被翻譯成"回車",即CR(Cariage-Return)
回車(CR)和換行(LF)符都是用來表示“下一行”的。而標準沒有規定要使用哪一個。于是產生了三種不同的用法:
(1) Dos和windows采用回車+換行(CR+LG)表示下一行
(2) UNIX采用換行符(LF)表示下一行
(3) MAC機采用回車符(CR)表示下一行。
當在不同的系統間傳遞文件,就要涉及格式的轉換。
文本方式和二進制方式的最大區別在于文本方式對于'\n'換行符的理解不同
(1)在DOS平臺下,該字符會被展開成<CR>< LF>兩個控制字符(相當于"\r\n"),在ASCII字符集下是 0DH,0AH
(2)在UNIX平臺下,僅僅是<LF>,不會展開。
(3)在二進制方式下,不管是什么平臺,'\n'都是精確的<LF>。
在linux/unix 系統上,只有一種文件類型的系統,帶b字母的模式和對應的不帶b字母的模式是相同的。(UNIX文本文件通常不包含Ctrl+Z和\r)
關于EOF:
EOF可以作為文本文件的結束標志,但不能作為二進制文件的結束符.feof函數既可以判斷二進制文件,又可以判斷文本文件.
EOF在Windows下是ctrl+z,linux下是ctrl+D.