二進(jìn)制文件,這個再基礎(chǔ)不過的名詞,正因為它的無處不在,或許沒有人會關(guān)注它背后隱含的內(nèi)容。其實我也一樣,在寫下這些文字之前,我也是認(rèn)為二進(jìn)制文件就像空氣一樣,平常得讓人完全忽略了。
很偶然的,今天在寫代碼的時候使用了fopen函數(shù):
FILE * fopen (const char * filename, const char * mode)
大家可以看到第二個參數(shù)是mode,而這個參數(shù)定義了文件打開的方式,w、a等都可以做為函數(shù)的實參。除此之外,還有兩個值:t和
b。這兩個值定義了文件是按照文本(text)還是二進(jìn)制(binary)方式開發(fā)。正是這個兩個值引起了我對二進(jìn)制文件的興趣,因為它們
讓我想到了很多問題。
首先,出現(xiàn)在腦海的第一個問題是:文本文件和二進(jìn)制文件有什么區(qū)別呢?我想這個問題并不是每個程序員能夠馬上回答
上來的,至少我是不行了。查閱了資料之后,發(fā)現(xiàn)答案就在自己的知識范圍之內(nèi)的:將文件看作是由一個一個字節(jié)(byte) 組成的,
那么文本文件中的每個字節(jié)的最高位都是0,也就是說文本文件使用了一個字節(jié)中的七位來表示所有的信息,而二進(jìn)制文件則是將字
節(jié)中的所有位都用上了。這就是兩者的區(qū)別;
接著,第二個問題就是文件按照文本方式或者二進(jìn)制方式打開,兩者會有什么不同呢?其實不管是二進(jìn)制文件也好,還是
文本文件也好,都是一連串的0和1,但是打開方式不同,對于這些0和1的處理也就不同。如果按照文本方式打開,在打開的時候會
進(jìn)行translate,將每個字節(jié)轉(zhuǎn)換成ASCII碼,而以按照二進(jìn)制方式打開的話,則不會進(jìn)行任何的translate;
最后就是文本文件和二進(jìn)制文件在編輯的時候,使用的方式也是不同的。譬如,你在記事本中進(jìn)行文本編輯的時候,你進(jìn)
行編輯的最小單位是字節(jié)(byte);而對二進(jìn)制文件進(jìn)行編輯的話,最小單位則是位(bit),當(dāng)然我們都不會直接通過手工的方式對二
進(jìn)制文件進(jìn)行編輯了。
----------------2---------------
二進(jìn)制文件和文本文件都是0,1組成,但文件系統(tǒng)對他們的解釋不一樣,一般系統(tǒng)調(diào)用(或WIN32API)都會分為字符
式和二進(jìn)制式(或流式).文本或字符文件代表慢速設(shè)備,而二進(jìn)制文件代表可以大塊數(shù)據(jù)操作的快速外設(shè),二進(jìn)制文件內(nèi)容基本無意義
,系統(tǒng)對它不加解釋地傳給調(diào)用者,解釋由調(diào)用者負(fù)責(zé).而對字符文件,系統(tǒng)把他理解為單字節(jié)的ASCII或多字節(jié)的UNICODE字符串,并且
對其中的特殊字符(如回車等)加以特殊處理.所以同一個文件,可以使用不同類型的系統(tǒng)調(diào)用.
文本文件也叫做ASCII碼文件,與以‘文本方式’打開文件不是同一個概念!文本文件存儲的是ASSCII碼字符,即存儲在磁盤上只占用二進(jìn)制的0x20--0x7e。另外,還有回車(0x0d),換行(0x0a),TAB(0x09)等,所以有可壓縮的空間。
換行和回車是不同的,而且在不同的操作系統(tǒng),解釋也不相同。‘\n’一般會操作系統(tǒng)被翻譯成"行的結(jié)束",即LF(Line-Feed);‘\r’會被翻譯成"回車",即CR(Cariage-Return)
回車(CR)和換行(LF)符都是用來表示“下一行”的。而標(biāo)準(zhǔn)沒有規(guī)定要使用哪一個。于是產(chǎn)生了三種不同的用法:
(1) Dos和windows采用回車+換行(CR+LG)表示下一行
(2) UNIX采用換行符(LF)表示下一行
(3) MAC機采用回車符(CR)表示下一行。
當(dāng)在不同的系統(tǒng)間傳遞文件,就要涉及格式的轉(zhuǎn)換。
文本方式和二進(jìn)制方式的最大區(qū)別在于文本方式對于'\n'換行符的理解不同
(1)在DOS平臺下,該字符會被展開成<CR>< LF>兩個控制字符(相當(dāng)于"\r\n"),在ASCII字符集下是 0DH,0AH
(2)在UNIX平臺下,僅僅是<LF>,不會展開。
(3)在二進(jìn)制方式下,不管是什么平臺,'\n'都是精確的<LF>。
在linux/unix 系統(tǒng)上,只有一種文件類型的系統(tǒng),帶b字母的模式和對應(yīng)的不帶b字母的模式是相同的。(UNIX文本文件通常不包含Ctrl+Z和\r)
關(guān)于EOF:
EOF可以作為文本文件的結(jié)束標(biāo)志,但不能作為二進(jìn)制文件的結(jié)束符.feof函數(shù)既可以判斷二進(jìn)制文件,又可以判斷文本文件.
EOF在Windows下是ctrl+z,linux下是ctrl+D.