?
Linux的最大的好處之一就是它的源碼公開。同時,公開的核心源碼也吸引著無數(shù)的電腦愛好者和程序員;他們把解讀和分析Linux的核心源碼作為自己的最大興趣,把修改Linux源碼和改造Linux系統(tǒng)作為自己對計算機技術(shù)追求的最大目標(biāo)。
Linux內(nèi)核源碼是很具吸引力的,特別是當(dāng)你弄懂了一個分析了好久都沒搞懂的問題;或者是被你修改過了的內(nèi)核,順利通過編譯,一切運行正常的時候。那種成就感真是油然而生!而且,對內(nèi)核的分析,除了出自對技術(shù)的狂熱追求之外,這種令人生畏的勞動所帶來的回報也是非常令人著迷的,這也正是它擁有眾多追隨者的主要原因:
首先,你可以從中學(xué)到很多的計算機的底層知識,如后面將講到的系統(tǒng)的引導(dǎo)和硬件提供的中斷機制等;其它,象虛擬存儲的實現(xiàn)機制,多任務(wù)機制,系統(tǒng)保護機制等等,這些都是非都源碼不能體會的。
同時,你還將從操作系統(tǒng)的整體結(jié)構(gòu)中,體會整體設(shè)計在軟件設(shè)計中的份量和作用,以及一些宏觀設(shè)計的方法和技巧:Linux的內(nèi)核為上層應(yīng)用提供一個與具體硬件不相關(guān)的平臺;同時在內(nèi)核內(nèi)部,它又把代碼分為與體系結(jié)構(gòu)和硬件相關(guān)的部分,和可移植的部分;再例如,Linux雖然不是微內(nèi)核的,但他把大部分的設(shè)備驅(qū)動處理成相對獨立的內(nèi)核模塊,這樣減小了內(nèi)核運行的開銷,增強了內(nèi)核代碼的模塊獨立性。
而且你還能從對內(nèi)核源碼的分析中,體會到它在解決某個具體細節(jié)問題時,方法的巧妙:如后面將分析到了的Linux通過Botoom_half機制來加快系統(tǒng)對中斷的處理。
最重要的是:在源碼的分析過程中,你將會被一點一點地、潛移默化地專業(yè)化。一個專業(yè)的程序員,總是把代碼的清晰性,兼容性,可移植性放在很重要的位置。他們總是通過定義大量的宏,來增強代碼的清晰度和可讀性,而又不增加編譯后的代碼長度和代碼的運行效率;他們總是在編碼的同時,就考慮到了以后的代碼維護和升級。 甚至,只要分析百分之一的代碼后,你就會深刻地體會到,什么樣的代碼才是一個專業(yè)的程序員寫的,什么樣的代碼是一個業(yè)余愛好者寫的。而這一點是任何沒有真正分析過標(biāo)準(zhǔn)代碼的人都無法體會到的。
然而,由于內(nèi)核代碼的冗長,和內(nèi)核體系結(jié)構(gòu)的龐雜,所以分析內(nèi)核也是一個很艱難,很需要毅力的事;在缺乏指導(dǎo)和交流的情況下,尤其如此。只有方法正確,才能事半功倍。正是基于這種考慮,作者希望通過此文能給大家一些借鑒和啟迪。
由于本人所進行的分析都是基于2.2.5版本的內(nèi)核;所以,如果沒有特別說明,以下分析都是基于i386單處理器的2.2.5版本的Linux內(nèi)核。所有源文件均是相對于目錄/usr/src/linux的。
方法之一:從何入手
要分析Linux內(nèi)核源碼,首先必須找到各個模塊的位置,也即要弄懂源碼的文件組織形式。雖然對于有經(jīng)驗的高手而言,這個不是很難;但對于很多初級的Linux愛好者,和那些對源碼分析很有興趣但接觸不多的人來說,這還是很有必要的。
1、Linux核心源程序通常都安裝在/usr/src/linux下,而且它有一個非常簡單的編號約定:任何偶數(shù)的核心(的二個數(shù)為偶數(shù),例如2.0.30)都是一個穩(wěn)定地發(fā)行的核心,而任何奇數(shù)的核心(例如2.1.42)都是一個開發(fā)中的核心。
2、核心源程序的文件按樹形結(jié)構(gòu)進行組織,在源程序樹的最上層,即目錄/usr/src/linux下有這樣一些目錄和文件:
● COPYING: GPL版權(quán)申明。對具有GPL版權(quán)的源代碼改動而形成的程序,或使用GPL工具產(chǎn)生的程序,具有使用GPL發(fā)表的義務(wù),如公開源代碼。
● CREDITS: 光榮榜。對Linux做出過很大貢獻的一些人的信息。
● MAINTAINERS: 維護人員列表,對當(dāng)前版本的內(nèi)核各部分都有誰負責(zé)。
● Makefile: 第一個Makefile文件。用來組織內(nèi)核的各模塊,記錄了個模塊間的相互這間的聯(lián)系和依托關(guān)系,編譯時使用。仔細閱讀各子目錄下的Makefile文件對弄清各個文件這間的聯(lián)系和依托關(guān)系很有幫助。
● ReadMe: 核心及其編譯配置方法簡單介紹。
● Rules.make: 各種Makefilemake所使用的一些共同規(guī)則。
● REPORTING-BUGS:有關(guān)報告Bug 的一些內(nèi)容。
● Arch/ :arch子目錄包括了所有和體系結(jié)構(gòu)相關(guān)的核心代碼。它的每一個子目錄都代表一種支持的體系結(jié)構(gòu),例如i386就是關(guān)于intel cpu及與之相兼容體系結(jié)構(gòu)的子目錄。PC機一般都基于此目錄。
● Include/: include子目錄包括編譯核心所需要的大部分頭文件。與平臺無關(guān)的頭文件在 include/linux子目錄下,與 intel cpu相關(guān)的頭文件在include/asm-i386子目錄下,而include/scsi目錄則是有關(guān)scsi設(shè)備的頭文件目錄。
● Init/: 這個目錄包含核心的初始化代碼(注:不是系統(tǒng)的引導(dǎo)代碼),包含兩個文件main.c和Version.c,這是研究核心如何工作的好的起點之一。
● Mm/:這個目錄包括所有獨立于 cpu 體系結(jié)構(gòu)的內(nèi)存管理代碼,如頁式存儲管理內(nèi)存的分配和釋放等。而和體系結(jié)構(gòu)相關(guān)的內(nèi)存管理代碼則位于arch/*/mm/,例如arch/i386/mm/Fault.c。
● Kernel/:主要的核心代碼,此目錄下的文件實現(xiàn)了大多數(shù)linux系統(tǒng)的內(nèi)核函數(shù),其中最重要的文件當(dāng)屬sched.c。同樣,和體系結(jié)構(gòu)相關(guān)的代碼在arch/*/kernel中。
● Drivers/: 放置系統(tǒng)所有的設(shè)備驅(qū)動程序。每種驅(qū)動程序又各占用一個子目錄:如,/block 下為塊設(shè)備驅(qū)動程序,比如ide(ide.c)。如果你希望查看所有可能包含文件系統(tǒng)的設(shè)備是如何初始化的,你可以看drivers/block/genhd.c中的device_setup()。它不僅初始化硬盤,也初始化網(wǎng)絡(luò),因為安裝nfs文件系統(tǒng)的時候需要網(wǎng)絡(luò)。
● Documentation/: 文檔目錄,沒有內(nèi)核代碼,只是一套有用的文檔,可惜都是English的,看看應(yīng)該有用的哦。
● Fs/: 所有的文件系統(tǒng)代碼和各種類型的文件操作代碼,它的每一個子目錄支持一個文件系統(tǒng), 例如fat和ext2。
● Ipc/: 這個目錄包含核心的進程間通訊的代碼。
● Lib/: 放置核心的庫代碼。
● Net/: 核心與網(wǎng)絡(luò)相關(guān)的代碼。
● Modules/: 模塊文件目錄,是個空目錄,用于存放編譯時產(chǎn)生的模塊目標(biāo)文件。
● Scripts/: 描述文件,腳本,用于對核心的配置。
一般,在每個子目錄下,都有一個 Makefile 和一個Readme 文件,仔細閱讀這兩個文件,對內(nèi)核源碼的理解很有用。
對Linux內(nèi)核源碼的分析,有幾個很好的入口點:一個就是系統(tǒng)的引導(dǎo)和初始化,即從機器加電到系統(tǒng)核心的運行;另外一個就是系統(tǒng)調(diào)用,系統(tǒng)調(diào)用是用戶程序或操作調(diào)用核心所提供的功能的接口。對于那些對硬件比較熟悉的愛好者,從系統(tǒng)的引導(dǎo)入手進行分析,可能來的容易一些;而從系統(tǒng)調(diào)用下口,則可能更合適于那些在dos或Uinx、Linux下有過C編程經(jīng)驗的高手。這兩點,在后面還將介紹到。
方法之二:以程序流程為線索,一線串珠
從表面上看,Linux的源碼就象一團扎亂無章的亂麻,其實它是一個組織得有條有理的蛛網(wǎng)。要把整個結(jié)構(gòu)分析清楚,除了找出線頭,還得理順各個部分之間的關(guān)系,有條不紊的一點一點的分析。
所謂以程序流程為線索、一線串珠,就是指根據(jù)程序的執(zhí)行流程,把程序執(zhí)行過程所涉及到的代碼分析清楚。這種方法最典型的應(yīng)用有兩個:一是系統(tǒng)的初始化過程;二是應(yīng)用程序的執(zhí)行流程:從程序的裝載,到運行,一直到程序的退出。
為了簡便起見,遵從循序漸進的原理,現(xiàn)就系統(tǒng)的初始化過程來具體的介紹這種方法。系統(tǒng)的初始化流程包括:系統(tǒng)引導(dǎo),實模式下的初始化,保護模式下的初始化共三個部分。下面將一一介紹。
Linux系統(tǒng)的常見引導(dǎo)方式有兩種:Lilo引導(dǎo)和Loadin引導(dǎo);同時linux內(nèi)核也自帶了一個bootsect-loader。由于它只能實現(xiàn)linux的引導(dǎo),不像前兩個那樣具有很大的靈活性(lilo可實現(xiàn)多重引導(dǎo)、loadin可在dos下引導(dǎo)linux),所以在普通應(yīng)用場合實際上很少使用bootsect-loader。當(dāng)然,bootsect-loader也具有它自己的優(yōu)點:短小沒有多余的代碼、附帶在內(nèi)核源碼中、是內(nèi)核源碼的有機組成部分,等等。
bootsect-loader在內(nèi)和源碼中對應(yīng)的程序是 /Arch/i386/boot/bootsect.S 。下面將主要是針對此文件進行的分析。
幾個相關(guān)文件:
<1> /Arch/i386/boot/bootsect.S
<2> /include/linux/config.h
<3> /include/asm/boot.h
<4> /include/linux/autoconf.h/PRE> |
/CENTER>
引導(dǎo)過程分析:
對于Intel x86 PC , 開啟電源后, 機器就會開始執(zhí)行ROM BIOS的一系列系統(tǒng)測試動作,包括檢查RAM,keyboard,顯示器,軟硬磁盤等等。執(zhí)行完bios的系統(tǒng)測試之后,緊接著控制權(quán)會轉(zhuǎn)移給ROM中的啟動程序(ROM bootstrap routine);這個程序會將磁盤上的第0軌第0扇區(qū)(叫boot sector或MBR ,系統(tǒng)的引導(dǎo)程序就放在此處)讀入內(nèi)存中,并放到自0x07C0:0x0000開始的512個字節(jié)處;然后處理機將跳到此處開始執(zhí)行這一引導(dǎo)程序;也即裝入MBR中的引導(dǎo)程序后, CS:IP = 0x07C0:0x0000 。加電后處理機運行在與8086相兼容的實模式下。
如果要用bootsect-loader進行系統(tǒng)引導(dǎo),則必須把bootsect.S編譯連接后對應(yīng)的二進制代碼置于MBR; 當(dāng)ROM BIOS 把bootsect.S編譯連接后對應(yīng)的二進制代碼裝入內(nèi)存后,機器的控制權(quán)就完全轉(zhuǎn)交給bootsect; 也就是說,bootsect將是第一個被讀入內(nèi)存中并執(zhí)行的程序。