來自:夢在天涯C++博客(http://www.shnenglu.com/mzty/)
一 引言
作為一名windows系統上圖形軟件開發者已經有3個多年頭了,在此過程中有不少的經歷和經驗,非常高興與大家分享,今天主要是《windows via C++》一書的閱讀心得,所以主要談到的是windows上C++的開發。
二 C++語言
我們知道C++是一門ISO的面向對象的語言,下面我介紹他的三個方面,也正是這三個主要方面決定了他被廣泛的使用。第一,C++是一個功能強大的語言。比如C++語言本身提供的基于C語言的內嵌類型,數組,結構體和指針等,C++比C新加入的面向對象的Class,繼承,多態和模板等,還有C++標準模板庫(STL)提供的實際開發當中常用的數據結構和算法的實現;第二,大量的開源和第三方庫,如果在windows上使用C++開發,我們還可以借助microsoft對C++提供的強有力的支持,首先的VS編譯器,還有UI庫MFC,還有ATL等;除此之外我們還可以看到其他的許多非microsoft的開源的和第三方的支持,比如說Boost很大程度的擴充了STL,提供了更多更高級的功能,還有Loki把C++與設計模式結合起來,還有很多的第三方的UI庫,比如QT,WxWindows,WTL,GTK等,第三方的網絡通信庫,比如ACE,StreamModule等,第三那的XML庫,比如Xerces,CMarkup,tinyxml等,第三方的科學計算庫,比如Blitz++,MTL等,第三方的游戲開發庫,比如OGRE,KlayGE等,第三方的線程庫,比如C++ Threads,ZThreads等,還有其他的很多。第三,C++的高性能。這個也是毋庸質疑的,我們知道的大部分的操作系統,嵌入式開發,游戲,圖像軟件離不開C++,這都是跟C++的高性能有很大的關系。但從這一點來看,這就是很多現代的其他的高級語言沒有的,所以C++以后仍然有很長的路要走。
三 《Windows via c++》之經典
上面說了C++語言本身,這里具體到windows系統上C++的開發,我們要基于windows系統開發軟件,就難免的要和windows系統打交道,比如系統本身對字符編碼的支持,系統的異常處理機制,線程的創建管理,進程的創建管理,內存和虛擬內存的使用,堆棧的操作,DLL的使用等。上面提到的這些都不是C++語言本身的職責,是需要操作系統提供的支持,而所有這些內容正是《windows via C++》所覆蓋的內容,也正是本書很好的把C++和Windows連接起來,引領C++程序員走向windows的底層,這也正是本書的經典之處!再次感謝作者Jeffrey Richter的偉大貢獻!
1)字符編碼:字符編碼作為字符串的基礎,自然而然就成了我們軟件開發必不可缺少的基石,那么什么是字符編碼那?字符編碼就是字符在計算機內部的表示形式,我們都知道在計算機內部,所有的信息最終都表示為一個二進制的字符串。每一個二進制位(bit)有0和1兩種狀態,因此八個二進制位就可以組合出256種狀態,這被稱為一個字節(byte)。上個世紀60年代,美國制定了一套字符編碼,對英語字符與二進制位之間的關系,做了統一規定。這被稱為ASCII碼,一直沿用至今。ASCII碼一共規定了128個字符的編碼,因為他只占用了一個字節的后面7位,最前面的1位統一規定為0。英語用128個符號編碼就夠了,但是用來表示其他語言,128個符號是不夠的。所以后來就各國有了各國的編碼,比如日文中的漢字遠遠大于256個,所以日文使用如果第一個字符在0 x 8 1 與0 x 9 F 之間,或者在0 x E 0 與0 x F C 之間,那么就必須觀察下一個字節,才能確定字符串中的這個完整的字符。這樣他就使用一個或兩個字節來表示一個字符,這種編碼被稱為雙字節字符集(D B C S )。由于世界上存在著多種編碼方式,這使得同一個二進制數字可以被解釋成不同的符號。因此,要想打開一個文本文件,就必須知道它的編碼方式,否則用錯誤的編碼方式解讀,就會出現亂碼。這個時候Unicode就出現了他將世界上所有的符號都納入其中。每一個符號都給予一個獨一無二的編碼,那么亂碼問題就會消失。但是unicode也有不同的實現,主要的有三種:UTF-16:其本身就是標準的Unicode編碼方案,又稱為UCS-2,它固定使用16 bits(兩個字節)整數來表示一個字符。UTF-32:又稱為UCS-4,它固定使用32 bits(四個字節)整數來表示一個字符。UTF -8:最廣泛的使用的UTF方案,UTF-8使用可變長度字節來儲存Unicode字符,例如ASCII字母繼續使用1字節儲存,重音文字、希臘字母或西里爾字母等使用2字節來儲存,而常用的漢字就要使用3字節。輔助平面字符則使用4字節。UTF-8更便于在使用Unicode的系統與現存的單字節的系統進行數據傳輸和交換。與前兩個方案不同:UTF-8以字節為編碼單元,沒有字節序的問題。但是不管是哪種unicode的實現都可以包含世界所有的字符,解決軟件本地化的難題。
Windows在2000以前使用ASCII,2000及以后的系統都使用unicode來編碼,但是需要注意的是Windows2000既支持Unicode,也支持ANSI,因此可以為任意一種開發應用程序.如果調用任何一個Windows函數并給它傳遞一個ANSI字符串,那么系統首先要將字符串轉換成Unicode,然后將Unicode字符串傳遞給操作系統。如果希望函數返回ANSI字符串,系統就會首先將Unicode字符串轉換成ANSI字符串,然后將結果返回給你的應用程序。所有這些轉換操作都是在你看不見的情況下發生的。當然,進行這些字符串的轉換需要占用系統的時間和內存。比如同一個函數CreateWindowEx(),在內部其實是當ASCII是調用CreateWindowExA(),而當unicode時調用CreateWindowExW()。同時windows系統還給我們提供了ASCII和unicode間的轉化函數MultiByteToWideChar()和WideCharToMultiByte()。
2)進程和線程:進程通常被定義為一個正在運行的程序的實例,它由兩個部分組成,第一, 一個是操作系統用來管理進程的內核對象,內核對象也是系統用來存放關于進程的統計信息的地方;第二,是地址空間,它包含所有可執行模塊或 D L L 模塊的代碼和數據,它還包含動態內存分配的空間,如線程堆棧和堆分配空間。線程是應用程序執行時的最小單位,同樣線程也是由兩個部分組成的:第一, 一個是線程的內核對象,操作系統用它來對線程實施管理,內核對象也是系統用來存放線程統計信息的地方;第二,線程堆棧,它用于維護線程在執行代碼時需要的所有函數參數和局部變量。
進程是不活潑的,從來不執行任何東西,它只是線程的容器,若要使進程完成某項操作,它必須擁有一個在它的環境中運行的線程,該線程負責執行包含在進程的地址空間中的代碼,當創建一個進程時,系統會自動創建它的第一個線程,稱為主線程,然后,該線程可以創建其他的線程,而這些線程又能創建更多的線程。如果在單進程環境中,你有兩個或多個線程正在運行,那么這兩個線程將共享單個地址空間。這些線程能夠執行相同的代碼,對相同的數據進行操作。這些線程還能共享內核對象句柄,因為句柄表依賴于每個進程而不是每個線程存在。
windows提供和很多函數來創建和管理線程和進程,比如CreateThread(),ExitThread(),TerminateThread(),GetCurrentThread(),CreateProcess(),ExitProcess(),TerminateProcess (),GetCurrentProcess()等。
3)線程同步和線程局部存儲:由于同一進程的所有線程共享進程的虛擬地址空間,并且線程的中斷是匯編語言級的,所以可能會發生兩個線程同時訪問同一個對象(包括全局變量、共享資源、API函數和MFC對象等)的情況,這有可能導致程序錯誤。屬于不同進程的線程在同時訪問同一內存區域或共享資源時,也會存在同樣的問題。因此,在多線程應用程序中,常常需要采取一些措施來同步線程的執行。
windows提供了3中同步機制,分別是信號量Semaphore,互斥量Mutex,關鍵代碼段CriticalSection。其中信號量Semaphore,是一個可以限制對指定的臨界段進行訪問的線程的數目的數據結構。互斥量Mutex和關鍵代碼段CriticalSection,他們的作用是相同的,都是用來保證某時刻只有一個線程能夠訪問全局或靜態的資源。區別是:Mutex是內核對象,可以設置等待超時時間,可以在不同的進程的線程中使用,但是所消耗的時間也比較多。CriticalSection與Mutex相反。
線程局部存儲(TLS),可以為全局或靜態變量對不同的線程有不同的拷貝。
4)線程池:可以實現在程序中根據需要動態的創建線程,比如在server端,根據訪問的用戶的多少來創建線程的多少。在windows2000以后增加了創建線程池的API,比如 QueueUserWorkItem()。
5) 纖程:用戶級的線程機制,比線程小的單位,開發人員負責管理纖程的調度,同時負責確定纖程何時在線程時間片上下文中運行,一般不會帶來性能的提高,主要的目的是為開發人員調度多個不需要并行執行的任務提供一個便捷的機制。單線程可以包含一個或多個纖程。就內核而言,線程是搶占調度的,是正在執行的代碼。然而,線程每次執行一個纖程的代碼,你決定究竟執行哪個纖程,你可以調用ConvertThreadToFiber()將已有的線程轉化位纖程,當對纖程的執行環境進行分配和初始化后,就可以將執行環境的地址與線程關聯起來,該線程被轉換成一個纖程,而纖程則在該線程上運行。現在,如果你的纖程(線程)返回或調用ExitThread函數,那么纖程和線程都會終止運行。除非打算創建更多的纖程以便在同一個線程上運行,否則沒有理由將線程轉換成纖程。若要創建另一個纖程,該線程(當前正在運行纖程的線程)可以調用CreateFiber函數。但是調用CreateFilber創建的纖程并不執行,直到調用SwitchToFiber函數。若要撤消纖程,可以調用DeleteFiber函數。
6) 作業:作業可以看作是一組進程的容器,把這些進程當作一個整體,對這個整體整個加入更多的限制. 因為Windows并不維護進程之間的父/子關系。即使父進程已經終止運行,子進程仍然會繼續運行。Microsoft Windoss 2000提供了一個新的作業內核對象,使你能夠將進程組合在一起,并且創建一個“沙框”,以便限制進程能夠進行的操作。最好將作業對象視為一個進程的容器。但是,創建包含單個進程的作業是有用的,因為這樣一來,就可以對該進程加上通常情況下不能加的限制。創建一個新作業內核對象可以調用CreateJobObject(),另一個進程要訪問作業,可以通過OpenJobObject(),應該知道,關閉作業對象并不會迫使作業中的所有進程終止運行。該作業對象實際上做上了刪除標記,只有當作業中的所有進程全部終止運行之后,該作業對象才被自動撤消。注意,關閉作業的句柄后,盡管該作業仍然存在,但是該作業將無法被所有進程訪問。通過調用SetInformationJobObject()可以給作業加上各種限制.查詢限制QueryInformationJobObject(),將進程放入作業AssignProcessToJobObject(),若要撤銷作業中的進程調用TerminateJobObject()。
7) 虛擬內存,內存映射文件和堆棧:每個進程都被賦予它自己的虛擬地址空間。對于3 2位進程來說,這個地址空間是4 G B,其中默認有2G是用戶可以使用的。由于每個進程可以接收它自己的私有的地址空間,因此當進程中的一個線程正在運行時,該線程可以訪問只屬于它的進程的內存。屬于所有其他進程的內存則隱藏著,并且不能被正在運行的線程訪問。注意在Windows 2000中,屬于操作系統本身的內存也是隱藏的,正在運行的線程無法訪問。這意味著線程常常不能訪問操作系統的數據。
Windows提供了3種進行內存管理的方法,它們是第一, 虛擬內存,最適合用來管理大型對象或結構數組。 第二,內存映射文件,最適合用來管理大型數據流(通常來自文件)以及在單個計算機上運行的多個進程之間共享數據。第三, 內存堆棧,最適合用來管理大量的小對象。
在較老的操作系統中,物理存儲器被視為計算機擁有的R A M的容量。換句話說,如果計算機擁有1 6 M B的R A M,那么加載和運行的應用程序最多可以使用1 6 M B的R A M。今天的操作系統能夠使得磁盤空間看上去就像內存一樣。磁盤上的文件通常稱為頁文件,它包含了可供所有進程使用的虛擬內存。
內存映射文件與虛擬內存一樣,內存映射文件可以用來保留一個地址空間的區域,并將物理存儲器提交給該區域。它們之間的差別是,物理存儲器來自一個已經位于磁盤上的文件,而不是系統的頁文件。一旦該文件被映射,就可以訪問它,就像整個文件已經加載內存一樣。
堆??梢杂脕矸峙湓S多較小的數據塊。例如,若要對鏈接表和鏈接樹進行管理,最好的方法是使用堆棧,堆棧的優點是,可以不考慮分配粒度和頁面邊界之類的問題,集中精力處理手頭的任務。堆棧的缺點是,分配和釋放內存塊的速度比其他機制要慢,并且無法直接控制物理存儲器的提交和回收。進程和線程都有自己的堆棧,而且大小可以更改。
8) DLL使用:windows中廣泛的使用dll來實現模塊化,dll的使用一般有靜態和動態加載,靜態加載一般通過編譯器的設置來實現,動態加載通過使用loadlibrary()和freelibrary()來實現。
9)結構化異常處理(SEH):SEH 是 Windows 系統提供的異常處理功能,跟開發工具無關。windows上其他程序中的異常處理一般底層都是轉化為SEH來實現。實際上,當你寫一條C++ throw語句時,編譯器就生成一個對Windows的RaiseException函數的調用。用于throw語句的變量傳遞給RaiseException作為附加的參數。
四 《Windows via c++》之新增
1)64位支持:最新的系統有64的版本,這樣的話進程就不再有最大4G的內存限制,但是由于64位系統與以前的32位系統其實是一個codebase,所以基本有所的接口都與以前32位保持椅子,這樣的話我們以前的所有的32位的程序只需要從新編譯就可以運行在64系統上,需要特別注意的是指針和句柄的從32位到64位的轉變。
2)windows vista/2008特有:提供了更加安全的stirng函數,一些內核對象的改變等。
3)可重復使用的代碼:大量可在我們日常開發中重復使用的代碼和讓我們更好的理解進程的源代碼processInfo,LockCop等。
五 總結
總之,通過閱讀《Windows via C++》使我們更好的了解windows系統,更好的在windows進行C++開發!推薦windows上C++開發人員可以一讀!