第31條: 要努力減少文件間的編譯依賴
為了更新某個類的某個功能實現,你可能需要在浩瀚 C++ 的代碼中做出一個細小的修改,要提醒你的是,修改的地方不是類接口,而是實現本身,并且僅僅是私有成員。完成修改之后,你需要對程序進行重新構建,這時你肯定會認為這一過程將十分短暫,畢竟你只對一個類做出了修改。當你按下“構建”按鈕,或輸入 make 命令(或者其他什么等價的操作)之后,你驚呆了,然后你就會陷入困惑中,因為你發現一切代碼都重新編譯并重新鏈接了!所發生的事情難道不會讓你感到不快嗎?
問題的癥結在于: C++ 并不擅長區分接口和實現。一個類的定義不僅指定了類接口的內容,而且指明了相當數量的實現細節。請看下面的示例:
class Person {
public:
Person(const std::string& name, const Date& birthday,
const Address& addr);
std::string name() const;
std::string birthDate() const;
std::string address() const;
...
private:
std::string theName; // 具體實現
Date theBirthDate; // 具體實現
Address theAddress; // 具體實現
};
這里,如果無法訪問 Person 具體實現所使用的類(也就是 string 、 Date 盒 Address )定義,那么 Person 類將不能夠得到編譯。通常這些定義通過 #include 指令來提供,因此在定義 Person 類的文件中,你應該能夠找到這樣的內容:
#include <string>
#include "date.h"
#include "address.h"
不幸的是,這樣做使得定義 Person 的文件對這些頭文件產生了依賴。如果任一個頭文件的內容被修改了,或者這些頭文件所依賴的另外某個頭文件被修改,那么包含 Person 類的文件就必須重新編譯,有多少個文件包含 Person ,就要進行多少次編譯操作。這種瀑布式的編譯依賴將招致無法估量的災難式的后果。
你可能會考慮:為什么 C++ 堅持要將類具體實現的細節放在類定義中呢?假如說,如果我們換一種方式定義 Person ,單獨編寫類的具體實現,結果又會怎樣呢?
namespace std {
class string; // 前置聲明 ( 這個是非法的,參見下文 )
}
class Date; // 前置聲明
class Address; // 前置聲明
class Person {
public:
Person(const std::string& name, const Date& birthday,
const Address& addr);
std::string name() const;
std::string birthDate() const;
std::string address() const;
...
};
如果這樣可行,那么對于 Person 的客戶端程序員來說,僅在類接口有改動時,才需要進行重新編譯。
這種想法存在著兩個問題。首先, string 不是一個類,它是一個 typedef ( typedef basic_string<char> string )。于是,針對 string 的前置聲明就是非法的。實際上恰當的前置聲明要復雜的多,因為它涉及到其他的模板。然而這不是主要問題,因為你本來就不應該嘗試手工聲明標準庫的內容。僅僅使用恰當的 #include 指令就可以了。標準頭文件一般都不會成為編譯中的瓶頸,尤其是在你的編譯環境允許你利用事先編譯好的頭文件時更為突出。如果分析標準頭文件對你來說的確是件麻煩事,那么你可能就需要改變你的接口設計,避免去使用那些會帶來多余 #include 指令的標準類成員。
對所有的類做前置聲明會遇到的第二個(同時也是更顯著的)難題是:在編譯過程中,編譯器需要知道對象的大小。請觀察下面的代碼:
int main()
{
int x; // 定義一個 int
Person p( params ); // 定義一個 Person
...
}
當編譯器看到了 x 的定義時,它們就知道該為其分配足夠的內存空間(通常位于棧中)以保存一個 int 值。這里沒有問題。每一種編譯器都知道 int 的大小。當編譯器看到 p 的定義時,他們知道該為其分配足夠的空間以容納一個 Person ,但是他們又如何得知 Person 對象的大小呢?得到這一信息的唯一途徑就是通過類定義,但是如果允許類定義省略具體實現的細節,那么編譯器又如何得知需要分配多大空間呢?
同樣的問題不會在 Smalltalk 和 Java 中出現,因為在這些語言中,每當定義一個對象時,編譯器僅僅分配指向該對象指針大小的空間。也就是說,在這些語言中,上面的代碼將做如下的處理:
int main()
{
int x; // 定義一個 int
Person *p; // 定義一個 Person
...
}
當然,這段代碼在 C++ 中是合法的,于是你可以自己通過“將對象實現隱藏在指針之后”來玩轉前置聲明。對于 Person 而言,實現方法之一就是將其分別放在兩個類中,一個只提供接口,另一個存放接口對應的具體實現。暫且將具體實現類命名為 PersonImpl , Person 類的定義應該是這樣的:
#include <string> // 標準庫成員,不允許對其進行前置聲明
#include <memory> // 為使用 tr1::shared_ptr; 稍后介紹
class PersonImpl; // Person 實現類的前置聲明
class Date; // Person 接口中使用的類的前置聲明
class Address;
class Person {
public:
Person(const std::string& name, const Date& birthday,
const Address& addr);
std::string name() const;
std::string birthDate() const;
std::string address() const;
...
private: // 指向實現的指針
std::tr1::shared_ptr<PersonImpl> pImpl;
}; // 關于 std::tr1::shared_ptr 的更多信息,參見 13 條
在這里,主要的類( Person )僅僅包括一個數據成員——一個指向其實現類( PersonImpl )的指針(這里是一個 tr1::shared_ptr ,參見第 13 條),其他什么也沒有。我們通常將這樣的設計稱為 pimpl idiom (指向實現的指針)。在這樣的類中,指針名通常為 pImpl ,就像上面代碼中一樣。
通過這樣的設計, Person 的客戶端程序員將會與日期、地址和人這些信息隔離開。你可以隨時修改這些類的具體實現,但是 Person 的客戶端程序員不需要重新編譯。另外,由于客戶端程序員無法得知 Person 的具體實現細節,他們就不容易編寫出依賴于這些細節的代碼。這樣做真正起到了分離接口和實現的目的。
這項分離工作的關鍵所在,就是用聲明的依賴來取代定義的依賴。這就是最小化編譯依賴的核心所在:只要可行,就要將頭文件設計成自給自足的,如果不可行,那么就依賴于其他文件中的聲明語句,而不是定義。其他一切事情都應遵從這一基本策略。于是有:
l 只要使用對象的引用或指針可行時,就不要使用對象。 只要簡單地通過類型聲明,你就可以定義出類型的引用和指針。反觀定義類型對象的情形,你就必須要進行類型定義了。
l 只要可行,就用類聲明依賴的方式取代類定義依賴。 請注意你在使用一個類時,如果你需要聲明一個函數,那么在任何情況下定義出這個類都不是必須的。即使這個函數以傳值方式傳遞或返回這個類的對象:
class Date; // 類聲明
Date today(); // 這樣是可行的
void clearAppointments(Date d);// 但并沒有必要對 Date 類做出定義
當然,傳值方式在通常情況下都不會是優秀的方案,但是如果你發現某些情景下不得不使用傳值方式時,就會引入不必要的編譯依賴,你依然難擇其咎。
在不定 義 Date 的具體實現的情況下,就可以聲明 today 和 clearAppointments , C++ 的這 一能力恐怕會讓你感到吃驚,但是實際上這一行為又沒有想象中那么古怪。如果代碼中任意一處調用了這些函數,那 么在這次調用前的某處必須要對 Date 進行 定義。此時你又有了新的疑問:為什么我們要聲明沒有人調用的函數呢 , 這不是多此一舉嗎?這一疑問的答案很簡單:這種函數并不是沒有人調用,而是不是所有人都會去調用。假設你的庫中包含許多函數聲明,這并不意味著每一位客戶端程序員都會使用到所有的函數。上文的做法中,提供類定義的職責將從頭文件中的函數聲明轉向客戶端文件中包含的函數調用,通過這一過程,你就排除了手工造成的客戶端類定義依賴,這些依賴實際上是多余的。
l 為聲明和定義分別提供頭文件。 為了進一步貫徹上文中的思想,頭文件必須要一分為二:一個存放聲明,另一個存放定義。當然這些文件必須保持相互協調。如果某處的一個聲明被修改了,那么相應的定義處就必須做出相應的修改。于是,庫的客戶端程序員就應該始終使用 #include 指令 來包含一個聲明頭文件,而不是自己進行前置聲明,類創建者應提供兩個頭文件。比如說 ,在 Date 的 客戶端程序員需要聲明 today 和 clearAppointments 時,就應該無需向上文中那樣, 對 Date 進 行前置聲明。更好的方案是用 #include 指令來引入恰當的聲明頭文件:
#include "datefwd.h" // 包含 Date 類聲明 ( 而不是定義 ) 的頭文件
Date today(); // 同上
void clearAppointments(Date d);
頭文件“ datefwd.h ”中僅包含聲明,這一名字來源于 C++ 標準庫中的 <iosfwd> (參見第 54 條)。 <iosfwd> 包含著 IO 流組件的聲明,這些 IO 流組件相應的定義分別存放在不同的幾個頭文件中,包括: <sstream> 、 <streambuf> 、 <fstream> 以及 <iostream> 。
從另一個角度來講,使用 <iosfwd> 作示例也是頗有裨益的,因為它告訴我們本節中的建議不僅對非模板的類有效,而且對模板同樣適用。盡管在第 30 條中分析過,在許多構建環境中,模板定義通常保存在頭文件中,一些構建環境中還是允許將模板定義放置在非頭文件的代碼文件里,因此提供為模板提供僅包含聲明的頭文件并不是沒有意義的。 <iosfwd> 就是這樣一個頭文件。
C++ 提供了 export 關鍵字,它用于分離模板聲明和模板定義。但是遺憾的是,編譯器對 export 的支持是十分有限的,實際操作中 export 更似雞肋。因此在高效 C++ 編程中, export 究竟扮演什么角色,討論這個問題還為時尚早。
諸如 Person 此類使用 pimpl idiom 的類通常稱為句柄類。為了避免你對這樣的類如何完成這些工作產生疑問,一個途徑就是將類中所有的函數調用放在相關的具體實現類之前,并且讓這些具體實現類去做真實的工作。請看下面的示例,其中演示了 Person 的成員函數應該如何實現:
#include "Person.h" // 我們將編寫 Person 類的具體實現,
// 因此此處必須包含類定義。
#include "PersonImpl.h" // 同時,此處必須包含 PersonImpl 的類定義,
// 否則我們將不能調用它的成員函數;請注意,
// PersonImpl 擁有與 Person 完全一致的成員
// 函數 - 也就是說,它們的接口是一致的。
Person::Person(const std::string& name, const Date& birthday,
const Address& addr)
: pImpl(new PersonImpl(name, birthday, addr))
{}
std::string Person::name() const
{
return pImpl->name();
}
請注 意下面兩個問題: Person 的構造函數是如何調用 PersonImpl 的構造函 數的(通過使 用 new - 參見第 16 條),以及 Person::name 是如何調用 PersonImpl :: name 的。這兩點很重要。將 Person 定制為一個句柄類并不會改變它所做的事情,這樣做僅僅改變它做事情的方式。
除了句柄類的方法,我們還可以采用一種稱為“接口類”的方法來講 Person 定制為特種的抽象基類。這種類的目的就是為派生類指定一個接口(參見第 34 條)。于是,通常情況下它沒有數據成員,沒有構造函數,但是擁有一個虛析構函數(參見第 7 條),以及一組指定接口用的純虛函數。
接口類與 Java 和 .NET 中的接口一脈相承,但是 C++ 并沒有像 Java 和 .NET 中那樣對接口做出非常嚴格的限定。比如說,無論是 Java 還是 .NET 都不允許接口中出現數據成員或者函數實現,但是 C++ 對這些都沒有做出限定。 C++ 所擁有的更強的機動靈活性是非常有用的。就像第 36 條中所解釋的那樣,由于非虛函數的具體實現對于同一層次中所有的類都應該保持一致,因此不妨將這些函數實現放置在聲明它們的接口類中,這樣做是有意義的,
Person 的接口類可以是這樣的:
class Person {
public:
virtual ~Person();
virtual std::string name() const = 0;
virtual std::string birthDate() const = 0;
virtual std::string address() const = 0;
...
};
這個類的客戶端程序員必須要基于 Person 的指針和引用來編寫程序,因為實例化一個包含純虛函數的類是不可能的。(然而,實例化一個繼承自 Person 的類卻是可行的—參見下文。)就像句柄類的客戶端程序員一樣,接口類客戶端程序員除非遇到接口類的接口有改動的情況,其他任何情況都不需要對代碼進行重新編譯。
接口類的客戶端程序員必須有一個創建新對象的手段。通常情況下,它們可以通過調用真正被實例化的派生類中的一個函數來實現,這個函數扮演的角色就是派生類的構造函數。這樣的函數通常被稱作工廠函數(參見第 13 條)或者虛構造函數。這種函數返回一個指向動態分配對象的指針(最好是智能指針—參見第 18 條),這些動態分配的對象支持接口類的接口。這樣的函數通常位于接口類中,并且聲明為 static 的:
class Person {
public:
...
static std::tr1::shared_ptr<Person>// 返回一個 tr1::shared_ptr ,
create(const std::string& name, // 它指向一個 Person 對象,這個
const Date& birthday, // Person 對象由給定的參數初始化,
const Address& addr); // 為什么返回智能指針參見第 18 條
...
};
客戶端程序員這樣使用:
std::string name;
Date dateOfBirth;
Address address;
...
// 創建一個支持 Person 接口的對象
std::tr1::shared_ptr<Person> pp(Person::create(name, dateOfBirth, address));
...
std::cout << pp->name() // 通過 Person 的接口使用這一對象
<< " was born on "
<< pp->birthDate()
<< " and now lives at "
<< pp->address();
... // 當程序執行到 pp 的作用域之外時,
// 這一對象將被自動刪除—參見第 13 條
當然,與此同時,必須要對支持接口類的接口的具體類進行定義,并且必須有真實的構造函數得到調用。比如說,接口類 Person 必須有一個具體的派生類 RealPerson ,它應當為其繼承而來的虛函數提供具體實現:
class RealPerson: public Person {
public:
RealPerson(const std::string& name, const Date& birthday,
const Address& addr)
: theName(name), theBirthDate(birthday), theAddress(addr)
{}
virtual ~RealPerson() {}
std::string name() const; // 這里省略了這些函數的具體實現,
std::string birthDate() const;// 但是很容易想象它們是什么樣子。
std::string address() const;
private:
std::string theName;
Date theBirthDate;
Address theAddress;
};
有 了 RealPerson ,編寫 Person::create 就如 探囊取物一般:
std::tr1::shared_ptr<Person> Person::create(const std::string& name,
const Date& birthday,
const Address& addr)
{
return std::tr1::shared_ptr<Person>(new RealPerson(name, birthday,addr));
}
Person::create 還有可以以一個更加貼近現實的方法來實現,它應能夠創建不同種類的派生類對象,創建的過程基于某些相關信息,例如:新加入的函數的參數值、從一個文件或數據庫中得到讀到的數值,環境變量,等等。
RealPerson 向我們展示了實現接口類的兩種通用的實現機制之一:它的接口規范繼 承自接口 類( Person ) ,然后實現接口中的函數。第二種實現接口類的方法牽扯到多重繼承,那是第 40 條中探索的主題。
句柄類和接口類將接口從實現中分離開來,因此降低了文件間的編譯依賴。如果你是一個喜歡吹毛求疵的人,那么你一定又在想法挖苦本屆的思想了:“做了這么多變魔術般古怪的事情,我又能得到什么呢?”這個問題的答案就是計算機科學中極為普遍的一個議題:你的程序在運行時更慢了一步,另外,每個對象所占的空間更大了一點。
使用句柄類的情況下,成員函數必須通過實現指針來取得對象的數據。這樣無形中增加了每次訪問時迂回的層數。同時,實現指針所指向的對象所占的空間更大了一些,你必須要考慮這一問題。最后,你必須要對實現指針進行初始化(在句柄類的構造函數中),以便于將其指向一個動態分配的實現對象,于是你就必須自己承擔動態內存分配(以及相關的釋放)內在的開銷以及遭遇 bad_alloc (內存越界)異常的可能性。
由于對于接口類來說每次函數調用都是虛擬的,因此你在每調用一次函數的過程中你就會為其付出一次間接跳轉 的代價(參見第 7 條)。同時,派生自接口類的對象必須包含一個虛 函數表指針(依然參見第 7 條)。這一指針也可能會使保存一個對象所需要的空間加大,這取決于接口類是否是該對象中虛函數的唯一來源。
最后,無論是句柄類還是接口類,都不適合于過多使用內聯。句柄和接口類都是特別設計用來隱藏諸如函數體等具體實現內容的。
然而,僅僅由于句柄類和接口類會帶來一些額外的開銷而遠離它們,這樣的做法存在致命的錯誤。虛函數也一樣,你并不希望忽略這些問題,是嗎?(如果你真希望忽略些問題,那么你可能看錯書了。)你應該把使用這些技術看作一個革命性的手段。在開發過層中,使用句柄類和接口類,來減少在具體實現有改動時為客戶端程序員帶來的影響。在程序的速度和 / 或大小的變動太大,足以體現出類之間所增加的耦合度時,還是可以適時使用具體的類來取代句柄類和接口類。
銘記在心
l 最小化編譯依賴的基本理念就是使用聲明依賴代替定義依賴。基于這一理念有兩種實現方式,它們是:句柄類和接口類。
l 庫頭文件必須以完整、并且僅存在聲明的形式出現。無論是否涉及模板。