譯者注
這是一篇指導您如何在Microsoft Visual Studio下學習STL并進行實踐的文章。這篇文章從STL的基礎知識講起,循序漸進,逐步深入,涉及到了STL編寫代碼的方法、STL代碼的編譯和調試、命名空間(namespace)、STL中的ANSI / ISO字符串、各種不同類型的容器(container)、模板(template)、游標(Iterator)、算法(Algorithms)、分配器(Allocator)、容器的嵌套等方面的問題,作者在這篇文章中對讀者提出了一些建議,并指出了使用STL時應該注意的問題。這篇文章覆蓋面廣,視角全面。不僅僅適合初學者學習STL,更是廣大讀者使用STL編程的實踐指南。
STL簡介
STL (標準模版庫,Standard Template Library)是當今每個從事C++編程的人需要掌握的一項不錯的技術。我覺得每一個初學STL的人應該花費一段時間來熟悉它,比如,學習STL時會有急劇升降的學習曲線,并且有一些命名是不太容易憑直覺就能夠記住的(也許是好記的名字已經被用光了),然而如果一旦你掌握了STL,你就不會覺得頭痛了。和MFC相比,STL更加復雜和強大。
STL有以下的一些優點:
可以方便容易地實現搜索數據或對數據排序等一系列的算法;
調試程序時更加安全和方便;
即使是人們用STL在UNIX平臺下寫的代碼你也可以很容易地理解(因為STL是跨平臺的)。
背景知識
寫這一部分是讓一些初學計算機的讀者在富有挑戰性的計算機科學領域有一個良好的開端,而不必費力地了解那無窮無盡的行話術語和沉悶的規則,在這里僅僅把那些行話和規則當作STLer們用于自娛的創造品吧。
使用代碼
本文使用的代碼在STL實踐中主要具有指導意義。
一些基礎概念的定義
模板(Template)——類(以及結構等各種數據類型和函數)的宏(macro)。有時叫做甜餅切割機(cookie cutter),正規的名稱應叫做范型(generic)——一個類的模板叫做范型類(generic class),而一個函數的模板也自然而然地被叫做范型函數(generic function)。
STL——標準模板庫,一些聰明人寫的一些模板,現在已成為每個人所使用的標準C++語言中的一部分。
容器(Container)——可容納一些數據的模板類。STL中有vector,set,map,multimap和deque等容器。
向量(Vector)——基本數組模板,這是一個容器。
游標(Iterator)——這是一個奇特的東西,它是一個指針,用來指向STL容器中的元素,也可以指向其它的元素。
Hello World程序
我愿意在我的黃金時間在這里寫下我的程序:一個hello world程序。這個程序將一個字符串傳送到一個字符向量中,然后每次顯示向量中的一個字符。向量就像是盛放變長數組的花園,大約所有STL容器中有一半是基于向量的,如果你掌握了這個程序,你便差不多掌握了整個STL的一半了。
//程序:vector演示一
//目的:理解STL中的向量
// #include "stdafx.h" -如果你使用預編譯的頭文件就包含這個頭文件
#include <vector>// STL向量的頭文件。這里沒有".h"。
#include <iostream>// 包含cout對象的頭文件。
using namespace std;//保證在程序中可以使用std命名空間中的成員。
char* szHW = "Hello World";
//這是一個字符數組,以””結束。
int main(int argc, char* argv[])
{
vector <char> vec;//聲明一個字符向量vector (STL中的數組)
//為字符數組定義一個游標iterator。
vector <char>::iterator vi;
//初始化字符向量,對整個字符串進行循環,
//用來把數據填放到字符向量中,直到遇到””時結束。
char* cptr = szHW;// 將一個指針指向“Hello World”字符串
while (*cptr != '')
// push_back函數將數據放在向量的尾部。
// 將向量中的字符一個個地顯示在控制臺
for (vi=vec.begin(); vi!=vec.end(); vi++)
// 這是STL循環的規范化的開始——通常是 "!=" , 而不是 "<"
// 因為"<" 在一些容器中沒有定義。
// begin()返回向量起始元素的游標(iterator),end()返回向量末尾元素的游標(iterator)。
{cout << *vi;}// 使用運算符 “*” 將數據從游標指針中提取出來。
cout << endl;// 換行
return 0;
}
push_back是將數據放入vector(向量)或deque(雙端隊列)的標準函數。Insert是一個與之類似的函數,然而它在所有容器中都可以使用,但是用法更加復雜。end()實際上是取末尾加一(取容器中末尾的前一個元素),以便讓循環正確運行——它返回的指針指向最靠近數組界限的數據。就像普通循環中的數組,比如for (i=0; i<6; i++) {ar[i] = i;} ——ar[6]是不存在的,在循環中不會達到這個元素,所以在循環中不會出現問題。
STL的煩惱之一——初始化
STL令人煩惱的地方是在它初始化的時候。STL中容器的初始化比C/C++數組初始化要麻煩的多。你只能一個元素一個元素地來,或者先初始化一個普通數組再通過轉化填放到容器中。我認為人們通常可以這樣做:
//程序:初始化演示
//目的:為了說明STL中的向量是怎樣初始化的。
#include <cstring>// <cstring>和<string.h>相同
#include <vector>
using namespace std;
int ar[10] = {12, 45, 234, 64, 12, 35, 63, 23, 12, 55};
char* str = "Hello World";
int main(int argc, char* argv[])
{
vector <int> vec1(ar, ar+10);
vector <char> vec2(str, str+strlen(str));
return 0;
}
在編程中,有很多種方法來完成同樣的工作。另一種填充向量的方法是用更加熟悉的方括號,比如下面的程序:
//程序:vector演示二
//目的:理解帶有數組下標和方括號的STL向量
#include <cstring>
#include <vector>
#include <iostream>
using namespace std;
char* szHW = "Hello World";
int main(int argc, char* argv[])
{
vector <char> vec(strlen(sHW)); //為向量分配內存空間
int i, k = 0;
char* cptr = szHW;
while (*cptr != '')
{vec[k] = *cptr;cptr++;k++;}
for (i=0; i<vec.size(); i++)
{cout << vec[i];}
cout << endl;
return 0;
}
這個例子更加清晰,但是對游標(iterator)的操作少了,并且定義了額外的整形數作為下標,而且,你必須清楚地在程序中說明為向量分配多少內存空間。
命名空間(Namespace)
與STL相關的概念是命名空間(namespace)。STL定義在std命名空間中。有3種方法聲明使用的命名空間:
1.用using關鍵字使用這個命名空間,在文件的頂部,但在聲明的頭文件下面加入:
using namespace std;
這對單個工程來說是最簡單也是最好的方法,這個方法可以把你的代碼限定在std命名空間中。
2.使用每一個模板前對每一個要使用的對象進行聲明(就像原形化):
using std::cout;
using std::endl;
using std::flush;
using std::set;
using std::inserter;
盡管這樣寫有些冗長,但可以對記憶使用的函數比較有利,并且你可以容易地聲明并使用其他命名空間中的成員。
3.在每一次使用std命名空間中的模版時,使用std域標識符。比如:
typedef std::vector VEC_STR;
這種方法雖然寫起來比較冗長,但是是在混合使用多個命名空間時的最好方法。一些STL的狂熱者一直使用這種方法,并且把不使用這種方法的人視為異類。一些人會通過這種方法建立一些宏來簡化問題。
除此之外,你可以把using namespace std加入到任何域中,比如可以加入到函數的頭部或一個控制循環體中。
一些建議
為了避免在調試模式(debug mode)出現惱人的警告,使用下面的編譯器命令:
#pragma warning(disable: 4786)
另一條需要注意的是,你必須確保在兩個尖括號之間或尖括號和名字之間用空格隔開,因為是為了避免同“>>”移位運算符混淆。比如
vector <list<int>> veclis;
這樣寫會報錯,而這樣寫:
vector <list <int> > veclis;
就可以避免錯誤。
另一種容器——集合(set)
這是微軟幫助文檔中對集合(set)的解釋:“描述了一個控制變長元素序列的對象(注:set中的key和value是Key類型的,而map中的key和value是一個pair結構中的兩個分量)的模板類,每一個元素包含了一個排序鍵(sort key)和一個值(value)。對這個序列可以進行查找、插入、刪除序列中的任意一個元素,而完成這些操作的時間同這個序列中元素個數的對數成比例關系,并且當游標指向一個已刪除的元素時,刪除操作無效。”
而一個經過更正的和更加實際的定義應該是:一個集合(set)是一個容器,它其中所包含的元素的值是唯一的。這在收集一個數據的具體值的時候是有用的。集合中的元素按一定的順序排列,并被作為集合中的實例。如果你需要一個鍵/值對(pair)來存儲數據,map是一個更好的選擇。一個集合通過一個鏈表來組織,在插入操作和刪除操作上比向量(vector)快,但查找或添加末尾的元素時會有些慢。
下面是一個例子:
//程序:set演示
//目的:理解STL中的集合(set)
#include <string>
#include <set>
#include <iostream>
using namespace std;
int main(int argc, char* argv[])
{
set <string> strset;
set <string>::iterator si;
strset.insert("cantaloupes");
strset.insert("apple");
strset.insert("orange");
strset.insert("banana");
strset.insert("grapes");
strset.insert("grapes");
for (si=strset.begin(); si!=strset.end(); si++)
{cout << *si << " ";}
cout << endl;
return 0;
}
// 輸出: apple banana cantaloupes grapes orange
//注意:輸出的集合中的元素是按字母大小順序排列的,而且每個值都不重復。
如果你感興趣的話,你可以將輸出循環用下面的代碼替換:
copy(strset.begin(), strset.end(), ostream_iterator<string>(cout, " "));
.集合(set)雖然更強大,但我個人認為它有些不清晰的地方而且更容易出錯,如果你明白了這一點,你會知道用集合(set)可以做什么。
所有的STL容器
容器(Container)的概念的出現早于模板(template),它原本是一個計算機科學領域中的一個重要概念,但在這里,它的概念和STL混合在一起了。下面是在STL中出現的7種容器:
vector(向量)——STL中標準而安全的數組。只能在vector 的“前面”增加數據。
deque(雙端隊列double-ended queue)——在功能上和vector相似,但是可以在前后兩端向其中添加數據。
list(列表)——游標一次只可以移動一步。如果你對鏈表已經很熟悉,那么STL中的list則是一個雙向鏈表(每個節點有指向前驅和指向后繼的兩個指針)。
set(集合)——包含了經過排序了的數據,這些數據的值(value)必須是唯一的。
map(映射)——經過排序了的二元組的集合,map中的每個元素都是由兩個值組成,其中的key(鍵值,一個map中的鍵值必須是唯一的)是在排序或搜索時使用,它的值可以在容器中重新獲取;而另一個值是該元素關聯的數值。比如,除了可以ar[43] = "overripe"這樣找到一個數據,map還可以通過ar["banana"] = "overripe"這樣的方法找到一個數據。如果你想獲得其中的元素信息,通過輸入元素的全名就可以輕松實現。
multiset(多重集)——和集合(set)相似,然而其中的值不要求必須是唯一的(即可以有重復)。
multimap(多重映射)——和映射(map)相似,然而其中的鍵值不要求必須是唯一的(即可以有重復)。
注意:如果你閱讀微軟的幫助文檔,你會遇到對每種容器的效率的陳述。比如:log(n*n)的插入時間。除非你要處理大量的數據,否則這些時間的影響是可以忽略的。如果你發現你的程序有明顯的滯后感或者需要處理時間攸關(time critical)的事情,你可以去了解更多有關各種容器運行效率的話題。
怎樣在一個map中使用類?
Map是一個通過key(鍵)來獲得value(值)的模板類。
另一個問題是你希望在map中使用自己的類而不是已有的數據類型,比如現在已經用過的int。建立一個“為模板準備的(template-ready)”類,你必須確保在該類中包含一些成員函數和重載操作符。下面的一些成員是必須的:
缺省的構造函數(通常為空)
拷貝構造函數
重載的”=”運算符
你應該重載盡可能多的運算符來滿足特定模板的需要,比如,如果你想定義一個類作為 map中的鍵(key),你必須重載相關的運算符。但在這里不對重載運算符做過多討論了。
//程序:映射自定義的類。
//目的:說明在map中怎樣使用自定義的類。
#include <string>
#include <iostream>
#include <vector>
#include <map>
using namespace std;
class CStudent
{
public :
int nStudentID;
int nAge;
public :
//缺省構造函數——通常為空
CStudent()
// 完整的構造函數
CStudent(int nSID, int nA){nStudentID=nSID; nAge=nA;}
//拷貝構造函數
CStudent(const CStudent& ob)
{nStudentID=ob.nStudentID; nAge=ob.nAge;}
// 重載“=”
void operator = (const CStudent& ob)
{nStudentID=ob.nStudentID; nAge=ob.nAge;}
};
int main(int argc, char* argv[])
{
map <string, CStudent> mapStudent;
mapStudent["Joe Lennon"] = CStudent(103547, 22);
mapStudent["Phil McCartney"] = CStudent(100723, 22);
mapStudent["Raoul Starr"] = CStudent(107350, 24);
mapStudent["Gordon Hamilton"] = CStudent(102330, 22);
// 通過姓名來訪問Cstudent類中的成員
cout << "The Student number for Joe Lennon is " <<
(mapStudent["Joe Lennon"].nStudentID) << endl;
return 0;
}
TYPEDEF
如果你喜歡使用typedef關鍵字,下面是個例子:
typedef set <int> SET_INT;
typedef SET_INT::iterator SET_INT_ITER
編寫代碼的一個習慣就是使用大寫字母和下劃線來命名數據類型。
ANSI / ISO字符串
ANSI/ISO字符串在STL容器中使用得很普遍。這是標準的字符串類,并得到了廣泛地提倡,然而在缺乏格式聲明的情況下就會出問題。你必須使用“<<”和輸入輸出流(iostream)代碼(如dec, width等)將字符串串聯起來。
可在必要的時候使用c_str()來重新獲得字符指針。
游標(Iterator)
我說過游標是指針,但不僅僅是指針。游標和指針很像,功能很像指針,但是實際上,游標是通過重載一元的”*”和”->”來從容器中間接地返回一個值。將這些值存儲在容器中并不是一個好主意,因為每當一個新值添加到容器中或者有一個值從容器中刪除,這些值就會失效。在某種程度上,游標可以看作是句柄(handle)。通常情況下游標(iterator)的類型可以有所變化,這樣容器也會有幾種不同方式的轉變:
iterator——對于除了vector以外的其他任何容器,你可以通過這種游標在一次操作中在容器中朝向前的方向走一步。這意味著對于這種游標你只能使用“++”操作符。而不能使用“--”或“+=”操作符。而對于vector這一種容器,你可以使用“+=”、“—”、“++”、“-=”中的任何一種操作符和“<”、“<=”、“>”、“>=”、“==”、“!=”等比較運算符。
reverse_iterator ——如果你想用向后的方向而不是向前的方向的游標來遍歷除vector之外的容器中的元素,你可以使用reverse_iterator 來反轉遍歷的方向,你還可以用rbegin()來代替begin(),用rend()代替end(),而此時的“++”操作符會朝向后的方向遍歷。
const_iterator ——一個向前方向的游標,它返回一個常數值。你可以使用這種類型的游標來指向一個只讀的值。
const_reverse_iterator ——一個朝反方向遍歷的游標,它返回一個常數值。
Set和Map中的排序
除了類型和值外,模板含有其他的參數。你可以傳遞一個回調函數(通常所說的聲明“predicate”——這是帶有一個參數的函數返回一個布爾值)。例如,如果你想自動建立一個集合,集合中的元素按升序排列,你可以用簡明的方法建立一個set類:
set <int, greater<int> > set1
greater 是另一個模板函數(范型函數),當值放置在容器中后,它用來為這些值排序。如果你想按降序排列這些值,你可以這樣寫:
set <int, less<int> > set1
在實現算法時,將聲明(predicate)作為一個參數傳遞到一個STL模板類中時會遇到很多的其他情況,下面將會對這些情況進行詳細描述。
STL 的煩惱之二——錯誤信息
這些模板的命名需要對編譯器進行擴充,所以當編譯器因某種原因發生故障時,它會列出一段很長的錯誤信息,并且這些錯誤信息晦澀難懂。我覺得處理這樣的難題沒有什么好辦法。但最好的方法是去查找并仔細研究錯誤信息指明代碼段的尾端。還有一個煩惱就是:當你雙擊錯誤信息時,它會將錯誤指向模版庫的內部代碼,而這些代碼就更難讀了。一般情況下,糾錯的最好方法是重新檢查一下你的代碼,運行時忽略所有的警告信息。
算法(Algorithms)
算法是模板中使用的函數。這才真正開始體現STL的強大之處。你可以學習一些大多數模板容器中都會用到的一些算法函數,這樣你可以通過最簡便的方式進行排序、查找、交換等操作。STL中包含著一系列實現算法的函數。比如:sort(vec.begin()+1, vec.end()-1)可以實現對除第一個和最后一個元素的其他元素的排序操作。
容器自身不能使用算法,但兩個容器中的游標可以限定容器中使用算法的元素。既然這樣,算法不直接受到容器的限制,而是通過采用游標,算法才能夠得到支持。此外,很多次你會遇到傳遞一個已經準備好了的函數(以前提到的聲明:predicate)作為參數,你也可以傳遞以前的舊值。
下面的例子演示了怎樣使用算法:
//程序:測試分數統計
//目的:通過對向量中保存的分數的操作說明怎樣使用算法
#include <algorithm>//如果要使用算法函數,你必須要包含這個頭文件。
#include <numeric>// 包含accumulate(求和)函數的頭文件
#include <vector>
#include <iostream>
using namespace std;
int testscore[] = {67, 56, 24, 78, 99, 87, 56};
//判斷一個成績是否通過了考試
bool passed_test(int n)
{
return (n >= 60);
}
// 判斷一個成績是否不及格
bool failed_test(int n)
{
return (n < 60);
}
int main(int argc, char* argv[])
{
int total;
// 初始化向量,使之能夠裝入testscore數組中的元素
vector <int> vecTestScore(testscore,
testscore + sizeof(testscore) / sizeof(int));
vector <int>::iterator vi;
// 排序并顯示向量中的數據
sort(vecTestScore.begin(), vecTestScore.end());
cout << "Sorted Test Scores:" << endl;
for (vi=vecTestScore.begin(); vi != vecTestScore.end(); vi++)
{cout << *vi << ", ";}
cout << endl;
// 顯示統計信息
// min_element 返回一個 _iterator_ 類型的對象,該對象指向值最小的那個元素。
//“*”運算符提取元素中的值。
vi = min_element(vecTestScore.begin(), vecTestScore.end());
cout << "The lowest score was " << *vi << "." << endl;
//與min_element類似,max_element是選出最大值。
vi = max_element(vecTestScore.begin(), vecTestScore.end());
cout << "The highest score was " << *vi << "." << endl;
// 使用聲明函數(predicate function,指vecTestScore.begin()和vecTestScore.end())來確定通過考試的人數。
cout << count_if(vecTestScore.begin(), vecTestScore.end(), passed_test) <<
" out of " << vecTestScore.size() <<
" students passed the test" << endl;
// 確定有多少人考試掛了
cout << count_if(vecTestScore.begin(),
vecTestScore.end(), failed_test) <<
" out of " << vecTestScore.size() <<
" students failed the test" << endl;
//計算成績總和
total = accumulate(vecTestScore.begin(),
vecTestScore.end(), 0);
// 計算顯示平均成績
cout << "Average score was " <<
(total / (int)(vecTestScore.size())) << endl;
return 0;
}
Allocator(分配器)
Allocator用在模板的初始化階段,是為對象和數組進行分配內存空間和釋放空間操作的模板類。它在各種情況下扮演著很神秘的角色,它關心的是高層內存的優化,而且對黑盒測試來說,使用Allocator是最好的選擇。通常,我們不需要明確指明它,因為它們通常是作為不用添加的缺省的參數出現的。如果在專業的測試工作中出現了Allocator,你最好搞清楚它是什么。
Embed Templates(嵌入式模版)和Derive Templates(基模板)
每當你使用一個普通的類的時候,你也可以在其中使用一個STL類。它是可以被嵌入的:
class CParam
{
string name;
string unit;
vector <double> vecData;
};
或者將它作為一個基類:
class CParam : public vector <double>
{
string name;
string unit;
};
STL模版類作為基類時需要謹慎。這需要你適應這種編程方式。
模版中的模版
為構建一個復雜的數據結構,你可以將一個模板植入另一個模板中(即“模版嵌套”)。一般最好的方法是在程序前面使用typedef關鍵字來定義一個在另一個模板中使用的模版類型。
// 程序:在向量中嵌入向量的演示。
//目的:說明怎樣使用嵌套的STL容器。
#include <iostream>
#include <vector>
using namespace std;
typedef vector <int> VEC_INT;
int inp[2][2] = {{1, 1}, {2, 0}};
// 要放入模板中的2x2的正則數組
int main(int argc, char* argv[])
{
int i, j;
vector <VEC_INT> vecvec;
// 如果你想用一句話實現這樣的嵌套,你可以這樣寫:
// vector <vector <int> > vecvec;
// 將數組填入向量
VEC_INT v0(inp[0], inp[0]+2);
// 傳遞兩個指針
// 將數組中的值拷貝到向量中
VEC_INT v1(inp[1], inp[1]+2);
vecvec.push_back(v0);
vecvec.push_back(v1);
for (i=0; i<2; i++)
{
for (j=0; j<2; j++)
{
cout << vecvec[i][j] << "";
}
cout << endl;
}
return 0;
}
// 輸出:
// 1 1
// 2 0
雖然在初始化時很麻煩,一旦你將數據填如向量中,你就實現了一個變長的可擴充的二維數組(大小可擴充直到使用完內存)。根據實際需要,可以使用各種容器的嵌套組合。
總結
STL是有用的,但是使用過程中的困難和麻煩是再所難免的。就像中國人所說的:“如果你掌握了它,便猶如虎添翼。”
相關鏈接:
Josuttis Website :http://www.josuttis.com/
Pretty Good Initialization Library :http://www.codeproject.com/vcpp/stl/PGIL.asp
(全文完)