Visual Studio 2010發(fā)布有幾個月了,但是中文版一直到5月底才有。軟件一拿到手,我就迫不及待地安裝,想一睹Visual C++ 2010的風(fēng)采。
對于Visual C++,我比較關(guān)心的幾個問題有:一、對新的C++ 0x支持如何?二、能否順利編譯和使用Boost?說到底,這兩個問題差不多是一個問題,因?yàn)榇蠹叶贾繠oost和C++0x的關(guān)系,C++0x中的很多特性,其實(shí)都是從Boost中來的。
首先來說Visual C++對C++0x的新特性的支持,主要有四點(diǎn):一、auto關(guān)鍵字的新意義,有了該特性,我們就不用再在使用STL 的iterator時寫一長串代碼了,編譯器可以自動推斷其類型;二、static_assert關(guān)鍵字,該特性不稀奇,Boost里面早就有了;三、右值引用,這個很好,主要解決了移動語意和完美轉(zhuǎn)發(fā)的問題,在Visual Studio的歡迎頁中鏈接了一篇文檔就是講的這個東西,還有一篇文檔講了我們在設(shè)計(jì)類時,怎么編寫移動構(gòu)造函數(shù)和移動賦值運(yùn)算符,值得一看。(這里的移動指的是move,和copy相對,可不是指中國移動哦)四、lambda表達(dá)式,這個也是Boost中早就有的功能。
畢竟C++0x標(biāo)準(zhǔn)還沒有發(fā)布,Visual C++支持到這一步,已經(jīng)很不錯了,還差的幾個方面是:Concepts、可變模板參數(shù)、多線程內(nèi)存模型。。。說實(shí)話,具體還有多少我也說不清楚。
至于納入Visual C++的標(biāo)準(zhǔn)庫的東西,還是只有tr1,這在Visual Studio 2008時代已經(jīng)有了,沒什么新意。要想找激情,還是去深度探索Boost吧。安裝好Visual Studio 2010后,我馬上就下載了最近的Boost,按照文檔的說明進(jìn)行安裝,安裝非常的順利。
為了使用Visual C++ 2010和Boost,我給自己找了點(diǎn)事,那就是編程去提取新浪讀書頻道上的小說。程序進(jìn)行得很順利,只有區(qū)區(qū)150行,請看:
1 #include <iostream>
2 #include <string>
3 #include <boost\lexical_cast.hpp>
4 #include <boost\asio.hpp>
5 #include <boost\regex.hpp>
6
7 using namespace std;
8 using namespace boost;
9
10 string clearUp(stringstream& input){
11 /*
12 下面的代碼使用boost::regex庫進(jìn)行字符串的替換
13 */
14 regex patternOfTitle("(.*)<h1>(.*)</h1>(.*)");
15 regex patternOfBody("(.*)<div id=\"contTxt\" class=\"contTxt1\"><p>(.*)</p></div>(.*)");
16
17 string line;
18 string output;
19 smatch results;
20 int status = 0;
21 while(getline(input,line)){
22 if(status == 0){//還沒有碰到標(biāo)題
23 if(regex_match(line,results,patternOfTitle)){
24 output += results[2];
25 output += "\r\n";
26 status = 1; //處理完標(biāo)題
27 }
28 }else{//處理正文
29 if(regex_match(line,results,patternOfBody)){
30 output += results[2];
31 status = 2;
32 break;
33 }
34 }
35 }
36 //將output中的</p><p>替換成回車換行符
37 regex patternToReplace("</p><p>");
38 return regex_replace(output,patternToReplace,"\r\n");
39 }
40
41 void getChapter(ostream& ostream,vector<int>& args){
42 /*
43 以下代碼使用boost::asio庫
44 具體用法請參考boost文檔
45 */
46 asio::io_service io_service;
47 asio::ip::tcp::resolver resolver(io_service);
48 asio::ip::tcp::resolver::query query("vip.book.sina.com.cn","http");
49 asio::ip::tcp::resolver::iterator endpoint_iterator = resolver.resolve(query);
50 asio::ip::tcp::resolver::iterator end;
51 system::error_code error = asio::error::host_not_found;
52 asio::ip::tcp::socket socket(io_service);
53 while (error && endpoint_iterator != end)
54 {
55 socket.close();
56 socket.connect(*endpoint_iterator++, error);
57 }
58 if (error)
59 throw system::system_error(error);
60
61 asio::streambuf request;
62 std::ostream request_stream(&request);
63
64 request_stream << "GET " << "/book/chapter_"<< args[0] << "_" << args[1] << ".html" << " HTTP/1.0\r\n";
65 request_stream << "Host: " << "vip.book.sina.com.cn" << "\r\n";
66 request_stream << "Accept: */*\r\n";
67 request_stream << "Connection: close\r\n\r\n";
68
69 asio::write(socket, request);
70
71 asio::streambuf response;
72 asio::read_until(socket, response, "\r\n");
73
74 std::istream response_stream(&response);
75 string http_version;
76 response_stream >> http_version;
77 unsigned int status_code;
78 response_stream >> status_code;
79 string status_message;
80 getline(response_stream, status_message);
81 if (!response_stream || http_version.substr(0, 5) != "HTTP/")
82 {
83 cout << "Invalid response\n";
84 throw system::system_error(error);
85 }
86 if (status_code != 200)
87 {
88 ostream << "Response returned with status code " << status_code << "\n";
89 throw system::system_error(error);
90 }
91
92 // 讀取數(shù)據(jù),并把數(shù)據(jù)放入一個string中,這里用到std::stringstream
93 stringstream content;
94 while (asio::read(socket, response,
95 asio::transfer_at_least(1), error))
96 content << & response;
97 if (error != asio::error::eof)
98 throw system::system_error(error);
99
100 //調(diào)用clearUp函數(shù),從雜亂的HTML文件中提取純文本的小說
101 ostream << clearUp(content);
102 }
103
104 void getBook(ostream& ostream,vector<int>& args){
105 /*
106 如果沒有到最后一章,則執(zhí)行循環(huán)
107 以下載所有章節(jié)
108 */
109 while(args[1] <= args[2]){
110 getChapter(ostream,args);
111 args[1]++;
112 }
113 }
114
115 int _tmain(int argc, _TCHAR* argv[])
116 {
117 /*
118 新浪讀書頻道的URL地址為“http://vip.book.sina.com.cn/book/chapter_120954_83221.html”的形式
119 其中的兩個數(shù)字一個代表書的ID,一個代表章節(jié)的ID
120 所以我們的程序需要接受的參數(shù)有三個,分別為書的ID,第一章的ID和最后一章的ID,該程序自動下載從
121 第一章到最后一章的內(nèi)容,并整理
122 該程序的使用方法為:
123 GetBookFromSina bookId firstChapterId lastChapterId
124 */
125
126 /*
127 下面的程序片段使用lexical_cast庫來將命令行輸入的參數(shù)轉(zhuǎn)換為整數(shù)
128 */
129 if(argc != 4){
130 cout << "輸入不正確!正確的輸入為:GetBookFromSina bookId firstChapterId lastChapterId" << endl;
131 return 0;
132 }
133 vector<int> args;
134 try{
135 for(int i=1; i < 4; i++){
136 args.push_back(lexical_cast<int>(argv[i]));
137 }
138 }catch(bad_lexical_cast &){
139 cout << "輸入不正確!正確的輸入為:GetBookFromSina bookId firstChapterId lastChapterId" << endl;
140 cout << "請確定輸入的參數(shù)為整數(shù)" << endl;
141 return 0;
142 }
143
144 /*
145 調(diào)用getBook函數(shù),輸入一個ostream &類型的參數(shù)和一個vector<int>&參數(shù)
146 如果輸入的是cout,則輸出到控制臺
147 也可以把輸出流輸出到文件或字符串,只需要傳入不同的參數(shù)即可
148
149 之所以不讓getBook函數(shù)返回字符串,而是接受一個流對象作為參數(shù),是因?yàn)間etBook中有一個循環(huán)
150 如果要返回字符串的話,需要把很多字符串連接成一個更大的字符串,影響效率
151 */
152 try{
153 getBook(cout,args);
154 }catch(system::system_error&){
155 cout << "獲取文章的過程中發(fā)生錯誤" << endl;
156 }
157 }
158
下面奉上一個截圖,讓大家看看提取小說的效果:
以上的代碼大家不要從頭開始讀,要從最底下的main函數(shù)一個一個往上讀。在main函數(shù)中,使用了Boost的lexical_cast將命令行的參數(shù)從字符串轉(zhuǎn)化成int,如果輸入的參數(shù)非法,程序就會退出。在main中調(diào)用getBook函數(shù),也許大家覺得給getBook函數(shù)傳入一個cout流對象不妥,侵入性太大,但是這確實(shí)最有效率的辦法,因?yàn)槿绻実etBook函數(shù)返回字符串的話,那將是一個非常大的字符串,而且要在getBook里面講一百多個字符串組裝成這個大字符串,效率很低。在getBook中調(diào)用getChapter函數(shù),在getChapter函數(shù)中使用Boost的ASIO庫,從網(wǎng)絡(luò)上讀取數(shù)據(jù)后,再調(diào)用clearUp函數(shù)進(jìn)行處理,在clearUp函數(shù)中,使用了Boost的Regex庫。
在這個程序中,因?yàn)橐粩嗟貙ψ址M(jìn)行處理,所以內(nèi)存的分配和效率方面就需要特別注意,我做了一些努力以盡量減少字符串的復(fù)制,但是有兩個地方還是做得不過好。一個地方是從response中把數(shù)據(jù)讀入到了一個stringstream中,這里發(fā)生了一次復(fù)制,response是一個streambuffer對象,如果能直接從response對象中提取數(shù)據(jù)進(jìn)行處理就更好了,但是問題是,streambuffer中數(shù)據(jù)是從網(wǎng)絡(luò)中讀取的,而從網(wǎng)絡(luò)讀取數(shù)據(jù)時一次傳輸多少誰也不知道,其中的數(shù)據(jù)不一定是完整的,所以程序中用了一個循環(huán)。當(dāng)然,肯定有辦法讓response中盡量包含完整的數(shù)據(jù),只不過要更耐心地去讀ASIO的文檔。(我的程序使用ASIO的部分是直接從Boost ASIO的示例代碼抄的,沒有仔細(xì)讀文檔。)
另外一個不好的地方就是clearUp函數(shù),該函數(shù)返回的時候,發(fā)生了一次字符串復(fù)制。(其實(shí)編譯器會優(yōu)化掉)
如果不考慮編譯器優(yōu)化的話,最好的辦法是把clearUp函數(shù)寫成下面的樣子:

string&& clearUp(stringstream& input)
{

.

.
return std::move(regex_replace(output,patternToReplace,"\r\n"));
}
這就用到了親愛的右值引用,其實(shí)上面的代碼可以不要std::move,因?yàn)閞egex_replace函數(shù)返回的就是一個右值。
不過可惜,上面的代碼編譯可以通過,但是程序運(yùn)行的時候會報錯。我很郁悶,也不知道為什么,希望高手指點(diǎn)。
我的代碼是使用x64平臺作為目標(biāo)編譯的,生成的程序在我的Windows 7 64位版本下運(yùn)行良好。這進(jìn)一步說明Boost庫在64位的程序中使用很順利。
友情提示一下,如果要把提取的小說保存到文件,只需要使用一個文件重定向即可,如下:
getbookfromsina 39534 23601 23783 > 天使不在線.txt
最后祝大家端午節(jié)快樂!