Richard He

學無止境!永遠學下去!

<

2025年9月

>

日

一

二

三

四

五

六

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

1

2

3

4

5

6

7

8

9

10

11

文章分類(91)

隨筆檔案(94)

文章檔案(94)

簡介Boost.Regex

Posted on 2008-07-20 10:31 RichardHe 閱讀(1120) 評論(0) 編輯收藏引用所屬分類: [轉]

簡介¹
    正則表達式（Regular expression）是一種在文本處理中經常用到的模式匹配的形式，可能許多用戶熟悉Unix下的grep,sed,awk等工具或者perl語言，它們都廣泛地用到了正則表達式。傳統的C++用戶還受限于用POSIX C API's（Portable operateing system interface standard)來操作正則表達式，而regex++已經提供了這些API's，雖然它不一定是使用POSIX C 正則表達式庫的最好方法。比如regex++能處理寬字符字符串（wide character strings），或者搜索、替換操作（在某種意義上類似于sed或perl），這些在傳統的C 庫中是不能實現的。
類boost::reg_expression是regex++庫中的關鍵類，它表示“機器可讀”的正則表達式，reg_expression 是在string的基礎之上構建的，可以認為它是一個具有string的功能，外加這個正則表達式算法所需要的狀態機。
像std::basic_string一樣，它提供了兩個針對char和wchar_t的特化版本：

namespace boost{
template <class charT,
          class traits = regex_traits<charT>,
          class Allocator = std::allocator<charT> >
class basic_regex;
typedef basic_regex<char> regex;
typedef basic_regex<wchar_t> wregex;
}

要知道regex++庫到底有什么用？可以試想我們要寫一個信用卡處理程序。信用卡通常有16位數字組成的號碼，其中每四位一組，用空格或連字號隔開。在將這些信用卡號碼存入數據庫之前，我們難道不要檢驗這些數字是否符合正確格式么？為了匹配任何一個數字我們可以用正則表達式[0-9]，數字串的寬度可以用[[:digit:]],當然這些是POSIX標準。在regex++和perl中可簡化為\d（注意許多老的庫傾向于硬編碼到C-locale，因此這不是什么問題）。下面的正則表達式可以檢驗信用卡號碼的格式。
(\d{4}[- ]){3}\d{4}
()標記子表達式，{4}表示重復4次。這僅是一個perl,awk,egrep的正則表達式的例子。regex++也支持那些sed,grep用到的比較老的“基本”語法，雖然它們很少用到，除非你需要重用一些已有的基本正則表達式。

    現在讓我們把這個表達式置于C++代碼中來檢驗信用卡號碼的格式：

bool validate_card_format(const std::string s)
{
   static const boost::regex e("(\\d{4}[- ]){3}\\d{4}");
   return regex_match(s, e);
}

    注意我們以前是如何將某些額外的轉義序列（或者翻譯成：轉義字符）添加到表達式的：要知道，正則表達式引擎處理轉義字符前，該轉義字符只能被 C++編譯器識別一次，因此，在C++代碼中嵌入正則表達式的轉義字符必須雙寫（寫兩次）。
    還要注意到你的編譯器必須支持Koening lookup 2（比如VC6就不支持），否則你需要附加一些boost::prefixes到某些函數引用中。
    那些熟悉信用卡操作的人，可能還會想到上面的那種格式適合于人的閱讀，并不表示網上信用卡系統要求的格式（可能是16或15個沒有間隔符的數字串）。我們需要一種簡單的轉換方法，我們需要2個字符串，1個是正則表達式，一個是格式字符串（提供一種被匹配的內容的描述）。在regex++中，search和 replace都能完成regex_merge算法，對于信用卡的例子我們給出了下面2個算法用于格式轉換：

// match any format with the regular expression:
const boost::regex e("\\A(\\d{3,4})[- ]?(\\d{4})[- ]?(\\d{4})[- ]?(\\d{4})\\z");
const std::string machine_format("\\1\\2\\3\\4");
const std::string human_format("\\1-\\2-\\3-\\4");

std::string machine_readable_card_number(const std::string s)
{
return regex_merge(s, e, machine_format, boost::match_default | boost::format_sed);
}

std::string human_readable_card_number(const std::string s)
{
return regex_merge(s, e, human_format, boost::match_default | boost::format_sed);
}

這兒，我們用正則表達式中的子式把號碼分為4塊，format string 用類似sed的語法把被匹配的內容替換為規定格式。
上面的例子中，我們還沒有直接操作匹配結果，匹配結果包括全體匹配和一些子式的匹配。當需要正則表達式的匹配結果時，就需要用到class match_results的實例，下面是常用類型的特化版本：

namespace boost{
typedef match_results<const char*> cmatch;
typedef match_results<const wchar_t*> wcmatch;
typedef match_results<std::string::const_iterator> smatch;
typedef match_results<std::wstring::const_iterator> wsmatch;
}

regex_search和regex_grep算法都使用到match_result。
注意這些算法并不局限于一般的C-strings,任何雙向迭代器（bidirectional iterator）類型都能被搜索，這為無縫搜索任何類型數據提供了可能性。

對于那些不喜歡模板（templates）的人還可以使用class RegEx,它是對模板代碼的高層次包裝，它為那些使用不到庫的整個功能的人提供了簡單的接口，當然它僅支持窄字符（narrow character）和“擴展”的正則表達式語法。
對于想兼容POSIX的人可以使用POSIXAPI函數：regcomp,regexec,regfree,regerror,這些對narrow character和Unicode都適用。

最后注意，這個庫現在支持運行時本地化（run-time localization），它能完全識別POSIX正則表達式語法，包括一些多字符的元素比較和同等類型的高級特性，它還能兼容其它一些正則表達式庫包括GNU、BSD4的regex包。

安裝和配置

首先當你從zip文件解壓本庫時必須保留它的內部結構，如果你沒這樣做，那只好刪除你解壓的文件，重現來一次。
由于支持大多數常見的編譯器/標準庫/平臺，這個庫不需要作使用前的配置。如果你碰到配置問題，或想測試你的編譯器的配置信息，可以參考配置文檔（這和boost的其它所有的庫的處理過程都一樣）。

由于本庫混合了模板代碼（頭文件中）和靜態代碼數據（cpp文件中），所以在你使用之前，必須將庫支持的代碼生成到庫內和檔案文件中。以下是幾個具體平臺的操作步驟：
Borland C++ Builder
略
Microsoft Visual C++ 6 and 7
如果你使用VC5，你可能要找一下本庫的以前版本。
打開命令提示符（其MSVC環境變量必須已定義，如果沒有可運行Vcvars32.bat，位于<VC6>\bin），進入<boost>\libs\regex\build 目錄
選擇正確的makefile,VC6++的是vc6.mak,支持STLPort的是vc6-stlport.mak
如下調用
nmake -fvc6.mak
如果想在VC6子目錄包含所有的lib、dll文件，lib文件拷在<VC6>\lib，dll文件拷在<VC6>\bin，可使用
nmake -fvc6.mak install
刪除生成過程中所有的臨時文件，可使用
nmake -fvc6.mak clean

最后只需添加<boost>根目錄到你的工程所包含的目錄列表中。沒有必要手動將*.lib文件加到工程中，因為在頭文件會選擇正確的.lib文件。
注意：如果想靜態地鏈入regex庫，可定義BOOST_REGEX_STATIC_LINK（在release版中生效）。
如果想直接使用源文件，可定義BOOST_REGEX_NO_LIB，這樣自動選擇庫將失效。

1.簡介出處：http://www.boost.org/libs/regex/doc/introduction.html
2.Koening lookup：When a function is called, in order to determine if that function is visible in the current scope, the namespaces in which the functions parameters reside must be taken into account.

只有注冊用戶登錄后才能發表評論。
【推薦】100%開源！大型工業跨平臺軟件C++源碼提供，建模，組態！

相關文章: 簡介Boost.Regex boost::regex C/C++中宏的使用 extern "C" 推薦--豐富的游戲開發的站點用Boost.Spirit寫了一個term下c++詞法高亮回調函數內存分區 Boost.Singals 教程 [摘錄]回調函數與轉移表

網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

News

Clicki

常用鏈接

Game Engine

clanlib官網
crystalspace
idsoftware
Unreal Wiki
YAKE

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

Richard He

學無止境!永遠學下去!

文章分類(91)

隨筆檔案(94)

文章檔案(94)

最新隨筆

最新評論

簡介Boost.Regex

News

常用鏈接

ACG&&AI

Game Engine

GameDev

Graphics

Physics

牛人Blog

同事

我參與的團隊

積分與排名

評論排行榜

閱讀排行榜