PCRE正則表達式主要用于字符串的模式分割、匹配、查找及替換操作。使用正則表達式在某些簡單的環境下可能效率不高,因此如何更好的使用PCRE正則表達式需要綜合考慮。
我的PCRE正則入門,是起源于網上的一篇文章,這篇文章由淺入深的闡述了PCRE正則表達式使用的方法,我覺得是一個很好的入門材料,不過學成還是要靠個人,在使用的過程中,還是會不斷地忘記,因此反反復復的閱讀了這篇文章有四五遍,對于其中一些比較困難的知識點,甚至要用很久才能消化,但是只要能見堅持著看完,你會發現自己對于正則的運用能力就會顯著提高。
PCRE正則表達式的定義:
用于描述字符排列和匹配模式的一種語法規則。它主要用于字符串的模式分割、匹配、查找及替換操作。
PHP中的正則函數:
PHP中有兩套正則函數,兩者功能差不多,分別為:
一套是由PCRE(Perl Compatible Regular Expression)庫提供的。使用“preg_”為前綴命名的函數;
一套由POSIX(Portable Operating System Interface of Unix )擴展提供的。使用以“ereg_”為前綴命名的函數;(POSIX的正則函數庫,自PCRE 5.3以后,就不在推薦使用,從PCRE6以后,就將被移除)
由于POSIX正則即將推出歷史舞臺,并且PCRE和perl的形式差不多,更利于我們在perl和PCRE之間切換,所以這里重點介紹PCRE正則的使用。
PCRE正則表達式
PCRE全稱為Perl Compatible Regular Expression,意思是Perl兼容正則表達式。
在PCRE中,通常將模式表達式(即正則表達式)包含在兩個反斜線“/”之間,如“/apple/”。
正則中重要的幾個概念有:元字符、轉義、模式單元(重復)、反義、引用和斷言,這些概念都可以在文章[1]中輕松的理解和掌握。
常用的元字符(Meta-character):
元字符 說明
\A 匹配字符串串首的原子
\Z 匹配字符串串尾的原子
\b 匹配單詞的邊界 /\bis/ 匹配頭為is的字符串 /is\b/ 匹配尾為is的字符串 /\bis\b/ 定界
\B 匹配除單詞邊界之外的任意字符 /\Bis/ 匹配單詞“This”中的“is”
\d 匹配一個數字;等價于[0-9]
\D 匹配除數字以外任何一個字符;等價于[^0-9]
\w 匹配一個英文字母、數字或下劃線;等價于[0-9a-zA-Z_]
\W 匹配除英文字母、數字和下劃線以外任何一個字符;等價于[^0-9a-zA-Z_]
\s 匹配一個空白字符;等價于[\f\t\v]
\S 匹配除空白字符以外任何一個字符;等價于[^\f\t\v]
\f 匹配一個換頁符等價于 \x0c 或 \cL
匹配一個換行符;等價于 \x0a 或 \cJ
匹配一個回車符等價于\x0d 或 \cM
\t 匹配一個制表符;等價于 \x09\或\cl
\v 匹配一個垂直制表符;等價于\x0b或\ck
\oNN 匹配一個八進制數字
\xNN 匹配一個十六進制數字
\cC 匹配一個控制字符
模式修正符(Pattern Modifiers):
模式修正符在忽略大小寫、匹配多行中使用特別多,掌握了這一個修正符,往往能解決我們遇到的很多問題。
i -可同時匹配大小寫字母
M -將字符串視為多行
S -將字符串視為單行,換行符做普通字符看待,使“.”匹配任何字符
X -模式中的空白忽略不計
U -匹配到最近的字符串
e -將替換的字符串作為表達使用
格式:/apple/i匹配“apple”或“Apple”等,忽略大小寫。 /i
PCRE的模式單元:
//1 提取第一位的屬性
/^\d{2} ([\W])\d{2}\\1\d{4}$匹配“12-31-2006”、“09/27/1996”、“86 01 4321”等字符串。但上述正則表達式不匹配“12/34-5678”的格式。這是因為模式“[\W]”的結果“/”已經被存儲。下個位置“\1”引用時,其匹配模式也是字符“/”。
當不需要存儲匹配結果時使用非存儲模式單元“(?:)”
例如/(?:a|b|c)(D|E|F)\\1g/ 將匹配“aEEg”。在一些正則表達式中,使用非存儲模式單元是必要的。否則,需要改變其后引用的順序。上例還可以寫成/(a|b|c) (C|E|F)\2g/。
PCRE正則表達式函數:
preg_match() 和preg_match_all() preg_quote() preg_split() preg_grep() preg_replace() |
函數的具體使用,我們可以通過PCRE手冊來找到,下面分享一些平時積累的正則表達式:
匹配action屬性
$str = ''; $match = ''; preg_match_all('/\s+action=\"(?!http:)(.*?)\"\s/', $str, $match); print_r($match); |
在正則中使用回調函數
function callback_replace() { $url = 'http://esfang.house.sina.com.cn'; $str = ''; $str = preg_replace ( '/(?<=\saction=\")(?!http:)(.*?)(?=\"\s)/e', 'search(\$url, \\1)', $str );
echo $str; }
function search($url, $match){ return $url . '/' . $match; }
|
帶斷言的正則匹配
$match = ''; $str = 'xxxxxx.com.cn bold font paragraph text
'; preg_match_all ( '/(?<=<(\w{1})>).*(?=<\/\1>)/', $str, $match ); echo "匹配沒有屬性的HTML標簽中的內容:"; print_r ( $match ); |
替換HTML源碼中的地址
$form_html = preg_replace ( '/(?<=\saction=\"|\ssrc=\"|\shref=\")(?!http:|javascript)(.*?)(?=\"\s)/e', 'add_url(\$url, \'\\1\')', $form_html ); |
最后,正則工具雖然強大,但是從效率和編寫時間上來講,有的時候可能沒有explode來的更直接,對于一些緊急或者要求不高的任務,簡單、粗暴的方法也許更好。
后向引用
使用小括號指定一個子表達式后,匹配這個子表達式的文本可以在表達式或其它程序中作進一步的處理。默認情況下,每個分組會自動擁有一個組號,規則是:從左向右,以分組的左括號為標志,第一個出現的分組的組號為1,第二個為2,以此類推。
后向引用用于重復搜索前面某個分組匹配的文本。例如,\1代表分組1匹配的文本。難以理解?請看示例:
\b(\w+)\b\s+\1\b可以用來匹配重復的單詞,像go go, kitty kitty。首先是一個單詞,也就是單詞開始處和結束處之間的多于一個的字母或數字(\b(\w+)\b),然后是1個或幾個空白符(\s+,最后是前面匹配的那個單詞(\1)。
你也可以自己指定子表達式的組號或組名。要指定一個子表達式的組名,請使用這樣的語法:(?<Word>\w+),這樣就把\w+的組名指定為Word了。要反向引用這個分組捕獲的內容,你可以使用\k<Word>,所以上一個例子也可以寫成這樣:\b(?<Word>\w+)\b\s*\k<Word>\b。
使用小括號的時候,還有很多特定用途的語法。下面列出了最常用的一些:
表4.分組語法捕獲(exp)匹配exp,并捕獲文本到自動命名的組里(?<name>exp)匹配exp,并捕獲文本到名稱為name的組里,也可以寫成(?'name'exp)(?:exp)匹配exp,不捕獲匹配的文本位置指定(?=exp)匹配exp前面的位置(?<=exp)匹配exp后面的位置(?!exp)匹配后面跟的不是exp的位置(?<!exp)匹配前面不是exp的位置注釋(?#comment)這種類型的組不對正則表達式的處理產生任何影響,只是為了提供讓人閱讀注釋我們已經討論了前兩種語法。第三個(?:exp)不會改變正則表達式的處理方式,只是這樣的組匹配的內容不會像前兩種那樣被捕獲到某個組里面。
位置指定
接下來的四個用于查找在某些內容(但并不包括這些內容)之前或之后的東西,也就是說它們用于指定一個位置,就像\b,^,$那樣,因此它們也被稱為零寬斷言。最好還是拿例子來說明吧:
(?=exp)也叫零寬先行斷言,它匹配文本中的某些位置,這些位置的后面能匹配給定的后綴exp。比如\b\w+(?=ing\b),匹配以ing結尾的單詞的前面部分(除了ing以外的部分),如果在查找I'm singing while you're dancing.時,它會匹配sing和danc。
(?<=exp)也叫零寬后行斷言,它匹配文本中的某些位置,這些位置的前面能給定的前綴匹配exp。比如(?<=\bre)\w+\b會匹配以re開頭的單詞的后半部分(除了re以外的部分),例如在查找reading a book時,它匹配ading。
假如你想要給一個很長的數字中每三位間加一個逗號(當然是從右邊加起了),你可以這樣查找需要在前面和里面添加逗號的部分:((?<=\d)\d{3})*\b。請仔細分析這個表達式,它可能不像你第一眼看出來的那么簡單。
下面這個例子同時使用了前綴和后綴:(?<=\s)\d+(?=\s)匹配以空白符間隔的數字(再次強調,不包括這些空白符)。
負向位置指定
前面我們提到過怎么查找不是某個字符或不在某個字符類里的字符的方法(反義)。但是如果我們只是想要確保某個字符沒有出現,但并不想去匹配它時怎么辦?例如,如果我們想查找這樣的單詞--它里面出現了字母q,但是q后面跟的不是字母u,我們可以嘗試這樣:
\b\w*q[^u]\w*\b匹配包含后面不是字母u的字母q的單詞。但是如果多做測試(或者你思維足夠敏銳,直接就觀察出來了),你會發現,如果q出現在單詞的結尾的話,像Iraq,Benq,這個表達式就會出錯。這是因為[^u]總是匹配一個字符,所以如果q是單詞的最后一個字符的話,后面的[^u]將會匹配q后面的單詞分隔符(可能是空格,或者是句號或其它的什么),后面的\w+\b將會匹配下一個單詞,于是\b\w*q[^u]\w*\b就能匹配整個Iraq fighting。負向位置指定能解決這樣的問題,因為它只匹配一個位置,并不消費任何字符。現在,我們可以這樣來解決這個問題:\b\w*q(?!u)\w*\b。
零寬負向先行斷言(?!exp),只會匹配后綴exp不存在的位置。\d{3}(?!\d)匹配三位數字,而且這三位數字的后面不能是數字。
同理,我們可以用(?<!exp),零寬負向后行斷言來查找前綴exp不存在的位置:(?<![a-z])\d{7}匹配前面不是小寫字母的七位數字(實驗時發現錯誤?注意你的“區分大小寫”先項是否選中)。
一個更復雜的例子:(?<=<(\w+)>).*(?=<\/\1>)匹配不包含屬性的簡單HTML標簽內里的內容。(<?(\w+)>)指定了這樣的前綴:被尖括號括起來的單詞(比如可能是<b>),然后是.*(任意的字符串),最后是一個后綴(?=<\/\1>)。注意后綴里的\/,它用到了前面提過的字符轉義;\1則是一個反向引用,引用的正是捕獲的第一組,前面的(\w+)匹配的內容,這樣如果前綴實際上是<b>的話,后綴就是</b>了。整個表達式匹配的是<b>和</b>之間的內容(再次提醒,不包括前綴和后綴本身)。
貪婪與懶惰
當正則表達式中包含能接受重復的限定符(指定數量的代碼,例如*,{5,12}等)時,通常的行為是(在使整個表達式能得到匹配的前提下)匹配盡可能多的字符。考慮這個表達式:a.*b,它將會匹配最長的以a開始,以b結束的字符串。如果用它來搜索aabab的話,它會匹配整個字符串aabab。這被稱為貪婪匹配。
有時,我們更需要懶惰匹配,也就是匹配盡可能少的字符。前面給出的限定符都可以被轉化為懶惰匹配模式,只要在它后面加上一個問號?。這樣.*?就意味著匹配任意數量的重復,但是在能使整個匹配成功的前提下使用最少的重復。現在看看懶惰版的例子吧:
a.*?b匹配最短的,以a開始,以b結束的字符串。如果把它應用于aabab的話,它會匹配aab和ab(為什么第一個匹配是aab而不是ab?簡單地說,最先開始的區配最有最大的優先權——The Match That Begins Earliest Wins)。
表5.懶惰限定符*?重復任意次,但盡可能少重復+?重復1次或更多次,但盡可能少重復??重復0次或1次,但盡可能少重復{n,m}?重復n到m次,但盡可能少重復{n,}?重復n次以上,但盡可能少重復
平衡組
如果想要匹配可嵌套的層次性結構的話,就得使用平衡組了。舉個例子吧,如何把“xx <aa <bbb> <bbb> aa> yy”這樣的字符串里,最長的括號內的內容捕獲出來?
這里需要用到以下的語法構造:
(?<group>) 把捕獲的內容命名為group,并壓入堆棧
(?<-group>) 從堆棧上彈出最后壓入堆棧的名為group的捕獲內容,如果堆棧本來為空,則本分組的匹配失敗
(?(group)yes|no) 如果堆棧上存在以名為group的捕獲內容的話,繼續匹配yes部分的表達式,否則繼續匹配no部分
(?!) 零寬負向先行斷言,由于沒有后綴表達式,試圖匹配總是失敗
如果你不是一個程序員(或者你是一個對堆棧的概念不熟的程序員),你就這樣理解上面的三種語法吧:第一個就是在黑板上寫一個(或再寫一個)"group",第二個就是從黑板上擦掉一個"group",第三個就是看黑板上寫的還有沒有"group",如果有就繼續匹配yes部分,否則就匹配no部分。
我們需要做的是每碰到了左括號,就在黑板上寫一個"group",每碰到一個右括號,就擦掉一個,到了最后就看看黑板上還有沒有-如果有那就證明左括號比右括號多,那匹配就應該失敗(為了能看得更清楚一點,我用了(?'group')的語法):
< #最外層的左括號
[^<>]* #最外層的左括號后面的不是括號的內容
( ( (?'Open'<) #碰到了左括號,在黑板上寫一個"Open"
[^<>>]* #匹配左括號后面的不是括號的內容
)+ ( (?'-Open'>) #碰到了右括號,擦掉一個"Open"
[^<>]* #匹配右括號后面不是括號的內容
)+ )* (?(Open)(?!)) #在遇到最外層的右括號前面,判斷黑板上還有沒有沒擦掉的"Open";如果還有,則匹配失敗
> #最外層的右括號