PCRE正則表達(dá)式主要用于字符串的模式分割、匹配、查找及替換操作。使用正則表達(dá)式在某些簡(jiǎn)單的環(huán)境下可能效率不高,因此如何更好的使用PCRE正則表達(dá)式需要綜合考慮。
我的PCRE正則入門,是起源于網(wǎng)上的一篇文章,這篇文章由淺入深的闡述了PCRE正則表達(dá)式使用的方法,我覺得是一個(gè)很好的入門材料,不過學(xué)成還是要靠個(gè)人,在使用的過程中,還是會(huì)不斷地忘記,因此反反復(fù)復(fù)的閱讀了這篇文章有四五遍,對(duì)于其中一些比較困難的知識(shí)點(diǎn),甚至要用很久才能消化,但是只要能見堅(jiān)持著看完,你會(huì)發(fā)現(xiàn)自己對(duì)于正則的運(yùn)用能力就會(huì)顯著提高。
PCRE正則表達(dá)式的定義:
用于描述字符排列和匹配模式的一種語(yǔ)法規(guī)則。它主要用于字符串的模式分割、匹配、查找及替換操作。
PHP中的正則函數(shù):
PHP中有兩套正則函數(shù),兩者功能差不多,分別為:
一套是由PCRE(Perl Compatible Regular Expression)庫(kù)提供的。使用“preg_”為前綴命名的函數(shù);
一套由POSIX(Portable Operating System Interface of Unix )擴(kuò)展提供的。使用以“ereg_”為前綴命名的函數(shù);(POSIX的正則函數(shù)庫(kù),自PCRE 5.3以后,就不在推薦使用,從PCRE6以后,就將被移除)
由于POSIX正則即將推出歷史舞臺(tái),并且PCRE和perl的形式差不多,更利于我們?cè)?span lang="EN-US">perl和PCRE之間切換,所以這里重點(diǎn)介紹PCRE正則的使用。
PCRE正則表達(dá)式
PCRE全稱為Perl Compatible Regular Expression,意思是Perl兼容正則表達(dá)式。
在PCRE中,通常將模式表達(dá)式(即正則表達(dá)式)包含在兩個(gè)反斜線“/”之間,如“/apple/”。
正則中重要的幾個(gè)概念有:元字符、轉(zhuǎn)義、模式單元(重復(fù))、反義、引用和斷言,這些概念都可以在文章[1]中輕松的理解和掌握。
常用的元字符(Meta-character):
元字符 說明
\A 匹配字符串串首的原子
\Z 匹配字符串串尾的原子
\b 匹配單詞的邊界 /\bis/ 匹配頭為is的字符串 /is\b/ 匹配尾為is的字符串 /\bis\b/ 定界
\B 匹配除單詞邊界之外的任意字符 /\Bis/ 匹配單詞“This”中的“is”
\d 匹配一個(gè)數(shù)字;等價(jià)于[0-9]
\D 匹配除數(shù)字以外任何一個(gè)字符;等價(jià)于[^0-9]
\w 匹配一個(gè)英文字母、數(shù)字或下劃線;等價(jià)于[0-9a-zA-Z_]
\W 匹配除英文字母、數(shù)字和下劃線以外任何一個(gè)字符;等價(jià)于[^0-9a-zA-Z_]
\s 匹配一個(gè)空白字符;等價(jià)于[\f\t\v]
\S 匹配除空白字符以外任何一個(gè)字符;等價(jià)于[^\f\t\v]
\f 匹配一個(gè)換頁(yè)符等價(jià)于 \x0c 或 \cL
匹配一個(gè)換行符;等價(jià)于 \x0a 或 \cJ
匹配一個(gè)回車符等價(jià)于\x0d 或 \cM
\t 匹配一個(gè)制表符;等價(jià)于 \x09\或\cl
\v 匹配一個(gè)垂直制表符;等價(jià)于\x0b或\ck
\oNN 匹配一個(gè)八進(jìn)制數(shù)字
\xNN 匹配一個(gè)十六進(jìn)制數(shù)字
\cC 匹配一個(gè)控制字符
模式修正符(Pattern Modifiers):
模式修正符在忽略大小寫、匹配多行中使用特別多,掌握了這一個(gè)修正符,往往能解決我們遇到的很多問題。
i -可同時(shí)匹配大小寫字母
M -將字符串視為多行
S -將字符串視為單行,換行符做普通字符看待,使“.”匹配任何字符
X -模式中的空白忽略不計(jì)
U -匹配到最近的字符串
e -將替換的字符串作為表達(dá)使用
格式:/apple/i匹配“apple”或“Apple”等,忽略大小寫。 /i
PCRE的模式單元:
//1 提取第一位的屬性
/^\d{2} ([\W])\d{2}\\1\d{4}$匹配“12-31-2006”、“09/27/1996”、“86 01 4321”等字符串。但上述正則表達(dá)式不匹配“12/34-5678”的格式。這是因?yàn)槟J?span lang="EN-US">“[\W]”的結(jié)果“/”已經(jīng)被存儲(chǔ)。下個(gè)位置“\1”引用時(shí),其匹配模式也是字符“/”。
當(dāng)不需要存儲(chǔ)匹配結(jié)果時(shí)使用非存儲(chǔ)模式單元“(?:)”
例如/(?:a|b|c)(D|E|F)\\1g/ 將匹配“aEEg”。在一些正則表達(dá)式中,使用非存儲(chǔ)模式單元是必要的。否則,需要改變其后引用的順序。上例還可以寫成/(a|b|c) (C|E|F)\2g/。
PCRE正則表達(dá)式函數(shù):
preg_match() 和preg_match_all() preg_quote() preg_split() preg_grep() preg_replace() |
函數(shù)的具體使用,我們可以通過PCRE手冊(cè)來找到,下面分享一些平時(shí)積累的正則表達(dá)式:
匹配action屬性
$str = ''; $match = ''; preg_match_all('/\s+action=\"(?!http:)(.*?)\"\s/', $str, $match); print_r($match); |
在正則中使用回調(diào)函數(shù)
function callback_replace() { $url = 'http://esfang.house.sina.com.cn'; $str = ''; $str = preg_replace ( '/(?<=\saction=\")(?!http:)(.*?)(?=\"\s)/e', 'search(\$url, \\1)', $str );
echo $str; }
function search($url, $match){ return $url . '/' . $match; }
|
帶斷言的正則匹配
$match = ''; $str = 'xxxxxx.com.cn bold font paragraph text
'; preg_match_all ( '/(?<=<(\w{1})>).*(?=<\/\1>)/', $str, $match ); echo "匹配沒有屬性的HTML標(biāo)簽中的內(nèi)容:"; print_r ( $match ); |
替換HTML源碼中的地址
$form_html = preg_replace ( '/(?<=\saction=\"|\ssrc=\"|\shref=\")(?!http:|javascript)(.*?)(?=\"\s)/e', 'add_url(\$url, \'\\1\')', $form_html ); |
最后,正則工具雖然強(qiáng)大,但是從效率和編寫時(shí)間上來講,有的時(shí)候可能沒有explode來的更直接,對(duì)于一些緊急或者要求不高的任務(wù),簡(jiǎn)單、粗暴的方法也許更好。
后向引用
使用小括號(hào)指定一個(gè)子表達(dá)式后,匹配這個(gè)子表達(dá)式的文本可以在表達(dá)式或其它程序中作進(jìn)一步的處理。默認(rèn)情況下,每個(gè)分組會(huì)自動(dòng)擁有一個(gè)組號(hào),規(guī)則是:從左向右,以分組的左括號(hào)為標(biāo)志,第一個(gè)出現(xiàn)的分組的組號(hào)為1,第二個(gè)為2,以此類推。
后向引用用于重復(fù)搜索前面某個(gè)分組匹配的文本。例如,\1代表分組1匹配的文本。難以理解?請(qǐng)看示例:
\b(\w+)\b\s+\1\b可以用來匹配重復(fù)的單詞,像go go, kitty kitty。首先是一個(gè)單詞,也就是單詞開始處和結(jié)束處之間的多于一個(gè)的字母或數(shù)字(\b(\w+)\b),然后是1個(gè)或幾個(gè)空白符(\s+,最后是前面匹配的那個(gè)單詞(\1)。
你也可以自己指定子表達(dá)式的組號(hào)或組名。要指定一個(gè)子表達(dá)式的組名,請(qǐng)使用這樣的語(yǔ)法:(?<Word>\w+),這樣就把\w+的組名指定為Word了。要反向引用這個(gè)分組捕獲的內(nèi)容,你可以使用\k<Word>,所以上一個(gè)例子也可以寫成這樣:\b(?<Word>\w+)\b\s*\k<Word>\b。
使用小括號(hào)的時(shí)候,還有很多特定用途的語(yǔ)法。下面列出了最常用的一些:
表4.分組語(yǔ)法捕獲(exp)匹配exp,并捕獲文本到自動(dòng)命名的組里(?<name>exp)匹配exp,并捕獲文本到名稱為name的組里,也可以寫成(?'name'exp)(?:exp)匹配exp,不捕獲匹配的文本位置指定(?=exp)匹配exp前面的位置(?<=exp)匹配exp后面的位置(?!exp)匹配后面跟的不是exp的位置(?<!exp)匹配前面不是exp的位置注釋(?#comment)這種類型的組不對(duì)正則表達(dá)式的處理產(chǎn)生任何影響,只是為了提供讓人閱讀注釋我們已經(jīng)討論了前兩種語(yǔ)法。第三個(gè)(?:exp)不會(huì)改變正則表達(dá)式的處理方式,只是這樣的組匹配的內(nèi)容不會(huì)像前兩種那樣被捕獲到某個(gè)組里面。
位置指定
接下來的四個(gè)用于查找在某些內(nèi)容(但并不包括這些內(nèi)容)之前或之后的東西,也就是說它們用于指定一個(gè)位置,就像\b,^,$那樣,因此它們也被稱為零寬斷言。最好還是拿例子來說明吧:
(?=exp)也叫零寬先行斷言,它匹配文本中的某些位置,這些位置的后面能匹配給定的后綴exp。比如\b\w+(?=ing\b),匹配以ing結(jié)尾的單詞的前面部分(除了ing以外的部分),如果在查找I'm singing while you're dancing.時(shí),它會(huì)匹配sing和danc。
(?<=exp)也叫零寬后行斷言,它匹配文本中的某些位置,這些位置的前面能給定的前綴匹配exp。比如(?<=\bre)\w+\b會(huì)匹配以re開頭的單詞的后半部分(除了re以外的部分),例如在查找reading a book時(shí),它匹配ading。
假如你想要給一個(gè)很長(zhǎng)的數(shù)字中每三位間加一個(gè)逗號(hào)(當(dāng)然是從右邊加起了),你可以這樣查找需要在前面和里面添加逗號(hào)的部分:((?<=\d)\d{3})*\b。請(qǐng)仔細(xì)分析這個(gè)表達(dá)式,它可能不像你第一眼看出來的那么簡(jiǎn)單。
下面這個(gè)例子同時(shí)使用了前綴和后綴:(?<=\s)\d+(?=\s)匹配以空白符間隔的數(shù)字(再次強(qiáng)調(diào),不包括這些空白符)。
負(fù)向位置指定
前面我們提到過怎么查找不是某個(gè)字符或不在某個(gè)字符類里的字符的方法(反義)。但是如果我們只是想要確保某個(gè)字符沒有出現(xiàn),但并不想去匹配它時(shí)怎么辦?例如,如果我們想查找這樣的單詞--它里面出現(xiàn)了字母q,但是q后面跟的不是字母u,我們可以嘗試這樣:
\b\w*q[^u]\w*\b匹配包含后面不是字母u的字母q的單詞。但是如果多做測(cè)試(或者你思維足夠敏銳,直接就觀察出來了),你會(huì)發(fā)現(xiàn),如果q出現(xiàn)在單詞的結(jié)尾的話,像Iraq,Benq,這個(gè)表達(dá)式就會(huì)出錯(cuò)。這是因?yàn)?span lang="EN-US">[^u]總是匹配一個(gè)字符,所以如果q是單詞的最后一個(gè)字符的話,后面的[^u]將會(huì)匹配q后面的單詞分隔符(可能是空格,或者是句號(hào)或其它的什么),后面的\w+\b將會(huì)匹配下一個(gè)單詞,于是\b\w*q[^u]\w*\b就能匹配整個(gè)Iraq fighting。負(fù)向位置指定能解決這樣的問題,因?yàn)樗黄ヅ湟粋€(gè)位置,并不消費(fèi)任何字符。現(xiàn)在,我們可以這樣來解決這個(gè)問題:\b\w*q(?!u)\w*\b。
零寬負(fù)向先行斷言(?!exp),只會(huì)匹配后綴exp不存在的位置。\d{3}(?!\d)匹配三位數(shù)字,而且這三位數(shù)字的后面不能是數(shù)字。
同理,我們可以用(?<!exp),零寬負(fù)向后行斷言來查找前綴exp不存在的位置:(?<![a-z])\d{7}匹配前面不是小寫字母的七位數(shù)字(實(shí)驗(yàn)時(shí)發(fā)現(xiàn)錯(cuò)誤?注意你的“區(qū)分大小寫”先項(xiàng)是否選中)。
一個(gè)更復(fù)雜的例子:(?<=<(\w+)>).*(?=<\/\1>)匹配不包含屬性的簡(jiǎn)單HTML標(biāo)簽內(nèi)里的內(nèi)容。(<?(\w+)>)指定了這樣的前綴:被尖括號(hào)括起來的單詞(比如可能是<b>),然后是.*(任意的字符串),最后是一個(gè)后綴(?=<\/\1>)。注意后綴里的\/,它用到了前面提過的字符轉(zhuǎn)義;\1則是一個(gè)反向引用,引用的正是捕獲的第一組,前面的(\w+)匹配的內(nèi)容,這樣如果前綴實(shí)際上是<b>的話,后綴就是</b>了。整個(gè)表達(dá)式匹配的是<b>和</b>之間的內(nèi)容(再次提醒,不包括前綴和后綴本身)。
貪婪與懶惰
當(dāng)正則表達(dá)式中包含能接受重復(fù)的限定符(指定數(shù)量的代碼,例如*,{5,12}等)時(shí),通常的行為是(在使整個(gè)表達(dá)式能得到匹配的前提下)匹配盡可能多的字符。考慮這個(gè)表達(dá)式:a.*b,它將會(huì)匹配最長(zhǎng)的以a開始,以b結(jié)束的字符串。如果用它來搜索aabab的話,它會(huì)匹配整個(gè)字符串aabab。這被稱為貪婪匹配。
有時(shí),我們更需要懶惰匹配,也就是匹配盡可能少的字符。前面給出的限定符都可以被轉(zhuǎn)化為懶惰匹配模式,只要在它后面加上一個(gè)問號(hào)?。這樣.*?就意味著匹配任意數(shù)量的重復(fù),但是在能使整個(gè)匹配成功的前提下使用最少的重復(fù)。現(xiàn)在看看懶惰版的例子吧:
a.*?b匹配最短的,以a開始,以b結(jié)束的字符串。如果把它應(yīng)用于aabab的話,它會(huì)匹配aab和ab(為什么第一個(gè)匹配是aab而不是ab?簡(jiǎn)單地說,最先開始的區(qū)配最有最大的優(yōu)先權(quán)——The Match That Begins Earliest Wins)。
表5.懶惰限定符*?重復(fù)任意次,但盡可能少重復(fù)+?重復(fù)1次或更多次,但盡可能少重復(fù)??重復(fù)0次或1次,但盡可能少重復(fù){n,m}?重復(fù)n到m次,但盡可能少重復(fù){n,}?重復(fù)n次以上,但盡可能少重復(fù)
平衡組
如果想要匹配可嵌套的層次性結(jié)構(gòu)的話,就得使用平衡組了。舉個(gè)例子吧,如何把“xx <aa <bbb> <bbb> aa> yy”這樣的字符串里,最長(zhǎng)的括號(hào)內(nèi)的內(nèi)容捕獲出來?
這里需要用到以下的語(yǔ)法構(gòu)造:
(?<group>) 把捕獲的內(nèi)容命名為group,并壓入堆棧
(?<-group>) 從堆棧上彈出最后壓入堆棧的名為group的捕獲內(nèi)容,如果堆棧本來為空,則本分組的匹配失敗
(?(group)yes|no) 如果堆棧上存在以名為group的捕獲內(nèi)容的話,繼續(xù)匹配yes部分的表達(dá)式,否則繼續(xù)匹配no部分
(?!) 零寬負(fù)向先行斷言,由于沒有后綴表達(dá)式,試圖匹配總是失敗
如果你不是一個(gè)程序員(或者你是一個(gè)對(duì)堆棧的概念不熟的程序員),你就這樣理解上面的三種語(yǔ)法吧:第一個(gè)就是在黑板上寫一個(gè)(或再寫一個(gè))"group",第二個(gè)就是從黑板上擦掉一個(gè)"group",第三個(gè)就是看黑板上寫的還有沒有"group",如果有就繼續(xù)匹配yes部分,否則就匹配no部分。
我們需要做的是每碰到了左括號(hào),就在黑板上寫一個(gè)"group",每碰到一個(gè)右括號(hào),就擦掉一個(gè),到了最后就看看黑板上還有沒有-如果有那就證明左括號(hào)比右括號(hào)多,那匹配就應(yīng)該失敗(為了能看得更清楚一點(diǎn),我用了(?'group')的語(yǔ)法):
< #最外層的左括號(hào)
[^<>]* #最外層的左括號(hào)后面的不是括號(hào)的內(nèi)容
( ( (?'Open'<) #碰到了左括號(hào),在黑板上寫一個(gè)"Open"
[^<>>]* #匹配左括號(hào)后面的不是括號(hào)的內(nèi)容
)+ ( (?'-Open'>) #碰到了右括號(hào),擦掉一個(gè)"Open"
[^<>]* #匹配右括號(hào)后面不是括號(hào)的內(nèi)容
)+ )* (?(Open)(?!)) #在遇到最外層的右括號(hào)前面,判斷黑板上還有沒有沒擦掉的"Open";如果還有,則匹配失敗
> #最外層的右括號(hào)