• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            woaidongmao

            文章均收錄自他人博客,但不喜標(biāo)題前加-[轉(zhuǎn)貼],因其丑陋,見諒!~
            隨筆 - 1469, 文章 - 0, 評(píng)論 - 661, 引用 - 0
            數(shù)據(jù)加載中……

            PCRE 正則表達(dá)式的幾則使用技巧歸總

            PCRE正則表達(dá)式主要用于字符串的模式分割、匹配、查找及替換操作。使用正則表達(dá)式在某些簡(jiǎn)單的環(huán)境下可能效率不高,因此如何更好的使用PCRE正則表達(dá)式需要綜合考慮。

            我的PCRE正則入門,是起源于網(wǎng)上的一篇文章,這篇文章由淺入深的闡述了PCRE正則表達(dá)式使用的方法,我覺得是一個(gè)很好的入門材料,不過學(xué)成還是要靠個(gè)人,在使用的過程中,還是會(huì)不斷地忘記,因此反反復(fù)復(fù)的閱讀了這篇文章有四五遍,對(duì)于其中一些比較困難的知識(shí)點(diǎn),甚至要用很久才能消化,但是只要能見堅(jiān)持著看完,你會(huì)發(fā)現(xiàn)自己對(duì)于正則的運(yùn)用能力就會(huì)顯著提高。

            PCRE正則表達(dá)式的定義:

            用于描述字符排列和匹配模式的一種語(yǔ)法規(guī)則。它主要用于字符串的模式分割、匹配、查找及替換操作。

            PHP中的正則函數(shù):

            PHP中有兩套正則函數(shù),兩者功能差不多,分別為:

            一套是由PCREPerl Compatible Regular Expression)庫(kù)提供的。使用“preg_”為前綴命名的函數(shù);

            一套由POSIXPortable Operating System Interface of Unix )擴(kuò)展提供的。使用以“ereg_”為前綴命名的函數(shù);(POSIX的正則函數(shù)庫(kù),自PCRE 5.3以后,就不在推薦使用,從PCRE6以后,就將被移除)

            由于POSIX正則即將推出歷史舞臺(tái),并且PCREperl的形式差不多,更利于我們?cè)?span lang="EN-US">perlPCRE之間切換,所以這里重點(diǎn)介紹PCRE正則的使用。

            PCRE正則表達(dá)式

            PCRE全稱為Perl Compatible Regular Expression,意思是Perl兼容正則表達(dá)式。

            PCRE中,通常將模式表達(dá)式(即正則表達(dá)式)包含在兩個(gè)反斜線“/”之間,如“/apple/”

            正則中重要的幾個(gè)概念有:元字符、轉(zhuǎn)義、模式單元(重復(fù))、反義、引用和斷言,這些概念都可以在文章[1]中輕松的理解和掌握。

            常用的元字符(Meta-character)

            元字符     說明

            \A       匹配字符串串首的原子

            \Z       匹配字符串串尾的原子

            \b       匹配單詞的邊界     /\bis/   匹配頭為is的字符串   /is\b/   匹配尾為is的字符串   /\bis\b/ 定界

            \B       匹配除單詞邊界之外的任意字符   /\Bis/   匹配單詞“This”中的“is”

            \d       匹配一個(gè)數(shù)字;等價(jià)于[0-9]

            \D       匹配除數(shù)字以外任何一個(gè)字符;等價(jià)于[^0-9]

            \w       匹配一個(gè)英文字母、數(shù)字或下劃線;等價(jià)于[0-9a-zA-Z_]

            \W       匹配除英文字母、數(shù)字和下劃線以外任何一個(gè)字符;等價(jià)于[^0-9a-zA-Z_]

            \s      匹配一個(gè)空白字符;等價(jià)于[\f\t\v]

            \S      匹配除空白字符以外任何一個(gè)字符;等價(jià)于[^\f\t\v]

            \f      匹配一個(gè)換頁(yè)符等價(jià)于 \x0c \cL

            匹配一個(gè)換行符;等價(jià)于 \x0a \cJ

            匹配一個(gè)回車符等價(jià)于\x0d \cM

            \t     匹配一個(gè)制表符;等價(jià)于 \x09\\cl

            \v     匹配一個(gè)垂直制表符;等價(jià)于\x0b\ck

            \oNN   匹配一個(gè)八進(jìn)制數(shù)字

            \xNN   匹配一個(gè)十六進(jìn)制數(shù)字

            \cC    匹配一個(gè)控制字符

            模式修正符(Pattern Modifiers):

            模式修正符在忽略大小寫、匹配多行中使用特別多,掌握了這一個(gè)修正符,往往能解決我們遇到的很多問題。

            i     -可同時(shí)匹配大小寫字母

            M     -將字符串視為多行

            S     -將字符串視為單行,換行符做普通字符看待,使“.”匹配任何字符

            X     -模式中的空白忽略不計(jì) 

            U     -匹配到最近的字符串

            e     -將替換的字符串作為表達(dá)使用

            格式:/apple/i匹配“apple”“Apple”等,忽略大小寫。     /i

            PCRE的模式單元:

            //1 提取第一位的屬性

            /^\d{2} ([\W])\d{2}\\1\d{4}$匹配12-31-2006“09/27/1996”“86 01 4321”等字符串。但上述正則表達(dá)式不匹配“12/34-5678”的格式。這是因?yàn)槟J?span lang="EN-US">“[\W]”的結(jié)果“/”已經(jīng)被存儲(chǔ)。下個(gè)位置“\1”引用時(shí),其匹配模式也是字符“/”

            當(dāng)不需要存儲(chǔ)匹配結(jié)果時(shí)使用非存儲(chǔ)模式單元(?:)

            例如/(?:a|b|c)(D|E|F)\\1g/ 將匹配“aEEg”。在一些正則表達(dá)式中,使用非存儲(chǔ)模式單元是必要的。否則,需要改變其后引用的順序。上例還可以寫成/a|b|c (C|E|F)\2g/

             

            PCRE正則表達(dá)式函數(shù):

            preg_match() preg_match_all()
            preg_quote()
            preg_split()
            preg_grep()
            preg_replace()

            函數(shù)的具體使用,我們可以通過PCRE手冊(cè)來找到,下面分享一些平時(shí)積累的正則表達(dá)式:

            匹配action屬性

             

            $str = '';
            $match = '';
            preg_match_all('/\s+action=\"(?!http:)(.*?)\"\s/', $str, $match);
            print_r($match);

            在正則中使用回調(diào)函數(shù)

             


            function callback_replace() {
            $url = 'http://esfang.house.sina.com.cn';
            $str = '';
            $str = preg_replace ( '/(?<=\saction=\")(?!http:)(.*?)(?=\"\s)/e', 'search(\$url, \\1)', $str );

            echo $str;
            }

            function search($url, $match){
            return $url . '/' . $match;
            }

            帶斷言的正則匹配

             

            $match = '';
            $str = 'xxxxxx.com.cn bold font
            paragraph text

            ';
            preg_match_all ( '/(?<=<(\w{1})>).*(?=<\/\1>)/', $str, $match );
            echo "
            匹配沒有屬性的HTML標(biāo)簽中的內(nèi)容:";
            print_r ( $match );

            替換HTML源碼中的地址

             

            $form_html = preg_replace ( '/(?<=\saction=\"|\ssrc=\"|\shref=\")(?!http:|javascript)(.*?)(?=\"\s)/e', 'add_url(\$url, \'\\1\')', $form_html );

            最后,正則工具雖然強(qiáng)大,但是從效率和編寫時(shí)間上來講,有的時(shí)候可能沒有explode來的更直接,對(duì)于一些緊急或者要求不高的任務(wù),簡(jiǎn)單、粗暴的方法也許更好。

             

             后向引用

             

            使用小括號(hào)指定一個(gè)子表達(dá)式后,匹配這個(gè)子表達(dá)式的文本可以在表達(dá)式或其它程序中作進(jìn)一步的處理。默認(rèn)情況下,每個(gè)分組會(huì)自動(dòng)擁有一個(gè)組號(hào),規(guī)則是:從左向右,以分組的左括號(hào)為標(biāo)志,第一個(gè)出現(xiàn)的分組的組號(hào)為1,第二個(gè)為2,以此類推。

            后向引用用于重復(fù)搜索前面某個(gè)分組匹配的文本。例如,\1代表分組1匹配的文本。難以理解?請(qǐng)看示例:

            \b(\w+)\b\s+\1\b可以用來匹配重復(fù)的單詞,像go go, kitty kitty。首先是一個(gè)單詞,也就是單詞開始處和結(jié)束處之間的多于一個(gè)的字母或數(shù)字(\b(\w+)\b),然后是1個(gè)或幾個(gè)空白符(\s+,最后是前面匹配的那個(gè)單詞(\1)

            你也可以自己指定子表達(dá)式的組號(hào)或組名。要指定一個(gè)子表達(dá)式的組名,請(qǐng)使用這樣的語(yǔ)法:(?<Word>\w+),這樣就把\w+的組名指定為Word了。要反向引用這個(gè)分組捕獲的內(nèi)容,你可以使用\k<Word>,所以上一個(gè)例子也可以寫成這樣:\b(?<Word>\w+)\b\s*\k<Word>\b

            使用小括號(hào)的時(shí)候,還有很多特定用途的語(yǔ)法。下面列出了最常用的一些:

            4.分組語(yǔ)法捕獲(exp)匹配exp,并捕獲文本到自動(dòng)命名的組里(?<name>exp)匹配exp,并捕獲文本到名稱為name的組里,也可以寫成(?'name'exp)(?:exp)匹配exp,不捕獲匹配的文本位置指定(?=exp)匹配exp前面的位置(?<=exp)匹配exp后面的位置(?!exp)匹配后面跟的不是exp的位置(?<!exp)匹配前面不是exp的位置注釋(?#comment)這種類型的組不對(duì)正則表達(dá)式的處理產(chǎn)生任何影響,只是為了提供讓人閱讀注釋我們已經(jīng)討論了前兩種語(yǔ)法。第三個(gè)(?:exp)不會(huì)改變正則表達(dá)式的處理方式,只是這樣的組匹配的內(nèi)容不會(huì)像前兩種那樣被捕獲到某個(gè)組里面。

             

            位置指定

             

            接下來的四個(gè)用于查找在某些內(nèi)容(但并不包括這些內(nèi)容)之前或之后的東西,也就是說它們用于指定一個(gè)位置,就像\b,^,$那樣,因此它們也被稱為零寬斷言。最好還是拿例子來說明吧:

            (?=exp)也叫零寬先行斷言,它匹配文本中的某些位置,這些位置的后面能匹配給定的后綴exp。比如\b\w+(?=ing\b),匹配以ing結(jié)尾的單詞的前面部分(除了ing以外的部分),如果在查找I'm singing while you're dancing.時(shí),它會(huì)匹配singdanc

            (?<=exp)也叫零寬后行斷言,它匹配文本中的某些位置,這些位置的前面能給定的前綴匹配exp。比如(?<=\bre)\w+\b會(huì)匹配以re開頭的單詞的后半部分(除了re以外的部分),例如在查找reading a book時(shí),它匹配ading

            假如你想要給一個(gè)很長(zhǎng)的數(shù)字中每三位間加一個(gè)逗號(hào)(當(dāng)然是從右邊加起了),你可以這樣查找需要在前面和里面添加逗號(hào)的部分:((?<=\d)\d{3})*\b。請(qǐng)仔細(xì)分析這個(gè)表達(dá)式,它可能不像你第一眼看出來的那么簡(jiǎn)單。

            下面這個(gè)例子同時(shí)使用了前綴和后綴:(?<=\s)\d+(?=\s)匹配以空白符間隔的數(shù)字(再次強(qiáng)調(diào),不包括這些空白符)

             

            負(fù)向位置指定

             

            前面我們提到過怎么查找不是某個(gè)字符或不在某個(gè)字符類里的字符的方法(反義)。但是如果我們只是想要確保某個(gè)字符沒有出現(xiàn),但并不想去匹配它時(shí)怎么辦?例如,如果我們想查找這樣的單詞--它里面出現(xiàn)了字母q,但是q后面跟的不是字母u,我們可以嘗試這樣:

            \b\w*q[^u]\w*\b匹配包含后面不是字母u的字母q的單詞。但是如果多做測(cè)試(或者你思維足夠敏銳,直接就觀察出來了),你會(huì)發(fā)現(xiàn),如果q出現(xiàn)在單詞的結(jié)尾的話,像Iraq,Benq,這個(gè)表達(dá)式就會(huì)出錯(cuò)。這是因?yàn)?span lang="EN-US">[^u]總是匹配一個(gè)字符,所以如果q是單詞的最后一個(gè)字符的話,后面的[^u]將會(huì)匹配q后面的單詞分隔符(可能是空格,或者是句號(hào)或其它的什么),后面的\w+\b將會(huì)匹配下一個(gè)單詞,于是\b\w*q[^u]\w*\b就能匹配整個(gè)Iraq fighting。負(fù)向位置指定能解決這樣的問題,因?yàn)樗黄ヅ湟粋€(gè)位置,并不消費(fèi)任何字符。現(xiàn)在,我們可以這樣來解決這個(gè)問題:\b\w*q(?!u)\w*\b

            零寬負(fù)向先行斷言(?!exp),只會(huì)匹配后綴exp不存在的位置。\d{3}(?!\d)匹配三位數(shù)字,而且這三位數(shù)字的后面不能是數(shù)字。

            同理,我們可以用(?<!exp),零寬負(fù)向后行斷言來查找前綴exp不存在的位置:(?<![a-z])\d{7}匹配前面不是小寫字母的七位數(shù)字(實(shí)驗(yàn)時(shí)發(fā)現(xiàn)錯(cuò)誤?注意你的區(qū)分大小寫先項(xiàng)是否選中)

            一個(gè)更復(fù)雜的例子:(?<=<(\w+)>).*(?=<\/\1>)匹配不包含屬性的簡(jiǎn)單HTML標(biāo)簽內(nèi)里的內(nèi)容。(<?(\w+)>)指定了這樣的前綴:被尖括號(hào)括起來的單詞(比如可能是<b>),然后是.*(任意的字符串),最后是一個(gè)后綴(?=<\/\1>)。注意后綴里的\/,它用到了前面提過的字符轉(zhuǎn)義;\1則是一個(gè)反向引用,引用的正是捕獲的第一組,前面的(\w+)匹配的內(nèi)容,這樣如果前綴實(shí)際上是<b>的話,后綴就是</b>了。整個(gè)表達(dá)式匹配的是<b></b>之間的內(nèi)容(再次提醒,不包括前綴和后綴本身)

             

            貪婪與懶惰

             

            當(dāng)正則表達(dá)式中包含能接受重復(fù)的限定符(指定數(shù)量的代碼,例如*,{5,12})時(shí),通常的行為是(在使整個(gè)表達(dá)式能得到匹配的前提下)匹配盡可能多的字符。考慮這個(gè)表達(dá)式:a.*b,它將會(huì)匹配最長(zhǎng)的以a開始,以b結(jié)束的字符串。如果用它來搜索aabab的話,它會(huì)匹配整個(gè)字符串aabab。這被稱為貪婪匹配。

            有時(shí),我們更需要懶惰匹配,也就是匹配盡可能少的字符。前面給出的限定符都可以被轉(zhuǎn)化為懶惰匹配模式,只要在它后面加上一個(gè)問號(hào)?。這樣.*?就意味著匹配任意數(shù)量的重復(fù),但是在能使整個(gè)匹配成功的前提下使用最少的重復(fù)。現(xiàn)在看看懶惰版的例子吧:

            a.*?b匹配最短的,以a開始,以b結(jié)束的字符串。如果把它應(yīng)用于aabab的話,它會(huì)匹配aabab(為什么第一個(gè)匹配是aab而不是ab?簡(jiǎn)單地說,最先開始的區(qū)配最有最大的優(yōu)先權(quán)——The Match That Begins Earliest Wins)。

            5.懶惰限定符*?重復(fù)任意次,但盡可能少重復(fù)+?重復(fù)1次或更多次,但盡可能少重復(fù)??重復(fù)0次或1次,但盡可能少重復(fù){n,m}?重復(fù)nm次,但盡可能少重復(fù){n,}?重復(fù)n次以上,但盡可能少重復(fù)

             

            平衡組

             

            如果想要匹配可嵌套的層次性結(jié)構(gòu)的話,就得使用平衡組了。舉個(gè)例子吧,如何把“xx <aa <bbb> <bbb> aa> yy”這樣的字符串里,最長(zhǎng)的括號(hào)內(nèi)的內(nèi)容捕獲出來?

            這里需要用到以下的語(yǔ)法構(gòu)造:

            (?<group>) 把捕獲的內(nèi)容命名為group,并壓入堆棧

            (?<-group>) 從堆棧上彈出最后壓入堆棧的名為group的捕獲內(nèi)容,如果堆棧本來為空,則本分組的匹配失敗

            (?(group)yes|no) 如果堆棧上存在以名為group的捕獲內(nèi)容的話,繼續(xù)匹配yes部分的表達(dá)式,否則繼續(xù)匹配no部分

            (?!) 零寬負(fù)向先行斷言,由于沒有后綴表達(dá)式,試圖匹配總是失敗

            如果你不是一個(gè)程序員(或者你是一個(gè)對(duì)堆棧的概念不熟的程序員),你就這樣理解上面的三種語(yǔ)法吧:第一個(gè)就是在黑板上寫一個(gè)(或再寫一個(gè))"group",第二個(gè)就是從黑板上擦掉一個(gè)"group",第三個(gè)就是看黑板上寫的還有沒有"group",如果有就繼續(xù)匹配yes部分,否則就匹配no部分。

            我們需要做的是每碰到了左括號(hào),就在黑板上寫一個(gè)"group",每碰到一個(gè)右括號(hào),就擦掉一個(gè),到了最后就看看黑板上還有沒有-如果有那就證明左括號(hào)比右括號(hào)多,那匹配就應(yīng)該失敗(為了能看得更清楚一點(diǎn),我用了(?'group')的語(yǔ)法):

            <                                                        #最外層的左括號(hào)

                [^<>]*                                             #最外層的左括號(hào)后面的不是括號(hào)的內(nèi)容

                (        (            (?'Open'<)            #碰到了左括號(hào),在黑板上寫一個(gè)"Open"

                       [^<>>]*                                 #匹配左括號(hào)后面的不是括號(hào)的內(nèi)容

                    )+        (            (?'-Open'>)   #碰到了右括號(hào),擦掉一個(gè)"Open"

                        [^<>]*                                 #匹配右括號(hào)后面不是括號(hào)的內(nèi)容

                    )+    )*    (?(Open)(?!))         #在遇到最外層的右括號(hào)前面,判斷黑板上還有沒有沒擦掉的"Open";如果還有,則匹配失敗

            >                                                  #最外層的右括號(hào)

             

            posted on 2011-09-02 19:10 肥仔 閱讀(9138) 評(píng)論(0)  編輯 收藏 引用 所屬分類: 正則表達(dá)式

            久久久久亚洲精品天堂| 久久99精品国产99久久6| 国产日产久久高清欧美一区| 99久久精品国产综合一区| 久久亚洲高清综合| 精品久久久久香蕉网| 久久乐国产精品亚洲综合| 久久亚洲中文字幕精品有坂深雪| 97精品国产97久久久久久免费| 久久精品国产AV一区二区三区| 国产欧美一区二区久久| 亚洲精品乱码久久久久久自慰| 99久久国产综合精品网成人影院| 77777亚洲午夜久久多喷| 久久人妻少妇嫩草AV无码蜜桃| 国产婷婷成人久久Av免费高清 | 中文精品99久久国产| 狠狠狠色丁香婷婷综合久久五月| 久久青青色综合| 国产精品一区二区久久精品无码 | 久久国产亚洲高清观看| 亚洲精品无码久久不卡| 一本久久久久久久| 久久国产精品久久国产精品| 亚洲精品无码久久久久sm| 亚洲国产精品狼友中文久久久| 久久久青草久久久青草| 久久天天躁狠狠躁夜夜躁2O2O| 久久无码国产专区精品| 国内精品久久久久久久亚洲| 国产91色综合久久免费| 91精品国产综合久久久久久| 久久婷婷五月综合97色| 久久久免费精品re6| 欧美精品久久久久久久自慰| 7777久久久国产精品消防器材| 久久久久久久精品成人热色戒| 久久香综合精品久久伊人| 亚洲精品美女久久久久99小说| 欧美激情精品久久久久久久| 久久久WWW免费人成精品|