• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            正則表達式簡單資料

              正則表達式是使用一套特殊符號模式做為表達格式的字符串,主要用處是描述和解析文本。許多程序員(甚至一些不錯的高手)都無視(也不用)正則表達式,我認為這是一個恥辱,因為在解決很多問題的時候,正則表達式常常讓我們有得心應手的感覺。一旦你掌握了,就會發(fā)現(xiàn)它能解決無數(shù)真實世界的問題。

              正則表達式的工作方式就象Windows或者*nix系統(tǒng)里面的文件名替代符 - 你可以使用特定的*或者?來指定一系列文件。但是使用正則表達式的特殊字符或者metacharacters(元字符)來表示這類事情會更準確。

              正則表達式把大多數(shù)字符當作直接字符,就好像正則表達式 mike,將只會匹配按順序的字符序列m - i - k - e。與此同時正則表達式使用一個采用元字符的擴展集合,可以表示非常復雜的文字匹配。

              認識元字符: ^[](){}.*?\|+$ 以及在某些時候出現(xiàn)的 -
            我知道它們看上去很恐怖,但是一旦你了解它們就會知道它們是很可愛的符號。

              行定位點: ‘^’ 和 ‘$’
            ‘^’ (讀成:caret) 和 ‘$’ (讀成:dollar) 這兩個元字符分別代表一行文字的開始和結束。就象我前面舉的例子,正則表達式mike會匹配字符序列m - i - k – e,可是它會匹配一行中的所有位置 (比如,它會匹配 “I’m mike”或者 “carmike”)。 ‘^’字符被用來限定匹配行的開始,因此^mike 將只會尋找以mike開始的行。同樣,表達式mike$將只會尋找m - i - k - e在一行末尾的(當然還是會匹配 ‘carmike’)。

              如果我們聯(lián)合使用這兩個行定位點字符,我們可以搜索在多行文字中尋找包含的特殊字符串序列。比如:表達式 ^mike$ 將只會匹配占有單獨一行的單詞mike,一個字不多一個字不少。同樣,表達式 ^$ 對于發(fā)現(xiàn)空行(一行開始就是本行結束的那種)很有用。

              字符分類: ‘[]’
              一對方括號被稱為一個字符分類, 你可以用來匹配任何一個或多個字符。假設你想匹配單詞 ‘gray’,同時也想找一下被拼寫成 ‘grey’的單詞。 使用一個字符分類將允許你匹配這兩者 -- 正則表達式 gr[ea]y 被解讀成 “匹配這樣的字符串 - 一個g, 跟著是r, 跟著或者是一個e或者是一個a, 跟著一個y”。

              如果你用 [^ ... ] 代替 [ ... ], 這個分類將匹配后面列出來字符以外的任何字符。首字符 ^ 表示“否定"列表 - 不同于你列出所有希望包含的字符,你是去列出所有不想包含的字符。 注意在這里使用的^ (caret) 字符,它在字符分類方式之外使用表示另外的意思 - 用來匹配文字行的開始(見文章前面部分)。

              字符分類中的元字符: ‘-’
              在一個字符分類中,字符分類中的元字符 ‘-’ (dash) 用來指出一個字符范圍。考慮字符分類 [01234567890abcdefABCDEF],采用’-’的話我們可以這樣寫[0-9a-fA-F],方便了不少吧。有一點大家要注意的,這個’-’符號只有用一個字符分類中才被認為是元字符,在其他位置,它只是簡單的匹配普通的’-’字符,沒有任何其他意義。

              但是且慢,我看到有人舉手質疑。假如在一個字符分類里面,’-’字符做為第一個字符出現(xiàn)的時候,會把它認為成什么呢?比如[-A-F],問題很好,注意:這是一個例外,如果在字符分類中,’-’字符是第一個出現(xiàn)的字符,那我們把它當作普通字符而不是元字符處理(因為實際上它不可能表示一個字符范圍,范圍需要有開始和結束字符),這個時候它只會匹配一個普通的’-’字符。引申開來,我們再說一個例外:S’?’和’.’在大多數(shù)情況下都是正則表達式的元字符,但是有個例外是在字符分類中,當它們在字符分類中的時候(比如在:[-0-9.?],它們只是代表一個普通字符,唯一的特殊字符(元字符)是0和9中間的’-’)。

              用一個句點: ‘.’匹配任何字符
              ‘.’ 元字符(一般讀成a dot 或者point)是一種匹配任何字符的寫法。在你想在一個字符串的指定位置匹配一個任意字符的時候,它顯得非常可愛。再強調(diào)一遍,在字符分類中,’.’就不是一個元字符了。到現(xiàn)在為止,你開始看出一些門道來了吧?哪些是元字符哪些不是元字符在字符分類里面和外面是不一樣的。

              選擇性元字符: ‘|’
              ‘|’ 元字符(讀成pipe)的意思是“or”。它允許你把多個表達式合成到一個表達式,然后匹配里面任何單個表達式的結果。這些子表達式被稱為備選項。

              例如:Mike 和 Michael 是兩個獨立的正則表達式,但是Mike|Michael 這樣來寫的話,這個正則表達式匹配任意一個單詞。

              圓括號在這里可以被用來限制備選的范圍。我們可以使用圓括號來達到和上面這個正則表達式同樣的目的,同時縮短它長度,正則表達式Mi(ke|chael) 同樣匹配Mike或者Michael。當然,在實際程序中我還是會用第一種寫法,雖然長了一點,可是更容易理解,因此也更容易維護。

              匹配可選項: ‘?’
              ‘?’ 元字符(讀成:question mark)意味著可選。它放在正則表達式的某個位置的一個字符后面,這個字符允許在匹配結果中出現(xiàn),也可以不出現(xiàn)。當然,我們可以肯定的是:這個’?’字符只能跟在一個普通字符而不是元字符后面。

              如果我想匹配英式或者美式拼法的單詞‘flavor’ ,我會用正則表達式flavou?r,它被解讀成:“匹配一個字符串:f,跟著一個l,跟著一個a,跟著一個v,跟著一個o,跟著一個可選的u,跟著一個r”。

              數(shù)量符號: ‘+’ and ‘*’
              象’?’字符一樣,‘+’ (讀成plus)和‘*’(讀成star)元字符影響前導字符(就是在這個符號前面的字符)可以在匹配字符串中出現(xiàn)的數(shù)量 (使用前面說的‘?’的話,相當于前導字符可以出現(xiàn)0次或一次)。元字符‘+’ 匹配前面出現(xiàn)的項目一次或更多次,而‘*’ 則表示匹配任何次,包括0次。

              如果我想通過在一場足球比賽中解說員說’goal’的聲音次數(shù)來統(tǒng)計比分的話,我應該用正則表達式go+al, 它可以匹配‘goal’,也可以匹配一些激情主播的‘gooooooooooooooooal’ (但肯定不會是 ‘gal’)。

              前面的三個元字符:’?’、’+’、’*’一般又叫做計量符。因為它們影響前面項目的數(shù)量。

              數(shù)量范圍: ‘{}’
              ‘{最小, 最大}’ 這個元字符序列允許你指定特定項目可以被匹配的最少和最大次數(shù)。例如go{1,5}al 可以用來限制我們上面的例子,只匹配1到5次o。同樣的{0,1} 其實就等同于一個’?’元字符。

              轉義字符: ‘\’
              ‘\’ 元字符(讀成:backslash)被用來轉換指定的元字符的含義,以便于你可以把它們當成普通字符來匹配。例如,你打算匹配字符’?’或者’\’,你就可以在它們前面加上一個’\’字符,這樣它們就被轉換成普通字符的含義,就好像這樣寫:‘\?’ or ‘\\’.

              如果在一個非元字符前面使用’\’的話,那么根據(jù)你使用正則表達式的語言不同,會有不同的含義,必須參閱相應的手冊。比較普遍采用的是perl兼容的正則表達式(PCREs),你可以在這里查看the perldoc page for perl regular expressions. PCREs用得非常普遍,在PHP、 Ruby和ECMAScript/Javascript還有很多語言中都可以使用。

              用圓括號匹配: ‘()’
              大部分正則表達式工具允許你用圓括號設定一個特定的表達式子集。比如,我們可以用一個正則表達式http://([^/]+)去匹配一個URL的域名部分。下面讓我們把這個正則表達式分解開,看看它是如何工作的。

              這個表達式的起始部分非常直白:它必須匹配“h - t - t - p - : - / - /”這樣的字符序列。這個初始序列之后就是圓括號了,它被用來捕捉符合它們包圍的子表達式的字符。在現(xiàn)在的例子中,子表達式是‘[^/]+’,用上面學到的知識,我們知道它實際上是匹配除了‘/’字符以外的任何字符一次到多次。對于一個像是 http://immike.net/blog/Some-blog-post的URL,‘immike.net’ 將會被這個圓括號里面的表達式所匹配。

            posted on 2007-12-05 20:24 李亞 閱讀(451) 評論(1)  編輯 收藏 引用 所屬分類: 正則表達式

            評論

            # re: 正則表達式簡單資料[未登錄] 2007-12-25 15:43 yy

            very good  回復  更多評論   

            <2007年12月>
            2526272829301
            2345678
            9101112131415
            16171819202122
            23242526272829
            303112345

            導航

            統(tǒng)計

            公告

            這世界并不會在意你的自尊,這世界指望你在自我感覺良好之前先要有所成就!

            常用鏈接

            留言簿(3)

            隨筆分類(32)

            隨筆檔案(32)

            相冊

            最新隨筆

            搜索

            最新評論

            閱讀排行榜

            評論排行榜

            久久91精品国产91| 久久久久亚洲av无码专区导航 | 国产午夜精品理论片久久影视| 国产精品久久一区二区三区| 伊色综合久久之综合久久| 精品久久久久久中文字幕| 久久精品这里热有精品| 久久不见久久见免费视频7| 久久久青草久久久青草| 婷婷久久综合九色综合绿巨人| 国产欧美久久久精品| 久久精品无码免费不卡| 久久精品国产清自在天天线| 久久天天躁夜夜躁狠狠躁2022 | 久久天天躁狠狠躁夜夜不卡| 久久亚洲精品成人AV| 久久精品无码一区二区WWW| 久久免费视频观看| 亚洲精品美女久久777777| 亚洲va中文字幕无码久久| 99久久精品久久久久久清纯| 久久91精品综合国产首页| 99久久精品免费| 精品多毛少妇人妻AV免费久久| 99久久精品国产高清一区二区 | 久久亚洲精精品中文字幕| 91精品国产色综久久| 热re99久久6国产精品免费| 久久中文精品无码中文字幕| 精品精品国产自在久久高清| 一本一本久久A久久综合精品| 久久精品国产亚洲av日韩| 久久精品国产男包| 久久久久久国产精品美女| 日本道色综合久久影院| 国产精品99精品久久免费| 一本大道久久a久久精品综合 | 日韩AV毛片精品久久久| 久久嫩草影院免费看夜色| 欧美激情精品久久久久久| 久久无码国产|