woaidongmao

文章均收錄自他人博客，但不喜標題前加-[轉貼]，因其丑陋，見諒！~

隨筆 - 1469, 文章 - 0, 評論 - 661, 引用 - 0

數據加載中……

利用正則表達式排除特定字符串

1.例子，查找不以baidu開頭的字符串。
baidu.com
sina.com.cn

正則：^(?!baidu).*$ 匹配結果就是第2行，也就是第1行被排除了
這里使用了零寬度斷言(?!exp),注意，我們有一個向前查找的語法(也叫順序環視) (?=exp)
(?=exp) 會查找exp之前的【位置】如果將等號換成感嘆號，就變成了否定語義，也就是說查找的位置的后面不能是exp
一般情況下?!要與特定的錨點相結合，例如^行開頭或者$行結尾，那么上面的例子的意思如下：
^(?!baidu).*$ 先匹配一個行開頭的位置，并且要求接下來的位置的后面不是baidu這個字符串。這樣由于第一行^之后的位置后面是baidu所以匹配失敗，被排除在外了。

2.例子，查找不以com結尾的字符串。
www.sina.com.cn
www.educ.org
www.hao.cc
www.baidu.com
www.123.com

正則 ^.*?(?<!com)$ 匹配前3行結果。
如果查找以com結尾的字符串則使用正則 ^.*?(?<=com)$或者 ^.*?com$
對正則表達式的解釋：^.*?(?<!com)$
首先匹配行開頭，然后是 .*? 這個是忽略優先，也就是優先忽略不匹配任何字符，(?<!com) 這個是一個逆序環視的否定形式，意思是匹配一個位置此位置的前面不能是字符串com，最后是一個行結束。對于www.123.com來說，首先匹配行首，接著匹配w后面的位置，發現前面不是com，所以成功但緊接著要匹配行尾，失敗，回溯讓.*? 匹配一個w符號，接著(?<com)匹配第二個w后面的位置，發現前面也不是com匹配成功，緊接著要匹配$對應的行尾失敗，一直到.*?匹配了www.baidu.com的時候，此時(?<!com)匹配m后面的位置，此時此位置的前面是com匹配直接失敗,接著.*?匹配行末尾，(?<!com)匹配$后面的位置，顯然這次也失敗了，所以整個全局匹配都失敗。 www.123.com被排除到匹配之外。這里的.*后面加不加問號結果都一樣。

3.例子查找不含有if的行
if (a>b)
printf("hello");
else if(a<b)
printf("hello2");
else
printf("hello3");

正則 ^([^f]|[^i]f)+$
其實這個匹配也是一個排除型字符串的匹配，但是不同于上面兩種，因為這里的if可能既不在行開頭，也不在行結尾，而是在字符串中間這樣就給匹配帶來了麻煩，在正則表達式中沒有提供類似排除的功能。我們最容易想到的就是下面的正則：
^[^if]+$ 這種寫法看起來是那么回事，但是排除型字符組排除的是i和f兩個字符，而不是if這個字符串，所以這個正則表達式匹配的是那些既沒有i字符也不包含f字符的字符串。但是如果字符串中有一個i或多個i或者有一個或多個f，或者i和f字符都有只不過沒有連在一起。這些情況都是我們需要匹配的情況，而我們不能匹配的情況是那些包含if字符串的行，而不是包含i或f字符的行，所以這種寫法漏洞很大。

^.*(?!if).*$ 這種寫法使用了零寬度斷言，表面意思看起來好像是說任意字符+非if+任意字符組成了整個字符串，但是仔細研究匹配過程就知道這個是錯的，(?if)匹配的是一個位置，所以對于字符串aifb他也是可以匹配到的，而實際上這樣的字符正是我們不要的。按照這個正則表達式，對于aifb 首先匹配行首，其次.*是貪婪模式(匹配優先)，會一直匹配到字符串的末尾(此時傳動裝置定位在$位置前面)，此時(?!if)需要匹配一個位置，這個位置的后面不能是if，這個時候正好位置在b字符的后面，符合匹配條件，緊接著匹配行尾，到這里整個全局匹配成功。

也就是說對于一個字符串例如我要排除abc這個字串，那么對于任意一個字符串   helloworld abc helloworld 在匹配的時候(?!abc)可以匹配h、e、l、l、o、w、o、r、l、d等這些字符后面的位置，都是成功的。所以匹配根本還沒有進行到abc這個地方，(?!abc)就會匹配成功。這個時候根本起不到排除的作用，為什么上面的第1和第2個例子可以呢，因為他們的位置有行首和行尾限定。例如我要匹配行首不是abc的話，那么此時^(?!abc) 這個時候(?!abc)實際上在匹配的時候其傳動裝置的位置被行首進行了限定,所以對于那些以abc開頭的字符串來說就會匹配失敗了。

對于正則表達式^.*(?!abc).*$怎么能讓第一個.*匹配到 helloworldabcxxx中的helloworld的問題。

對于上面的題目，我們的答案是^([^f]|[^i]f)+$ 其實就將所有的匹配分成了2種情況，一種情況是假設字符串中沒有f字符，    自然就不可能有if字符串了，這種情況下匹配的字符串中是不可能有if的。第二種情況就是有f字符，但是我們要求此時f的前面不能是i，所以在有f和沒有f兩種情況都考慮到的情況下，這個正則就應該可以滿足所有的情況了。

其實這個問題的解答是不完美的，對于排除的字符串if只有2個字符i和f字符，我們可以使用這種方式，但是如果我們要排除的是字符串helloworld，這種方法顯然就不實用了，那要考慮到多少種情況呢?

在這種情況下我們使用 ^(?!.*helloworld).*$ 正則表達式我們將第一個.*移到了零寬度斷言的里面。在匹配的時候首先匹配行首的位置，然后接下來是匹配行首后面的位置，要求此位置的后面不能是    .*helloworld 匹配的字符串，說白了要求此位置的后面不能是xxxxxxxxxxxxxxxxxxhelloworld 類似的字符串，這樣就排除了從行首開始后面含有helloworld的情況了。

posted on 2013-04-18 11:15 肥仔閱讀(3266) 評論(4) 編輯收藏引用所屬分類: 正則表達式

# re: 利用正則表達式排除特定字符串回復 更多評論

不以com結尾：^.*?(?<!com)$ 正確應該是^.*?(?!com)$

2013-06-09 15:34 | argb

# re: 利用正則表達式排除特定字符串回復 更多評論

樓主貌似把順序環視和逆序環視搞混了

2013-06-09 15:35 | argb

# re: 利用正則表達式排除特定字符串回復 更多評論

某些情況下look around不太好用例如 “一對引號左邊不是xxx” 的情況。一個字符串中有多個這種 xxx "yyyy" 的情況下會得到錯誤的處理。簡單情況下或許還好。不過大部分語言不支持lookbehind.

2013-06-09 15:43 | argb

# re: 利用正則表達式排除特定字符串 回復 更多評論

這是很好的知道還是有一個網站，提供了很多的信息，以饗讀者。

2014-02-04 16:00 | 雅虎

刷新評論列表

只有注冊用戶登錄后才能發表評論。


相關文章: 利用正則表達式排除特定字符串 PCRE 正則表達式的幾則使用技巧歸總 windows平臺cl.exe編譯pcre 8.13 正則表達式速度測試（Regular Expression Performance Comparison）正則表達式30分鐘入門教程正則表達式語法表

網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

# re: 利用正則表達式排除特定字符串回復 更多評論

# re: 利用正則表達式排除特定字符串回復 更多評論

# re: 利用正則表達式排除特定字符串回復 更多評論

# re: 利用正則表達式排除特定字符串 回復 更多評論

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

woaidongmao

利用正則表達式排除特定字符串

評論

導航

常用鏈接

留言簿(10)

隨筆分類

隨筆檔案

搜索

最新評論

閱讀排行榜

評論排行榜

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

woaidongmao

利用正則表達式排除特定字符串

評論

# re: 利用正則表達式排除特定字符串 回復 更多評論

# re: 利用正則表達式排除特定字符串 回復 更多評論

# re: 利用正則表達式排除特定字符串 回復 更多評論

# re: 利用正則表達式排除特定字符串 回復 更多評論

導航

常用鏈接

留言簿(10)

隨筆分類

隨筆檔案

搜索

最新評論

閱讀排行榜

評論排行榜

# re: 利用正則表達式排除特定字符串回復更多評論

# re: 利用正則表達式排除特定字符串回復更多評論

# re: 利用正則表達式排除特定字符串回復更多評論

# re: 利用正則表達式排除特定字符串回復更多評論