sed 示例
sed 通過對(duì)輸入數(shù)據(jù)執(zhí)行任意數(shù)量用戶指定的編輯操作(“命令”)來(lái)工作。sed 是基于行的,因此按順序?qū)γ恳恍袌?zhí)行命令。然后,sed 將其結(jié)果寫入標(biāo)準(zhǔn)輸出 (stdout),它不修改任何輸入文件。
讓我們看一些示例。頭幾個(gè)會(huì)有些奇怪,因?yàn)槲乙盟鼈冄菔?sed 如何工作,而不是執(zhí)行任何有用的任務(wù)。然而,如果您是 sed 新手,那么理解它們是十分重要的。下面是第一個(gè)示例:
$ sed -e 'd' /etc/services
|
如果輸入該命令,將得不到任何輸出。那么,發(fā)生
了什么?在該例中,用一個(gè)編輯命令 'd' 調(diào)用 sed。sed 打開 /etc/services
文件,將一行讀入其模式緩沖區(qū),執(zhí)行編輯命令(“刪除行”),然后打印模式緩沖區(qū)(緩沖區(qū)已為空)。然后,它對(duì)后面的每一行重復(fù)這些步驟。這不會(huì)產(chǎn)生輸
出,因?yàn)?"d" 命令除去了模式緩沖區(qū)中的每一行!
在該例中,還有幾件事要注意。首先,根本沒有修改
/etc/services。這還是因?yàn)?sed 只讀取在命令行指定的文件,將其用作輸入 -- 它不試圖修改該文件。第二件要注意的事是 sed
是面向行的。'd' 命令不是簡(jiǎn)單地告訴 sed 一下子刪除所有輸入數(shù)據(jù)。相反,sed 逐行將 /etc/services
的每一行讀入其稱為模式緩沖區(qū)的內(nèi)部緩沖區(qū)。一旦將一行讀入模式緩沖區(qū),它就執(zhí)行 'd'
命令,然后打印模式緩沖區(qū)的內(nèi)容(在本例中沒有內(nèi)容)。我將在后面為您演示如何使用地址范圍來(lái)控制將命令應(yīng)用到哪些行 --
但是,如果不使用地址,命令將應(yīng)用到 所有行。
第三件要注意的事是括起 'd' 命令的單引號(hào)的用法。養(yǎng)成使用單引號(hào)來(lái)括起 sed 命令的習(xí)慣是個(gè)好注意,這樣可以禁用 shell 擴(kuò)展。
另一個(gè) sed 示例
下面是使用 sed 從輸出流除去 /etc/services 文件第一行的示例:
$ sed -e '1d' /etc/services | more
|
如您所見,除了前面有 '1'
之外,該命令與第一個(gè) 'd' 命令十分類似。如果您猜到 '1' 指的是第一行,那您就猜對(duì)了。與第一個(gè)示例中只使用 'd'
不同的是,這一次使用的 'd' 前面有一個(gè)可選的數(shù)字地址。通過使用地址,可以告訴 sed 只對(duì)某一或某些特定行進(jìn)行編輯。
地址范圍
現(xiàn)在,讓我們看一下如何指定地址
范圍。在本例中,sed 將刪除輸出的第 1 到 10 行:
$ sed -e '1,10d' /etc/services | more
|
當(dāng)用逗號(hào)將兩個(gè)地址分開時(shí),sed 將把后面的命令應(yīng)用到從第一個(gè)地址開始、到第二個(gè)地址結(jié)束的范圍。在本例中,將 'd' 命令應(yīng)用到第 1 到 10 行(包括這兩行)。所有其它行都被忽略。
帶規(guī)則表達(dá)式的地址
現(xiàn)在演示一個(gè)更有用的示例。假設(shè)要查看 /etc/services 文件的內(nèi)容,但是對(duì)查看其中包括的注釋部分不感興趣。如您所知,可以通過以
'#' 字符開頭的行在 /etc/services 文件中放置注釋。為了避免注釋,我們希望 sed 刪除以 '#' 開始的行。以下是具體做法:
$ sed -e '/^#/d' /etc/services | more
|
試一下該例,看看發(fā)生了什么。您將注意到,sed 成功完成了預(yù)期任務(wù)。現(xiàn)在,讓我們分析發(fā)生的情況。
要理解 '/^#/d' 命令,首先需要對(duì)其剖析。首先,讓我們除去 'd' -- 這是我們前面所使用的同一個(gè)刪除行命令。新增加的是 '/^#/' 部分,它是一種新的
規(guī)則表達(dá)式地址。規(guī)則表達(dá)式地址總是由斜杠括起。它們指定一種
模式,緊跟在規(guī)則表達(dá)式地址之后的命令將僅適用于正好與該特定模式匹配的行。
因此,'/^#/' 是一個(gè)規(guī)則表達(dá)式。但是,它做些什么呢?很明顯,現(xiàn)在該復(fù)習(xí)規(guī)則表達(dá)式了。
規(guī)則表達(dá)式復(fù)習(xí)
可以使用規(guī)則表達(dá)式來(lái)表示可能會(huì)在文本中發(fā)現(xiàn)的模式。您在 shell 命令行中用過 '*' 字符嗎?這種用法與規(guī)則表達(dá)式類似,但并不相同。下面是可以在規(guī)則表達(dá)式中使用的特殊字符:
字符
|
描述
|
|
與行首匹配 |
|
與行末尾匹配 |
|
與任一個(gè)字符匹配 |
|
將與
前一個(gè)字符的零或多個(gè)出現(xiàn)匹配
|
[ ] |
與 [ ] 之內(nèi)的所有字符匹配 |
感受規(guī)則表達(dá)式的最好方法可能是看幾個(gè)示例。所有這些示例都將被 sed 作為合法地址接受,這些地址出現(xiàn)在命令的左邊。下面是幾個(gè)示例:
規(guī)則 表達(dá)式
|
描述
|
/./ |
將與包含至少一個(gè)字符的任何行匹配 |
/../ |
將與包含至少兩個(gè)字符的任何行匹配 |
/^#/ |
將與以 '#' 開始的任何行匹配 |
/^$/ |
將與所有空行匹配 |
/}^/ |
將與以 '}'(無(wú)空格)結(jié)束的任何行匹配 |
/} *^/ |
將與以 '}' 后面跟有
零或多個(gè)空格結(jié)束的任何行匹配
|
/[abc]/ |
將與包含小寫 'a'、'b' 或 'c' 的任何行匹配 |
/^[abc]/ |
將與以 'a'、'b' 或 'c'
開始的任何行匹配
|
在這些示例中,鼓勵(lì)您嘗試幾個(gè)。花一些時(shí)間熟悉規(guī)則表達(dá)式,然后嘗試幾個(gè)自己創(chuàng)建的規(guī)則表達(dá)式。可以如下使用 regexp:
$ sed -e '/regexp/d' /path/to/my/test/file | more
|
這將導(dǎo)致 sed 刪除任何匹配的行。然而,通過告訴 sed
打印regexp 匹配并刪除不匹配的內(nèi)容,而不是與之相反的方法,會(huì)更有利于熟悉規(guī)則表達(dá)式。可以用以下命令這樣做:
$ sed -n -e '/regexp/p' /path/to/my/test/file | more
|
請(qǐng)注意新的 '-n' 選項(xiàng),該選項(xiàng)告訴 sed 除非明確要求打印模式空間,否則不這樣做。您還會(huì)注意到,我們用 'p' 命令替換了 'd' 命令,如您所猜想的那樣,這明確要求 sed 打印模式空間。就這樣,將只打印匹配部分。
有關(guān)地址的更多內(nèi)容
目前為止,我們已經(jīng)看到了行地址、行范圍地址和 regexp 地址。但是,還有更多的可能。我們可以指定兩個(gè)用逗號(hào)分開的規(guī)則表達(dá)式,sed
將與所有從匹配第一個(gè)規(guī)則表達(dá)式的第一行開始,到匹配第二個(gè)規(guī)則表達(dá)式的行結(jié)束(包括該行)的所有行匹配。例如,以下命令將打印從包含 "BEGIN"
的行開始,并且以包含 "END" 的行結(jié)束的文本塊:
$ sed -n -e '/BEGIN/,/END/p' /my/test/file | more
|
如果沒發(fā)現(xiàn) "BEGIN",那么將不打印數(shù)據(jù)。如果發(fā)現(xiàn)了 "BEGIN",但是在這之后的所有行中都沒發(fā)現(xiàn) "END",那么將打印所有后續(xù)行。發(fā)生這種情況是因?yàn)?sed 面向流的特性 -- 它不知道是否會(huì)出現(xiàn) "END"。
C 源代碼示例
如果只要打印 C 源文件中的 main() 函數(shù),可輸入:
$ sed -n -e '/main[[:space:]]*(/,/^}/p' sourcefile.c | more
|
該命令有兩個(gè)規(guī)則表達(dá)式
'/main[[:space:]]*(/' 和 '/^}/',以及一個(gè)命令
'p'。第一個(gè)規(guī)則表達(dá)式將與后面依次跟有任意數(shù)量的空格或制表鍵以及開始圓括號(hào)的字符串 "main" 匹配。這應(yīng)該與一般 ANSI C
main() 聲明的開始匹配。
在這個(gè)特別的規(guī)則表達(dá)式中,出現(xiàn)了 '[[:space:]]'
字符類。這只是一個(gè)特殊的關(guān)鍵字,它告訴 sed 與 TAB 或空格匹配。如果愿意的話,可以不輸入 '[[:space:]]',而輸入
'[',然后是空格字母,然后是 -V,然后再輸入制表鍵字母和 ']' -- Control-V 告訴 bash
要插入“真正”的制表鍵,而不是執(zhí)行命令擴(kuò)展。使用 '[[:space:]]' 命令類(特別是在腳本中)會(huì)更清楚。
好,現(xiàn)在看一下第二個(gè) regexp。'/^}' 將與任何出現(xiàn)在新行行首的 '}' 字符匹配。如果代碼的格式很好,那么這將與 main() 函數(shù)的結(jié)束花括號(hào)匹配。如果格式不好,則不會(huì)正確匹配 -- 這是執(zhí)行模式匹配任務(wù)的一件棘手之事。
因?yàn)槭翘幱?'-n' 安靜方式,所以 'p' 命令還是完成其慣有任務(wù),即明確告訴 sed 打印該行。試著對(duì) C 源文件運(yùn)行該命令 -- 它應(yīng)該輸出整個(gè) main() { } 塊,包括開始的 "main()" 和結(jié)束的 '}'。