高級sed命令分成3個組:
1、 處理多行模式空間(N、D、P)。
2、 采用保持空間來保存模式空間的內容并使他們可用于后續的命令(H、h、G、g、x)。
3、 編寫使用分支和條件指令的腳本來更改控制流(:、b、t)。
N命令:追加下一行
多行Next(N)命令通過讀取當前行的下一行,并把兩行拼成一行來進行接下來的處理。
$ cat file
line 1
line 2
line 3
line 4
file文件中的每一行后面都有一個隱藏的換行符”\n”,sed不對每行末尾的”\n”進行處理。
$ sed N file
line 1
line 2
line 3
line 4
經過N處理過的輸出和原文件沒有區別,但是本質是不一樣的。這里sed其實認為自己打印的是2行,第一行為”line 1\nline 2”,而第2行為”line 3\nline 4”,注意這里的2行末尾依然隱藏換行符”\n”,sed依然不處理行尾的”\n”,但是處理行內的”\n”。因為這里默認的動作是打印,所以處理行內的”\n”我們也看不出來。
值得注意的是,處理line 1時,line 2被讀入并追加到line 1后面,所以line 1處理完后不再讀入line 2(前面已經讀過了)而直接讀入line 3進行下一個N命令(即讀入line 4并追加到line 3后面)。
上面2段如果不理解的話,看下面這個命令:
$ sed ‘N;s/\n/ /g’ file
line 1 line 2
line 3 lin3 4
這個命令在原來的基礎上把行內的”\n”替換成空格了(盡管用了全局替換標志g,sed依然不處理行尾換行符!),看明白N的作用了嗎,單獨的N可以創建2行模式空間。
D命令:刪除多行模式空間中,直到第一個行內的”\n”為止的所有內容。
D命令通常位于N命令之后,用于處理N命令創建的多行模式空間。D命令刪除多行模式空間行內第一個”\n”及其之前的內容后,對余下的內容(第一個行內”\n”之后的內容)重新從sed第一個命令進行處理。
D和d的相同點是,刪除內容后,重新從sed第一個命令開始處理,這一點看來D和d都有改變sed執行順序的能力;區別在于d刪除模式空間中的所有內容,然后重新讀取文本下一行從sed頂部進行處理,而D刪除模式空間的一部分內容,而將模式空間剩下的內容從sed頂部進行處理。
$ sed ‘N;d’ file
$
$sed ‘N;D’ file
line 4
‘N;d’每次創建2行模式空間,并將模式空間的內容全部刪除,所以結果所有4行(sed看來是2行)都刪除了。如果file有5行數據,則第5行將被打印出來,因為第5行執行N時讀不到下一行了,所以d不執行,打印第5行,你可以自己試一試。
‘N;D’每次創建2行模式空間,刪除前面一行,并將模式空間的第2行繼續執行’N;D’,直到最后一行N沒內容可讀,不執行D,而是打印最后一行。’N;D’實際構成了一個循環(想想N直接讀入下一行,對2行進行處理,下一次對第2行就不處理了而是讀取第3行處理;而加了D之后,先處理2行,再對剩下的第2行接著進行處理)
P命令:打印模式空間直到第一個”\n”為止的所有內容。
p(小寫)是打印模式空間的所有內容,P(大寫)是打印模式空間的一部分,這一區別和D/d類似。有一點要注意,不要把任何命令放在d或者D后面,因為那樣該命令永遠也沒有執行的機會了。例如sed ‘N;D;P’ file和sed ‘N;D’ file是完全相同的效果。
$ cat file
line 1 li
cong line 2
line 3 licong
line 4 li
cong line 5
我們要把分在兩行的li和cong合到一行應該怎么做呢?
$ sed 'N;s/li\ncong */licong\n/g;P;D' file
line 1 licong
line 2
line 3 licong
line 4 licong
line 5
執行這個sed命令的流程是這樣的:
一、首行文本應用N讀取下一行,構成2行模式空間
line 1 li\n
cong line 2
s命令將li\ncong (注意cong后有一個空格)替換成licong\n,即
line 1 licong
line 2
接著執行P,打印line 1 licong(P結束后兩行模式空間沒有改變)
再對兩行模式空間執行D,刪除line 1 licong\n,并將剩下的line 2做為新的模式空間從頭執行sed命令;
二、對模式空間內容line 2先執行N,讀取下一行line 3 licong,創建兩行模式空間
line 2
line 3 licong
這次s沒找到匹配內容,所以執行s后面的P;D命令,重新打印、刪除,進行下一輪循環;
。。。
三、最后一行line 5執行N沒有內容可讀,直接打印該行。
h、H、g、G、x這幾個命令都是用于模式空間和保持空間轉換的。這里有必要解釋一下模式空間和保持空間了:
模式空間——容納當前輸入行的緩沖區。
除了h/H/g/G/x,其他所有sed命令都是針對模式空間的內容進行處理的!
保持空間——模式空間以外的一個預留緩沖區。
只有h/H/g/G/x命令可以訪問到保持空間的內容,并用于與模式空間內容的轉換。
h:將模式空間的內容復制到保持空間,類似與重定向符號>,會覆蓋原由保持空間內容
H:將模式空間的內容追加到保持空間,類似與追加重定向>>,追加到保持空間的尾行下
g:類似h,將保持空間的內容復制到模式空間
G:類似H,將保持空間的內容追加到模式空間
x:交換模式空間與保持空間中的內容
$ cat file
1
2
11
22
$ sed ‘/1/{h;d};/2/G’ file
2
1
22
11
這個sed命令完成了反轉的功能,我們來看看是怎么實現的:
一、/1/{h;d}命令搜索模式空間包含1的行然后先后執行h和d命令。結果首行1將被應用,h把該行(內容為1)復制到保持空間,此時模式空間和保持空間中的內容為:
模式空間:1
保持空間:1
接著執行d,d不能訪問保持空間,只處理模式空間的內容,將模式空間的內容刪除,此時:
模式空間: (空,沒有內容)
保持空間:1
二、d命令執行完之后,執行/2/G,即在模式空間搜索包含2的行進行G處理,而此時模式空間無內容,所以不做任何操作。
三、讀取下一行文本到模式空間,繼續執行’/1/{h;d};/2/G’。下一行文本的內容是2,此時:
模式空間:2
保持空間:1
與步驟二的道理相同,h、d得不到執行(因為模式可空間沒找到包含1的行);而’/2/G’將被執行,將保持空間的內容追加到模式空間后面,此時:
模式空間:2
1
保持空間:1
這一步完成以后,模式空間的內容將被sed默認地打印出來(如果有-n參數才不打印),于是前兩行處理完之后,將輸出:
2
1
同理,后兩行處理完之后,將輸出:
22
11
于是,我們看到了最后的結果:
2
1
22
11
這個最簡單的例子有很多地方值得挖掘,我們就來看看最重要的幾點。
1、 當sed后面帶有一個以上的命令時,它的處理順序是這樣的:
一次讀入一行到模式空間,然后將所有的命令應用于該行;而不是一次將一個命令作用與所有行;
2、 當某個條件后面有{}時,{}里面的命令依次作用于滿足該條件的行;
3、 h/H/g/G命令操作緩沖區時,都會在目的緩沖區后加一個換行(即使該緩沖區無內容),然后復制或追加源緩沖區內容在該換行符之后;
4、 沒有使用-n參數時,當一行執行完所有命令后,sed會默認打印最終模式空間中的內容;
如果使用-n參數,只有應用了p/P命令的模式空間內容才會被打印出來。
x命令暫不舉例,我們來看看最后一組高級命令(:、b、t)
分支(b)和測試(t)命令幾乎可以任意改變sed命令的執行順序,他們都將sed轉移到包含標簽的行,如果沒有指定標簽,則將轉移到命令末尾。b用于無條件的轉移(即一碰到b立刻轉移);t用于有條件轉移,只有當替換命令改變當前行時才會執行。
標簽定義:
:lable
lable可以隨便用什么名字,自己能方便看明白就行;冒號和標簽之間不允許有空格,lable后面如果有空格將被認為是lable的一部分(不建議在lable后面帶空格)
b和t的用法:
[address]b [lable]
[address]t [lable]
b/t和lable之間有空格,但lable后面不要插入空格。
舉例:
$ cat file
line 1 li
cong line 2
line 3 licong
line 4 li
cong line 5
$ sed -n '$!{/licong/!{h;N;D}
x;G;N;p;b
}
${/licong/{x;G;p}}' file
cong line 2
line 3 licong
這個sed命令的功能是尋找包含字符串licong的行,并打印該行及其前后一行。這個命令并不完善,它不能很好的處理第一行匹配的情況,加入該功能命令會變得更復雜。我們來解釋一下上面的結果是怎么來的。
一、sed -n '$!{/licong/!{h;N;D}
x;G;N;p;b
}
對除末行以外的所有行($!的作用),執行/licong/!{h;N;D};x;G;N;p;b
二、/licong/!{h;N;D}
對不包含字符串licong的行依次執行h;N;D,第一行line 1 li不包含licong,于是執行:
把該行復制到保持空間,讀取追加下一行,此時
模式空間:line 1 li
cong line 2
保持空間:line 1 li
再對模式空間執行D,并接著從頭處理新的模式空間,此時
模式空間:cong line 2
保持空間:line 1 li
三、從頭對模式空間的內容cong line 2執行$!{/licong/!{h;N;D},此時的模式空間依然不包含licong,所以進行一二兩步同樣的操作,結束后:
模式空間:line 3 licong
保持空間:cong line 2
四、再從頭對新的模式空間line 3 licong執行/licong/!{h;N;D};x;G;N;p;b。因為此時的模式空間包含licong,所以不執行h;N;D了,而是執行x;G;N;p;b。x用與交換模式空間和保持空間的內容,交換的結果是:
模式空間:cong line 2
保持空間:line 3 licong
接下來執行G,將保持空間的內容追加到模式空間之后:
模式空間:cong line 2
line 3 licong
保持空間:line 3 licong
再執行N,將下一行讀取追加到模式空間之后:
模式空間:cong line 2
line 3 licong
line 4 li
保持空間:line 3 licong
再執行p,打印模式空間的內容:
cong line 2
line 3 licong
line 4 li (這就是我們看到的結果)
之后還有一個b,就是跳過b后面的命令,再讀下一行。命令最后一部分${/licong/{x;G;p}}是用來處理最后一行的,如果最后一行包含licong則打印該行很上面一行(而不打印下一行,因為沒有N命令)
到此,sed的高級命令就介紹完了。《sed&awk》第二版有一句話:“一旦你理解了這里所給出的命令,那么就可以認為自己是真正的sed的主人了。”
再總結一下sed所有的功能,總的來說還是替換命令’[address]s/source/replace/flag’最常用,而高級命令則用于完成復雜的任務;還有sed的-n(抑制默認輸出)、-i(更改原文件)等參數也很常用。
就寫到這里吧,等待拍磚了。。。
本文出自 “licong” 博客,請務必保留此出處http://licong.blog.51cto.com/542131/204226
本文出自 51CTO.COM技術博客 |