為生存而奔跑

:: 首頁 :: 聯系 :: 聚合

:: 管理

271 Posts :: 0 Stories :: 58 Comments :: 0 Trackbacks

留言簿(5)

我參與的團隊

隨筆分類

隨筆檔案

相冊

Girl

搜索

積分與排名

積分 - 331733
排名 - 74

閱讀排行榜

評論排行榜

sed實例三

強健的 sed

在第二篇 sed 文章中，我提供了一些示例來演示 sed 的工作原理，但是它們當中很少有示例能實際做特別有用的事。在這篇 sed 系列的最后文章中，我要改變那種方式，并使用 sed 來做實際的事。我將為您顯示幾個示例，它們不僅演示 sed 的能力，而且還做一些真正巧妙（和方便）的事。例如，在本文的后半部，將為您演示如何設計一個 sed 腳本來將 .QIF 文件從 Intuit 的 Quicken 金融程序轉換成具有良好格式的文本文件。在那樣做之前，我們將看一下不怎么復雜但卻很有用的 sed 腳本。

回頁首

文本轉換

第一個實際腳本將 UNIX 風格的文本轉換成 DOS/Windows 格式。您可能知道，基于 DOS/Windows 的文本文件在每一行末尾有一個 CR（回車）和 LF（換行），而 UNIX 文本只有一個換行。有時可能需要將某些 UNIX 文本移至 Windows 系統，該腳本將為您執行必需的格式轉換。

 $ sed -e 's/$/\r/' myunix.txt > mydos.txt

在該腳本中，'$' 規則表達式將與行的末尾匹配，而 '\r' 告訴 sed 在其之前插入一個回車。在換行之前插入回車，立即，每一行就以 CR/LF 結束。請注意，僅當使用 GNU sed 3.02.80 或以后的版本時，才會用 CR 替換 '\r'。如果還沒有安裝 GNU sed 3.02.80，請在我的第一篇 sed 文章中查看如何這樣做的說明。

我已記不清有多少次在下載一些示例腳本或 C 代碼之后，卻發現它是 DOS/Windows 格式。雖然很多程序不在乎 DOS/Windows 格式的 CR/LF 文本文件，但是有幾個程序卻在乎 -- 最著名的是 bash，只要一遇到回車，它就會出問題。以下 sed 調用將把 DOS/Windows 格式的文本轉換成可信賴的 UNIX 格式：

 $ sed -e 's/.$//' mydos.txt > myunix.txt

該腳本的工作原理很簡單：替代規則表達式與一行的最末字符匹配，而該字符恰好就是回車。我們用空字符替換它，從而將其從輸出中徹底刪除。如果使用該腳本并注意到已經刪除了輸出中每行的最末字符，那么，您就指定了已經是 UNIX 格式的文本文件。也就沒必要那樣做了！

回頁首

反轉行

下面是另一個方便的小腳本。與大多數 Linux 發行版中包括的 "tac" 命令一樣，該腳本將反轉文件中行的次序。"tac" 這個名稱可能會給人以誤導，因為 "tac" 不反轉行中字符的位置（左和右），而是反轉文件中行的位置（上和下）。用 "tac" 處理以下文件：

 foo bar oni

....將產生以下輸出：

 oni bar foo

可以用以下 sed 腳本達到相同目的：

 $ sed -e '1!G;h;$!d' forward.txt > backward.txt

如果登錄到恰巧沒有 "tac" 命令的 FreeBSD 系統，將發現該 sed 腳本很有用。雖然方便，但最好還是知道該腳本為什么那樣做。讓我們對它進行討論。

回頁首

反轉解釋

首先，該腳本包含三個由分號隔開的單獨 sed 命令：'1!G'、'h' 和 '$!d'。現在，需要好好理解用于第一個和第三個命令的地址。如果第一個命令是 '1G'，則 'G' 命令將只應用第一行。然而，還有一個 '!' 字符 -- 該 '!' 字符忽略該地址，即，'G' 命令將應用到除第一行之外的所有行。'$!d' 命令與之類似。如果命令是 '$d'，則將只把 'd' 命令應用到文件中的最后一行（'$' 地址是指定最后一行的簡單方式）。然而，有了 '!' 之后，'$!d' 將把 'd' 命令應用到除最后一行之外的所有行。現在，我們所要理解的是這些命令本身做什么。

當對上面的文本文件執行反轉腳本時，首先執行的命令是 'h'。該命令告訴 sed 將模式空間（保存正在處理的當前行的緩沖區）的內容復制到保留空間（臨時緩沖區）。然后，執行 'd' 命令，該命令從模式空間中刪除 "foo"，以便在對這一行執行完所有命令之后不打印它。

現在，第二行。在將 "bar" 讀入模式空間之后，執行 'G' 命令，該命令將保留空間的內容 ("foo\n") 附加到模式空間 ("bar\n")，使模式空間的內容為 "bar\n\foo\n"。'h' 命令將該內容放回保留空間保護起來，然后，'d' 從模式空間刪除該行，以便不打印它。

對于最后的 "oni" 行，除了不刪除模式空間的內容（由于 'd' 之前的 '$!'）以及將模式空間的內容（三行）打印到標準輸出之外，重復同樣的步驟。

現在，要用 sed 執行一些強大的數據轉換。

回頁首

sed QIF 魔法

過去幾個星期，我一直想買一份 Quicken來結算我的銀行帳戶。Quicken 是一個非常好的金融程序，當然會成功地完成這項工作。但是，經過考慮之后，我覺得自己可以輕易編寫某個軟件來結算我的支票簿。我想，畢竟，我是個軟件開發人員！

我開發了一個很好的小型支票簿結算程序（使用 awk），它通過分析包含我的所有交易的文本文件的語法來計算余額。略微調整之后，我將其改進，以便可以象 Quicken 那樣跟蹤不同的貸款和借款類別。但是，我還要添加一個特性。最近，我將帳戶轉移到一家有聯機 Web 帳戶界面的銀行。有一天，我注意到，這家銀行的 Web 站點允許以 Quicken 的 .QIF 格式下載我的帳戶信息。我馬上覺得，如果可以將該信息轉換成文本格式，那就太棒了。

回頁首

兩種格式的故事

在查看 QIF 格式之前，先看一下我的 checkbook.txt 格式：

 28 Aug 2000     food    -       -       Y     Supermarket             30.94 25 Aug 2000     watr    -       103     Y     Check 103               52.86

在我的文件中，所有字段都由一個或多個制表符分開，每個交易占據一行。日期之后的下一個字段列出支出類型（如果是收入項，則為 "-"）。第三個字段列出收入類型（如果是支出項，則為 "-"）。然后，是一個支票號字段（如果為空，則還是 "-"），一個交易完成字段（"Y" 或 "N"），一個注釋和一個美元金額字段。現在，讓我們看一下 QIF 格式。當用文本查看器查看下載的 QIF 文件時，它看起來如下：

 !Type:Bank D08/28/2000 T-8.15 N PCHECKCARD SUPERMARKET ^ D08/28/2000 T-8.25 N PCHECKCARD PUNJAB RESTAURANT ^ D08/28/2000 T-17.17 N PCHECKCARD SUPERMARKET

瀏覽過文件之后，不難猜出其格式 -- 忽略第一行，其余的格式如下：

				
         D<數據>  
T<交易量>  
N<支票號>  
P<描述>  
^   （這是字段分隔符）

回頁首

開始處理

在處理象這樣重要的 sed 項目時，不要氣餒 -- sed 允許您將數據逐漸修改成最終形式。在進行當中，可以繼續細化 sed 腳本，直到輸出與預期的完全一樣為止。無需在試第一次時就保證其完全正確。

要開始，首先創建一個名為 "qiftrans.sed" 的文件，然后開始修改數據：

 1d /^^/d s/[[:cntrl:]]//g

第一個 '1d' 命令刪除第一行，第二個命令從輸出除去那些討厭的 '^' 字符。最后一行除去文件中可能存在的任何控制字符。既然在處理外來文件格式，我想消除在中途遇到任何控制字符的風險。到目前為止，一切順利。現在，要向該基本腳本中添加一些處理功能：

 1d /^^/d s/[[:cntrl:]]//g /^D/ { 
 s/^D\(.*\)/\1\tOUTY\tINNY\t/ 
 s/^01/Jan/         s/^02/Feb/
 s/^03/Mar/         s/^04/Apr/
 s/^05/May/         s/^06/Jun/ 
 s/^07/Jul/         s/^08/Aug/ 
 s/^09/Sep/         s/^10/Oct/
 s/^11/Nov/         s/^12/Dec/ 
 s:^\(.*\)/\(.*\)/\(.*\):\2 \1 \3:  }

首先，添加一個 '/^D/' 地址，以便 sed 只在遇到 QIF 數據字段的第一個字符 'D' 時才開始處理。當 sed 將這樣一行讀入其模式空間時，將按順序執行花括號中的所有命令。

花括號中的第一個命令將把如下行：

 D08/28/2000

變換成：

 08/28/2000	OUTY	INNY

當然，現在的格式還不完美，但沒關系。我們將在進行過程中逐漸細化模式空間的內容。后面 12 行的最后效果是將數據變換成三個字母的格式，最后一行從數據中除去三個斜杠。最后得到這一行：

 Aug 28 2000	OUTY	INNY

OUTY 和 INNY 字段是占位符，以后將被替換。現在還不能確定它們，因為如果美元金額為負，將把 OUTY 和 INNY 設置成 "misc" 和 "-"，但是，如果美元金額為正，將分別把它們更改成 "-" 和 "inco"。既然還沒有讀入美元金額，所以，需要暫時使用占位符。

回頁首

細化

現在進一步細化：

 1d  /^^/d s/[[:cntrl:]]//g  /^D/ {
 s/^D\(.*\)/\1\tOUTY\tINNY\t/ 
 s/^01/Jan/          s/^02/Feb/
         s/^03/Mar/          s/^04/Apr/
		 s/^05/May/          s/^06/Jun/
		 s/^07/Jul/          s/^08/Aug/
		 s/^09/Sep/          s/^10/Oct/
		 s/^11/Nov/          s/^12/Dec/
		 s:^\(.*\)/\(.*\)/\(.*\):\2 \1 \3:
		 N          N          N          
		 s/\nT\(.*\)\nN\(.*\)\nP\(.*\)/NUM\2NUM\t\tY\t\t\3\tAMT\1AMT/
		 s/NUMNUM/-/          s/NUM\([0-9]*\)NUM/\1/
		 s/\([0-9]\),/\1/  }

后七行有些復雜，所以將詳細討論它們。首先，連續使用三個 'N' 命令。'N' 命令告訴 sed 將 下一行讀入輸入中，然后將其附加到當前模式空間。這三個 'N' 命令導致將下三行附加到當前模式空間緩沖區，現在這一行看起來如下：

 28 Aug 2000	OUTY	INNY	\nT-8.15\nN\nPCHECKCARD SUPERMARKET

sed 的模式空間變得很難看 -- 需要除去額外的新行，并執行某些附加的格式化。要這樣做，將使用替代命令。要匹配的模式為：

 '\nT.*\nN.*\nP.*'

這將與后面依次跟有 'T'、零或多個字符、新行、'N'、任何數量的字符、新行、'P'、以及任何數量字符的新行匹配。呀！這個規則表達式將與剛剛附加到模式空間的三行的全部內容匹配。但我們要重新格式化該區域，而不是整個替換它。美元金額、支票號（如果有的話）和描述需要出現在替換字符串中。要這樣做，我們用帶有反斜杠的圓括號括起那些“感興趣部分”，以便可以在替換字符串中引用它們（使用 '\1'、'\2\ 和 '\3' 來告訴 sed 將它們插入到何處）。以下是最后的命令：

 s/\nT\(.*\)\nN\(.*\)\nP\(.*\)/NUM\2NUM\t\tY\t\t\3\tAMT\1AMT/

該命令將我們的行變換成：

  28 Aug 2000  OUTY  INNY  NUMNUM    Y	   CHECKCARD SUPERMARKET	 AMT-8.15AMT

雖然該行正變得好一些，但是，有幾件事一看就有點...啊...有趣。首先是那個愚蠢的 "NUMNUM" 字符串 -- 其目的何在？如果查看 sed 腳本的后兩行，就會發現其目的，后兩行將把 "NUMNUM" 替換成 "-"，而把 "NUM"<number>"NUM" 替換成 <number>。如您所見，用愚蠢的標記括起支票號允許我們在該字段為空時方便地插入一個 "-"。

回頁首

結束嘗試

最后一行除去數字后的逗號。它把如 "3,231.00" 這樣的美元金額轉換成我使用的格式 "3231.00"。現在，讓我們看一下最終腳本：

最終的“QIF 到文本”腳本

 1d /^^/d s/[[:cntrl:]]//g /^D/ { 	s/^D\(.*\)/\1\tOUTY\tINNY\t/ 
 s/^01/Jan/ 	s/^02/Feb/ 	s/^03/Mar/ 	s/^04/Apr/ 	s/^05/May/ 
 s/^06/Jun/ 	s/^07/Jul/ 	s/^08/Aug/ 	s/^09/Sep/ 	s/^10/Oct/ 
 s/^11/Nov/ 	s/^12/Dec/ 	s:^\(.*\)/\(.*\)/\(.*\):\2 \1 \3: 
 N 	N 	N 	s/\nT\(.*\)\nN\(.*\)\nP\(.*\)/NUM\2NUM\t\tY\t\t\3\tAMT\1AMT/ 
 s/NUMNUM/-/ 	s/NUM\([0-9]*\)NUM/\1/ 	s/\([0-9]\),/\1/ 
 /AMT-[0-9]*.[0-9]*AMT/b fixnegs 
 s/AMT\(.*\)AMT/\1/ 	s/OUTY/-/ 	s/INNY/inco/ 
 b done :fixnegs 	s/AMT-\(.*\)AMT/\1/ 	s/OUTY/misc/ 
 s/INNY/-/ :done }

附加的十一行使用替代和一些分支功能來美化輸出。首先看一下這行：

         /AMT-[0-9]*.[0-9]*AMT/b fixnegs

該行包含一個格式為 "/regexp/b label" 的分支命令。如果模式空間與規則表達式匹配，sed 將分支到 fixnegs 標號。您應該可以輕易找到該標號，它在代碼中為 ":fixnegs"。如果規則表達式不匹配，則以常規方式繼續處理下一個命令。

既然您理解該命令本身的工作原理，讓我們看一下分支。如果看一下分支規則表達式，將看到它與后面依次跟有 '-'、任意數量的數字、一個 '.'、任意數量的數字和 'AMT' 的字符串 'AMT' 匹配。就象我確信您已猜到一樣，該規則表達式專門處理負的美元金額。在這之前，用 'ATM' 括起美元金額，以便以后可以輕易找到它。因為規則表達式只與以 '-' 開始的美元金額匹配，所以，該分支只在恰巧處理借款時才發生。如果正處理貸款，應該將 OUTY 設置成 'misc'，將 INNY 設置成 '-'，并且應該除去貸款數量前面的負號。如果跟蹤代碼的流程，將看到實際情況正是這樣。如果不執行分支，則用 '-' 替換 OUTY，用 'inco' 替換 INNY。完成了！現在輸出行是完美的：

 28 Aug 2000	misc	-	-       Y     CHECKCARD SUPERMARKET  -8.15

回頁首

別犯糊涂

如您所見，只要循序漸進地解決問題，使用 sed 轉換數據就沒有那么難。不要試圖使用一個 sed 命令或一下子解決所有問題。相反，要朝著目標逐步進行，并不斷改進 sed 腳本，直到其輸出正如您希望那樣為止。sed 有許多功能，希望您已非常熟悉其內部工作原理并繼續努力以進一步掌握它！

posted on 2010-05-20 21:35 baby-fly 閱讀(133) 評論(0) 編輯收藏引用所屬分類: Ubuntu&Linux

只有注冊用戶登錄后才能發表評論。


相關文章: tmux 分割終端 grub2 ccache ubuntu配置 linux 編譯添加一個模塊 AUPE 程序10-11 信號設置和sigprocmask實例 fork兩次如何避免僵尸進程收藏 vim 復制粘貼 SIGCLD和wait VIM全選 const char 與 char const

網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

為生存而奔跑

留言簿(5)

我參與的團隊

隨筆分類

隨筆檔案

相冊

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜