999亚洲国产精,午夜国产一区,极品尤物av久久免费看

Unix文本處理之利器－awk/gawk

日常在shell中使用awk基本是家常便飯了，但是詳細的寫一些小程序還是第一次，總體是下來，還是深深得被這門年齡比自己都要大的工具語言的魅力所折服（since 1977）。作者中最引人注目的當屬鼎鼎大名的Brian W. Kernighan (即K的簡稱來源）。目前所用的版本大多是gawk或者nawk.

作為一門微型且完整的編程語言，awk可以用數(shù)行代碼就完成其他語言需要數(shù)倍的LOC才能完成的工作。其設計哲學也是比較特殊的，核心是data－driven的，并且采用了和C類似的語法來組織。它最核心的思想應該是如下兩點：

pattern-action 結(jié)構借由強大的正則表達式來匹配pattern，然后執(zhí)行pattern對應的操作
Record/Field 處理模型所有的輸入數(shù)據(jù)都根據(jù)制定的record separator 分割成 record, 然后沒一個record再根據(jù)field separator 分割為fields. POSIX 定義的 field separator可以為正則表達式，而gawk可以允許record separator同時為正則表達式

引發(fā)我花點時間來仔細研究awk的起因是這樣的，我們的程序在做profiling的時候，發(fā)現(xiàn)原來用shell寫的腳本分析一次話費的時間太長。初看了下那個腳本，大概的邏輯是要掃名所有的log文件，按照時間戳將關注的時間所耗費的時間提取出來，計算平均值，波動等最終畫出曲線圖。

整體的腳本有幾個部分（python＋bash），處理一次40MB的log文件需要耗費40分鐘～1個小時，這顯然超出了預期；中間一個處理很長的部分是grep某個時間段的信息然后按照報表格式寫入到中間文件中。在想能否優(yōu)化這一節(jié)的時候，忽然就想起了模式匹配來（學習Haskell的最深印象），于是大致翻了一下awk，發(fā)現(xiàn)很容易通過模式匹配使得按行處理，同時記錄中間的信息，而一個時間段恰好和awk的record概念吻合。

花了2個小時研讀了下awk的函數(shù)語法，自定義自己的時間截取函數(shù)（gawk的strftime很有用，尤其我們發(fā)現(xiàn)記錄有跳躍要自動補全中間的數(shù)據(jù)記錄時），通過三個pattern截取需要的信息，30分鐘寫出來awk的代碼來。

所幸的是，其它的shell腳本都不需要任何改動，重新跑一次，3s就處理完了原來40MB的文件，看來這點時間投入還是相當值得的。

有興趣的可參考：
http://www.gnu.org/manual/gawk/gawk.html

PS：awk的另一作者Winberger 供職于google。

posted on 2011-01-02 20:32 skyscribe 閱讀(939) 評論(0) 編輯收藏引用所屬分類: Linux 、Misc

只有注冊用戶登錄后才能發(fā)表評論。


相關文章: ruby學習筆記《一》 Unix文本處理之利器－awk/gawk GCC4.5的profile mode TCP幾個小選項引起的“古怪”問題利用LD_PRELOAD發(fā)現(xiàn)程序潛在的問題

網(wǎng)站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

馭風萬里無垠

Unix文本處理之利器－awk/gawk

導航

統(tǒng)計

常用鏈接

留言簿(3)

隨筆分類

隨筆檔案

搜索

最新評論

閱讀排行榜

評論排行榜