亚洲欧美视频在线观看视频,欧美日韩情趣电影,欧美午夜精品久久久久免费视

Unix文本處理之利器－awk/gawk

日常在shell中使用awk基本是家常便飯了，但是詳細的寫一些小程序還是第一次，總體是下來，還是深深得被這門年齡比自己都要大的工具語言的魅力所折服（since 1977）。作者中最引人注目的當屬鼎鼎大名的Brian W. Kernighan (即K的簡稱來源）。目前所用的版本大多是gawk或者nawk.

作為一門微型且完整的編程語言，awk可以用數行代碼就完成其他語言需要數倍的LOC才能完成的工作。其設計哲學也是比較特殊的，核心是data－driven的，并且采用了和C類似的語法來組織。它最核心的思想應該是如下兩點：

pattern-action 結構借由強大的正則表達式來匹配pattern，然后執行pattern對應的操作
Record/Field 處理模型所有的輸入數據都根據制定的record separator 分割成 record, 然后沒一個record再根據field separator 分割為fields. POSIX 定義的 field separator可以為正則表達式，而gawk可以允許record separator同時為正則表達式

引發我花點時間來仔細研究awk的起因是這樣的，我們的程序在做profiling的時候，發現原來用shell寫的腳本分析一次話費的時間太長。初看了下那個腳本，大概的邏輯是要掃名所有的log文件，按照時間戳將關注的時間所耗費的時間提取出來，計算平均值，波動等最終畫出曲線圖。

整體的腳本有幾個部分（python＋bash），處理一次40MB的log文件需要耗費40分鐘～1個小時，這顯然超出了預期；中間一個處理很長的部分是grep某個時間段的信息然后按照報表格式寫入到中間文件中。在想能否優化這一節的時候，忽然就想起了模式匹配來（學習Haskell的最深印象），于是大致翻了一下awk，發現很容易通過模式匹配使得按行處理，同時記錄中間的信息，而一個時間段恰好和awk的record概念吻合。

花了2個小時研讀了下awk的函數語法，自定義自己的時間截取函數（gawk的strftime很有用，尤其我們發現記錄有跳躍要自動補全中間的數據記錄時），通過三個pattern截取需要的信息，30分鐘寫出來awk的代碼來。

所幸的是，其它的shell腳本都不需要任何改動，重新跑一次，3s就處理完了原來40MB的文件，看來這點時間投入還是相當值得的。

有興趣的可參考：
http://www.gnu.org/manual/gawk/gawk.html

PS：awk的另一作者Winberger 供職于google。

posted on 2011-01-02 20:32 skyscribe 閱讀(923) 評論(0) 編輯收藏引用所屬分類: Linux 、Misc

只有注冊用戶登錄后才能發表評論。
【推薦】100%開源！大型工業跨平臺軟件C++源碼提供，建模，組態！

相關文章: ruby學習筆記《一》 Unix文本處理之利器－awk/gawk GCC4.5的profile mode TCP幾個小選項引起的“古怪”問題利用LD_PRELOAD發現程序潛在的問題

網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

馭風萬里無垠

Unix文本處理之利器－awk/gawk

導航

統計

常用鏈接

留言簿(3)

隨筆分類

隨筆檔案

搜索

最新評論

閱讀排行榜

評論排行榜