日常在shell中使用awk基本是家常便飯了,但是詳細(xì)的寫一些小程序還是第一次,總體是下來,還是深深得被這門年齡比自己都要大的工具語言的魅力所折服(
since 1977)。作者中最引人注目的當(dāng)屬鼎鼎大名的
Brian W. Kernighan (即K的簡(jiǎn)稱來源)。目前所用的版本大多是gawk或者nawk.
作為一門微型且完整的編程語言,awk可以用數(shù)行代碼就完成其他語言需要數(shù)倍的LOC才能完成的工作。其設(shè)計(jì)哲學(xué)也是比較特殊的,核心是data-driven的,并且采用了和C類似的語法來組織。它最核心的思想應(yīng)該是如下兩點(diǎn):
- pattern-action 結(jié)構(gòu) 借由強(qiáng)大的正則表達(dá)式來匹配pattern,然后執(zhí)行pattern對(duì)應(yīng)的操作
- Record/Field 處理模型 所有的輸入數(shù)據(jù)都根據(jù)制定的record separator 分割成 record, 然后沒一個(gè)record再根據(jù)field separator 分割為fields. POSIX 定義的 field separator可以為正則表達(dá)式,而gawk可以允許record separator同時(shí)為正則表達(dá)式
引發(fā)我花點(diǎn)時(shí)間來仔細(xì)研究awk的起因是這樣的,我們的程序在做profiling的時(shí)候,發(fā)現(xiàn)原來用shell寫的腳本分析一次話費(fèi)的時(shí)間太長(zhǎng)。初看了下那個(gè)腳本,大概的邏輯是要掃名所有的log文件,按照時(shí)間戳將關(guān)注的時(shí)間所耗費(fèi)的時(shí)間提取出來,計(jì)算平均值,波動(dòng)等最終畫出曲線圖。
整體的腳本有幾個(gè)部分(python+bash),處理一次40MB的log文件需要耗費(fèi)40分鐘~1個(gè)小時(shí),這顯然超出了預(yù)期;中間一個(gè)處理很長(zhǎng)的部分是grep某個(gè)時(shí)間段的信息然后按照?qǐng)?bào)表格式寫入到中間文件中。在想能否優(yōu)化這一節(jié)的時(shí)候,忽然就想起了模式匹配來(學(xué)習(xí)Haskell的最深印象),于是大致翻了一下awk,發(fā)現(xiàn)很容易通過模式匹配使得按行處理,同時(shí)記錄中間的信息,而一個(gè)時(shí)間段恰好和awk的record概念吻合。
花了2個(gè)小時(shí)研讀了下awk的函數(shù)語法,自定義自己的時(shí)間截取函數(shù)(gawk的strftime很有用,尤其我們發(fā)現(xiàn)記錄有跳躍要自動(dòng)補(bǔ)全中間的數(shù)據(jù)記錄時(shí)),通過三個(gè)pattern截取需要的信息,30分鐘寫出來awk的代碼來。
所幸的是,其它的shell腳本都不需要任何改動(dòng),重新跑一次,3s就處理完了原來40MB的文件,看來這點(diǎn)時(shí)間投入還是相當(dāng)值得的。
有興趣的可參考:
http://www.gnu.org/manual/gawk/gawk.htmlPS:awk的另一作者
Winberger 供職于google。