• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            馭風(fēng)萬里無垠

            Unix文本處理之利器-awk/gawk

            日常在shell中使用awk基本是家常便飯了,但是詳細(xì)的寫一些小程序還是第一次,總體是下來,還是深深得被這門年齡比自己都要大的工具語言的魅力所折服(since 1977)。作者中最引人注目的當(dāng)屬鼎鼎大名的Brian W. Kernighan (即K的簡(jiǎn)稱來源)。目前所用的版本大多是gawk或者nawk.

            作為一門微型且完整的編程語言,awk可以用數(shù)行代碼就完成其他語言需要數(shù)倍的LOC才能完成的工作。其設(shè)計(jì)哲學(xué)也是比較特殊的,核心是data-driven的,并且采用了和C類似的語法來組織。它最核心的思想應(yīng)該是如下兩點(diǎn):
            • pattern-action 結(jié)構(gòu) 借由強(qiáng)大的正則表達(dá)式來匹配pattern,然后執(zhí)行pattern對(duì)應(yīng)的操作
            • Record/Field 處理模型  所有的輸入數(shù)據(jù)都根據(jù)制定的record separator 分割成 record, 然后沒一個(gè)record再根據(jù)field separator 分割為fields. POSIX 定義的 field separator可以為正則表達(dá)式,而gawk可以允許record separator同時(shí)為正則表達(dá)式
            引發(fā)我花點(diǎn)時(shí)間來仔細(xì)研究awk的起因是這樣的,我們的程序在做profiling的時(shí)候,發(fā)現(xiàn)原來用shell寫的腳本分析一次話費(fèi)的時(shí)間太長(zhǎng)。初看了下那個(gè)腳本,大概的邏輯是要掃名所有的log文件,按照時(shí)間戳將關(guān)注的時(shí)間所耗費(fèi)的時(shí)間提取出來,計(jì)算平均值,波動(dòng)等最終畫出曲線圖。

            整體的腳本有幾個(gè)部分(python+bash),處理一次40MB的log文件需要耗費(fèi)40分鐘~1個(gè)小時(shí),這顯然超出了預(yù)期;中間一個(gè)處理很長(zhǎng)的部分是grep某個(gè)時(shí)間段的信息然后按照?qǐng)?bào)表格式寫入到中間文件中。在想能否優(yōu)化這一節(jié)的時(shí)候,忽然就想起了模式匹配來(學(xué)習(xí)Haskell的最深印象),于是大致翻了一下awk,發(fā)現(xiàn)很容易通過模式匹配使得按行處理,同時(shí)記錄中間的信息,而一個(gè)時(shí)間段恰好和awk的record概念吻合。

            花了2個(gè)小時(shí)研讀了下awk的函數(shù)語法,自定義自己的時(shí)間截取函數(shù)(gawk的strftime很有用,尤其我們發(fā)現(xiàn)記錄有跳躍要自動(dòng)補(bǔ)全中間的數(shù)據(jù)記錄時(shí)),通過三個(gè)pattern截取需要的信息,30分鐘寫出來awk的代碼來。

            所幸的是,其它的shell腳本都不需要任何改動(dòng),重新跑一次,3s就處理完了原來40MB的文件,看來這點(diǎn)時(shí)間投入還是相當(dāng)值得的。

            有興趣的可參考:
                 http://www.gnu.org/manual/gawk/gawk.html

            PS:awk的另一作者Winberger 供職于google。
             

            posted on 2011-01-02 20:32 skyscribe 閱讀(907) 評(píng)論(0)  編輯 收藏 引用 所屬分類: LinuxMisc

            <2025年5月>
            27282930123
            45678910
            11121314151617
            18192021222324
            25262728293031
            1234567

            導(dǎo)航

            統(tǒng)計(jì)

            常用鏈接

            留言簿(3)

            隨筆分類

            隨筆檔案

            搜索

            最新評(píng)論

            閱讀排行榜

            評(píng)論排行榜

            久久线看观看精品香蕉国产| 久久亚洲私人国产精品| 国产精品99久久不卡| 亚洲人成无码网站久久99热国产 | 精品久久久噜噜噜久久久| 91精品国产高清91久久久久久| 久久精品三级视频| 久久久无码精品亚洲日韩按摩 | 精品久久久久久久久午夜福利| 热99re久久国超精品首页| 国产精品久久久久蜜芽| 国产亚洲综合久久系列| 亚洲精品国产自在久久| 精品久久久久久久无码| 久久久久久久波多野结衣高潮 | 久久精品国产亚洲网站| 欧美日韩精品久久免费| 91精品国产91久久久久久| 亚洲综合伊人久久大杳蕉| 亚洲国产精品综合久久一线| 久久免费美女视频| av国内精品久久久久影院| 亚洲va久久久噜噜噜久久| 亚洲欧洲久久久精品| 久久人人爽人人澡人人高潮AV| 一本久久久久久久| 四虎国产精品免费久久5151| 久久久久国产精品熟女影院| 久久精品国产男包| 亚洲精品无码久久久影院相关影片 | 久久亚洲AV成人无码电影| 亚洲女久久久噜噜噜熟女| 国产精品久久久久a影院| 久久亚洲国产最新网站| 国产精品久久久久免费a∨| 国产精品久久新婚兰兰| 久久人妻AV中文字幕| 亚洲va久久久噜噜噜久久狠狠| 久久男人Av资源网站无码软件 | 伊人久久大香线焦综合四虎| 热re99久久精品国产99热|