軟件運行日志
--------------------------------------------------------------------------------
現(xiàn)代軟件日益復雜,徹底消除軟件中的錯誤已經被證明是不可能的,那么,及時發(fā)現(xiàn)錯誤、定位錯誤現(xiàn)場信息,迅速排除軟件錯誤就成為非常重要的事情,甚至在軟件實際運行環(huán)境中也是如此。軟件運行日志就是捕獲錯誤現(xiàn)場信息的一種重要手段。
軟件運行日志是給誰看的?我認為是軟件維護人員、資深客戶(比如客戶方的系統(tǒng)管理員)。軟件中的錯誤信息,應該分為兩類,一類是軟件用戶能夠理解的,另一類是軟件用戶不能理解的,需要軟件維護人員介入的。前者,通常與軟件用戶的操作行為相關,軟件用戶在得到提示后,可以自行進行處理;而后者,通常與軟件自身缺陷、軟件部署環(huán)境問題相關的,只有軟件維護人員才能處理的。很明顯,對于后者的詳細內容,沒必要用告警對話框的方式提供給軟件用戶,而且這樣做,會大大增加軟件錯誤處理的復雜度。直接將其寫入運行日志,是最簡便、也最可靠的方法。可以想象下面的場景,應用軟件在某臺電腦上運行出錯,軟件維護人員或客戶方系統(tǒng)管理員查看運行日志,發(fā)現(xiàn)了一些系統(tǒng)模塊調用失敗的信息,并與開發(fā)人員遠程溝通,開發(fā)人員根據(jù)這些信息,迅速定位報告錯誤的代碼,隨后開發(fā)人員可能反饋,某個系統(tǒng)組件沒有的到正確的配置,也可能反饋,軟件中有一處缺陷,將在下一個版本或補丁包中得到修正。不管是哪一種情況,這一過程讓我們感到的是效率和愉悅。
在了解到軟件日志是給誰看的之后,我們就可以合理制定軟件中的錯誤處理策略。一些錯誤,我們需要逐層向上報,最終得到妥善處理或者向用戶給出提示;另一些錯誤,我們直接將其信息寫入軟件運行日志,并向上反饋本函數(shù)發(fā)生了錯誤,未能成功執(zhí)行。
軟件運行日志的內容有哪些?我認為可以分為:關鍵信息提示、警告提示、錯誤提示、致命問題提示、調試日志。關鍵信息提示,是指軟件執(zhí)行到了某些重要的節(jié)點,就將相應的信息寫入軟件運行日志,通過這些關鍵信息提示,我們可以了解軟件的大致運行過程是否正常,而它成本非常低廉,相比安裝龐大的開發(fā)調試環(huán)境。警告提示和錯誤提示,都是用于提示軟件中的錯誤,那么兩者之間的區(qū)別如何界定呢?還有,調試日志也是報告軟件錯誤的,與這兩者又如何相區(qū)別呢?
我認為,調試日志與警告提示、錯誤提示的本質性區(qū)別在于,調試日志是面向開發(fā)人員的,是從軟件執(zhí)行的角度發(fā)出的;警告提示、錯誤提示是從軟件功能的角度發(fā)出的。換而言之,調試日志是記錄軟件運行中的非正常現(xiàn)象,而警告提示、錯誤提示是記錄軟件某項功能失常的相關信息。
我認為,警告提示、錯誤提示的本質性區(qū)別在于,警告提示是軟件功能出現(xiàn)問題,但沒有徹底失效;錯誤提示,就是此項功能完全失效,該項功能停止執(zhí)行,立即返回;致命問題提示,則是軟件整體安全受到威脅。反映到程序中,通常就是,在一個函數(shù)中檢測到錯誤后,該函數(shù)以失敗的方式返回,就報告錯誤提示;若函數(shù)仍能繼續(xù)執(zhí)行,就報告告警提示;若該錯誤嚴重違例,比如斷言違例、內存溢出、堆棧溢出等威脅穩(wěn)定性的錯誤,就報告致命問題提示。
一般來說,致命性提示,通常是與軟件自身缺陷引起的,應當引起開發(fā)人員的重視;警告提示、錯誤提示多半是軟件運行環(huán)境配置問題引起的,但也不排除軟件缺陷、用戶操作等因素,應當引起軟件維護人員、系統(tǒng)管理員的注意。
對于軟件維護人員,調試日志意義不大,而其數(shù)據(jù)輸出量卻往往相當大,因此,在軟件部署運行環(huán)境下,通常應當通過配置開關,關閉調試日志輸出。只有開發(fā)人員介入后,才有必要打開該開關,從而在缺乏調試工具的環(huán)境中,獲得豐富的調試信息。
總的來說,將每一種錯誤、每一種軟件環(huán)境配置問題都以對話框的方式提示出來,或許可以減小維護成本,代價卻是開發(fā)成本成幾何級數(shù)增長;軟件開發(fā)中省掉錯誤處理,的確可減少一些成本,代價是即便一個環(huán)境配置問題,都需要開發(fā)人員現(xiàn)場調試,軟件維護成本大大增加。而軟件運行日志,無疑是兩者之間取得平衡的關鍵性武器。