目前的工程需要簡單的監(jiān)測一下Linux系統(tǒng)的:CPU負(fù)載、內(nèi)存消耗情況、幾個(gè)指定目錄的磁盤空間、磁盤I/O、swap的情況還有就是網(wǎng)絡(luò)流量。
Linux下的性能檢測工具其實(shí)都有很多。mrtg(http://people.ee.ethz.ch/~oetiker/webtools/mrtg/)就是一個(gè)很不錯(cuò)的選擇。不過用mrtg就要裝sysstat、apache、snmp、perl之類的東西。而且安裝也要好幾個(gè)步驟,似乎比較麻煩。本來也想直接調(diào)用sar、vmstat之類的命令,parse一下結(jié)果就算了。哪知道發(fā)現(xiàn)不同的版本的linux這些命令的結(jié)果也都是不一樣。既然要按版本parse它們的結(jié)果,那還不如直接去系統(tǒng)里面獲得算了。于是研究了一下sysstat(http://freshmeat.net/projects/sysstat/)和gkrellm(http://gkrellm.net )的源代碼,找到監(jiān)測性能的數(shù)據(jù)所在。
1、CPU
在文件"/proc/stat"里面就包含了CPU的信息。每一個(gè)CPU的每一tick用在什么地方都在這個(gè)文件里面記著。后面的數(shù)字含義分別是:user、nice、sys、idle、iowait。有些版本的kernel沒有iowait這一項(xiàng)。這些數(shù)值表示從開機(jī)到現(xiàn)在,CPU的每tick用在了哪里。例如:
cpu0 256279030 0 11832528 1637168262
就是cpu0從開機(jī)到現(xiàn)在有256279030 tick用在了user消耗,11832528用在了sys消耗。所以如果想計(jì)算單位時(shí)間(例如1s)里面CPU的負(fù)載,那只需要計(jì)算1秒前后數(shù)值的差除以每一秒的tick數(shù)量就可以了。gkrellm就是這樣實(shí)現(xiàn)的:((200 * (v2 - v1) / CPU_TICKS_PER_SECOND) + 1) /2
例如,第一次讀取/proc/stat,user的值是256279030;一秒以后再讀一次,值是256289030,那么CPU在這一秒的user消耗就是:((200 * (256289030 - 256279030) / CPU_TICKS_PER_SECOND) + 1) /2 = ((10000 * 200 / 1000000) + 1) / 2 = 1%了。
2、內(nèi)存消耗
文件"/proc/meminfo"里面包含的就是內(nèi)存的信息,還包括了swap的信息。例如:
$ cat /proc/meminfo
total: used: free: shared: buffers: cached:
Mem: 1057009664 851668992 205340672 0 67616768 367820800
Swap: 2146787328 164429824 1982357504
MemTotal: 1032236 kB
MemFree: 200528 kB
MemShared: 0 kB
……
不過從gkrellm的源代碼看,有些版本沒有前面那兩行統(tǒng)計(jì)的信息,只能夠根據(jù)下面的Key: Value這種各式的數(shù)據(jù)收集。
3、磁盤空間
從gkrellm的源代碼看,這個(gè)是一個(gè)很復(fù)雜的數(shù)據(jù)。磁盤分區(qū)的數(shù)據(jù)有可能分布在:/proc/mounts、/proc/diskstats、/proc/partitions等等。而且如果想要檢查某幾個(gè)特定的路徑,還需要通過mount、df等命令的幫助。為了減少麻煩,這個(gè)數(shù)據(jù)我就直接用statfs函數(shù)直接獲得了。
int statfs(const char *path, struct statfs *buf);
這個(gè)函數(shù)只需要輸入需要檢查的路徑名稱,就可以返回這個(gè)路徑所在的分區(qū)的空間使用情況:
總空間:buf.f_bsize * buf.f_blocks
空余空間:buf.f_bsize * buf.f_bavail
4、磁盤I/O
磁盤I/O的數(shù)據(jù)也同樣比較復(fù)雜,有些版本看/proc/diskstats,有些版本看/proc/partitions,還有些版本至今我也不知道在那里看……不過可以看到數(shù)據(jù)的版本也像CPU那樣,需要隔一段時(shí)間取值,兩次取值的差就是流量。
5、網(wǎng)絡(luò)流量
網(wǎng)絡(luò)流量也是五花八門,不過基本上都可以在/proc/net/dev里面獲得。同樣也是需要兩次取值取其差作為流量值。
以上就是數(shù)據(jù)獲得源頭。程序也比較好寫,不外乎就是打開一些文件,逐行讀出來然后用sscanf來parse一下數(shù)據(jù)就可以了。