內(nèi)容摘要:使用MySQL服務(wù)的一些經(jīng)驗(yàn),主要從以下幾個(gè)方面考慮的MySQL服務(wù)規(guī)劃設(shè)計(jì)。對(duì)于高負(fù)載站點(diǎn)來說PHP和MySQL運(yùn)行在一起(或者說任何應(yīng)用和數(shù)據(jù)庫運(yùn)行在一起的規(guī)劃)都是性能最大的瓶頸,這樣的設(shè)計(jì)有如讓人一手畫圓一手畫方,這樣2個(gè)人的工作效率肯定不如讓一個(gè)人專門畫圓一個(gè)人專門畫方效率高,讓應(yīng)用和數(shù)據(jù)庫都跑在一臺(tái)高性能服務(wù)器上說不定還不如跑在2臺(tái)普通服務(wù)器上快。
以下就是針對(duì)MySQL作為專門的數(shù)據(jù)庫服務(wù)器的優(yōu)化建議:
- MySQL服務(wù)的安裝/配置的通用性;
- 系統(tǒng)的升級(jí)和數(shù)據(jù)遷移方便性;
- 備份和系統(tǒng)快速恢復(fù);
- 數(shù)據(jù)庫應(yīng)用的設(shè)計(jì)要點(diǎn);
- 一次應(yīng)用優(yōu)化實(shí)戰(zhàn);
MySQL服務(wù)器的規(guī)劃
=================
為了以后維護(hù),升級(jí)備份的方便和數(shù)據(jù)的安全性,最好將MySQL程序文件和數(shù)據(jù)分別安裝在“不同的硬件”上。
/ /
| /usr <== 操作系統(tǒng)
| /home/mysql <== mysql主目錄,為了方便升級(jí),這只是一個(gè)最新版本目錄的鏈接
硬盤1==>| /home/mysql-3.23.54/ <== 最新版本的mysql /home/mysql鏈接到這里
\ /home/mysql-old/ <== 以前運(yùn)行的舊版本的mysql
/ /data/app_1/ <== 應(yīng)用數(shù)據(jù)和啟動(dòng)腳本等
硬盤2==>| /data/app_2/
\ /data/app_3/
MySQL服務(wù)的安裝和服務(wù)的啟動(dòng):
MySQL一般使用當(dāng)前STABLE的版本:
盡量不使用--with-charset=選項(xiàng),我感覺with-charset只在按字母排序的時(shí)候才有用,這些選項(xiàng)會(huì)對(duì)數(shù)據(jù)的遷移帶來很多麻煩。
盡量不使用innodb,innodb主要用于需要外鍵,事務(wù)等企業(yè)級(jí)支持,代價(jià)是速度比MYISAM有數(shù)量級(jí)的下降。
./configure --prefix=/home/mysql --without-innodb
make
make install
服務(wù)的啟動(dòng)和停止
================
1 復(fù)制缺省的mysql/var/mysql到 /data/app_1/目錄下,
2 MySQLD的啟動(dòng)腳本:start_mysql.sh
#!/bin/sh
rundir=`dirname "$0"`
echo "$rundir"
/home/mysql/bin/safe_mysqld --user=mysql --pid-file="$rundir"/mysql.pid --datadir="$rundir"/var "$@"\
-O max_connections=500 -O wait_timeout=600 -O key_buffer=32M --port=3402 --socket="$rundir"/mysql.sock &
注釋:
--pid-file="$rundir"/mysql.pid --socket="$rundir"/mysql.sock --datadir="$rundir"/var
目的都是將相應(yīng)數(shù)據(jù)和應(yīng)用臨時(shí)文件放在一起;
-O 后面一般是服務(wù)器啟動(dòng)全局變量優(yōu)化參數(shù),有時(shí)候需要根據(jù)具體應(yīng)用調(diào)整;
--port: 不同的應(yīng)用使用PORT參數(shù)分布到不同的服務(wù)上去,一個(gè)服務(wù)可以提供的連接數(shù)一般是MySQL服務(wù)的主要瓶頸;
修改不同的服務(wù)到不同的端口后,在rc.local文件中加入:
/data/app_1/start_mysql.sh
/data/app_2/start_mysql.sh
/data/app_3/start_mysql.sh
注意:必須寫全路徑
3 MySQLD的停止腳本:stop_mysql.sh
#!/bin/sh
rundir=`dirname "$0"`
echo "$rundir"
/home/mysql/bin/mysqladmin -u mysql -S"$rundir"/mysql.sock shutdown
使用這個(gè)腳本的好處在于:
1 多個(gè)服務(wù)啟動(dòng):對(duì)于不同服務(wù)只需要修改腳本中的--port[=端口號(hào)]參數(shù)。單個(gè)目錄下的數(shù)據(jù)和服務(wù)腳本都是可以獨(dú)立打包的。
2 所有服務(wù)相應(yīng)文件都位于/data/app_1/目錄下:比如:mysql.pid mysql.sock,當(dāng)一臺(tái)服務(wù)器上啟動(dòng)多個(gè)服務(wù)時(shí),多個(gè)服務(wù)不會(huì)互相影響。但都放到缺省的/tmp/下則有可能被其他應(yīng)用誤刪。
3 當(dāng)硬盤1出問題以后,直接將硬盤2放到一臺(tái)裝好MySQL的服務(wù)器上就可以立刻恢復(fù)服務(wù)(如果放到my.cnf里則還需要備份相應(yīng)的配置文件)。
服務(wù)啟動(dòng)后/data/app_1/下相應(yīng)的文件和目錄分布如下:
/data/app_1/
start_mysql.sh 服務(wù)啟動(dòng)腳本
stop_mysql.sh 服務(wù)停止腳本
mysql.pid 服務(wù)的進(jìn)程ID
mysql.sock 服務(wù)的SOCK
var/ 數(shù)據(jù)區(qū)
mysql/ 用戶庫
app_1_db_1/ 應(yīng)用庫
app_1_db_2/
...
/data/app_2/
...
查看所有的應(yīng)用進(jìn)程ID:
cat /data/*/mysql.pid
查看所有數(shù)據(jù)庫的錯(cuò)誤日志:
cat /data/*/var/*.err
個(gè)人建議:MySQL的主要瓶頸在PORT的連接數(shù)上,因此,將表結(jié)構(gòu)優(yōu)化好以后,相應(yīng)單個(gè)MySQL服務(wù)的CPU占用仍然在10%以上,就要考慮將服務(wù)拆分到多個(gè)PORT上運(yùn)行了。
服務(wù)的備份
==========
盡量使用MySQL DUMP而不是直接備份數(shù)據(jù)文件,以下是一個(gè)按weekday將數(shù)據(jù)輪循備份的腳本:備份的間隔和周期可以根據(jù)備份的需求確定
/home/mysql/bin/mysqldump -S/data/app_1/mysql.sock -umysql db_name | gzip -f>/path/to/backup/db_name.`date +%w`.dump.gz
因此寫在CRONTAB中一般是:
15 4 * * * /home/mysql/bin/mysqldump -S/data/app_1/mysql.sock -umysql db_name | gzip -f>/path/to/backup/db_name.`date +\%w`.dump.gz
注意:
1 在crontab中'%'需要轉(zhuǎn)義成'\%'
2 根據(jù)日志統(tǒng)計(jì),應(yīng)用負(fù)載最低的時(shí)候一般是在早上4-6點(diǎn)
先備份在本地然后傳到遠(yuǎn)程的備份服務(wù)器上,或者直接建立一個(gè)數(shù)據(jù)庫備份帳號(hào),直接在遠(yuǎn)程的服務(wù)器上備份,遠(yuǎn)程備份只需要將以上腳本中的-S /path/to/msyql.sock改成-h IP.ADDRESS即可。
數(shù)據(jù)的恢復(fù)和系統(tǒng)的升級(jí)
======================
日常維護(hù)和數(shù)據(jù)遷移:在數(shù)據(jù)盤沒有被破壞的情況下
硬盤一般是系統(tǒng)中壽命最低的硬件。而系統(tǒng)(包括操作系統(tǒng)和MySQL應(yīng)用)的升級(jí)和硬件升級(jí),都會(huì)遇到數(shù)據(jù)遷移的問題。
只要數(shù)據(jù)不變,先裝好服務(wù)器,然后直接將數(shù)據(jù)盤(硬盤2)安裝上,只需要將啟動(dòng)腳本重新加入到rc.local文件中,系統(tǒng)就算是很好的恢復(fù)了。
災(zāi)難恢復(fù):數(shù)據(jù)庫數(shù)據(jù)本身被破壞的情況下
確定破壞的時(shí)間點(diǎn),然后從備份數(shù)據(jù)中恢復(fù)。
應(yīng)用的設(shè)計(jì)要點(diǎn)
==============
如果MySQL應(yīng)用占用的CPU超過10%就應(yīng)該考慮優(yōu)化了。
- 如果這個(gè)服務(wù)可以被其他非數(shù)據(jù)庫應(yīng)用代替(比如很多基于數(shù)據(jù)庫的計(jì)數(shù)器完全可以用WEB日志統(tǒng)計(jì)代替)最好將其禁用:
非用數(shù)據(jù)庫不可嗎?雖然數(shù)據(jù)庫的確可以簡化很多應(yīng)用的結(jié)構(gòu)設(shè)計(jì),但本身也是一個(gè)系統(tǒng)資源消耗比較大的應(yīng)用。在某些情況下文本,DBM比數(shù)據(jù)庫是更好的選擇,比如:很多應(yīng)用如果沒有很高的實(shí)時(shí)統(tǒng)計(jì)需求的話,完全可以先記錄到文件日志中,定期的導(dǎo)入到數(shù)據(jù)庫中做后續(xù)統(tǒng)計(jì)分析。如果還是需要記錄簡單的2維鍵-值對(duì)應(yīng)結(jié)構(gòu)的話可以使用類似于DBM的HEAP類型表。因?yàn)镠EAP表全部在內(nèi)存中存取,效率非常高,但服務(wù)器突然斷電時(shí)有可能出現(xiàn)數(shù)據(jù)丟失,所以非常適合存儲(chǔ)在線用戶信息,日志等臨時(shí)數(shù)據(jù)。即使需要使用數(shù)據(jù)庫的,應(yīng)用如果沒有太復(fù)雜的數(shù)據(jù)完整性需求的化,完全可以不使用那些支持外鍵的商業(yè)數(shù)據(jù)庫,比如MySQL。只有非常需要完整的商業(yè)邏輯和事務(wù)完整性的時(shí)候才需要Oracle這樣的大型數(shù)據(jù)庫。對(duì)于高負(fù)載應(yīng)用來說完全可以把日志文件,DBM,MySQL等輕量級(jí)方式做前端數(shù)據(jù)采集格式,然后用Oracle MSSQL DB2 Sybase等做數(shù)據(jù)庫倉庫以完成復(fù)雜的數(shù)據(jù)庫挖掘分析工作。
有朋友和我說用標(biāo)準(zhǔn)的MyISAM表代替了InnoDB表以后,數(shù)據(jù)庫性能提高了20倍。
- 數(shù)據(jù)庫服務(wù)的主要瓶頸:單個(gè)服務(wù)的連接數(shù)
對(duì)于一個(gè)應(yīng)用來說,如果數(shù)據(jù)庫表結(jié)構(gòu)的設(shè)計(jì)能夠按照數(shù)據(jù)庫原理的范式來設(shè)計(jì)的話,并且已經(jīng)使用了最新版本的MySQL,并且按照比較優(yōu)化的方式運(yùn)行了,那么最后的主要瓶頸一般在于單個(gè)服務(wù)的連接數(shù),即使一個(gè)數(shù)據(jù)庫可以支持并發(fā)500個(gè)連接,最好也不要把應(yīng)用用到這個(gè)地步,因?yàn)椴l(fā)連接數(shù)過多數(shù)據(jù)庫服務(wù)本身用于調(diào)度的線程的開銷也會(huì)非常大了。所以如果應(yīng)用允許的話:讓一臺(tái)機(jī)器多跑幾個(gè)MySQL服務(wù)分擔(dān)。將服務(wù)均衡的規(guī)劃到多個(gè)MySQL服務(wù)端口上:比如app_1 ==> 3301 app_2 ==> 3302...app_9 ==> 3309。一個(gè)1G內(nèi)存的機(jī)器跑上10個(gè)MySQL是很正常的。讓10個(gè)MySQLD承擔(dān)1000個(gè)并發(fā)連接效率要比讓2個(gè)MySQLD承擔(dān)1000個(gè)效率高的多。當(dāng)然,這樣也會(huì)帶來一些應(yīng)用編程上的復(fù)雜度;
- 使用單獨(dú)的數(shù)據(jù)庫服務(wù)器(不要讓數(shù)據(jù)庫和前臺(tái)WEB服務(wù)搶內(nèi)存),MySQL擁有更多的內(nèi)存就可能能有效的進(jìn)行結(jié)果集的緩存;在前面的啟動(dòng)腳本中有一個(gè)-O key_buffer=32M參數(shù)就是用于將缺省的8M索引緩存增加到32M(當(dāng)然對(duì)于)
- 應(yīng)用盡量使用PCONNECT和polling機(jī)制,用于節(jié)省MySQL服務(wù)建立連接的開銷,但也會(huì)造成MySQL并發(fā)鏈接數(shù)過多(每個(gè)HTTPD都會(huì)對(duì)應(yīng)一個(gè)MySQL線程);
- 表的橫向拆分:讓最常被訪問的10%的數(shù)據(jù)放在一個(gè)小表里,90%的歷史數(shù)據(jù)放在一個(gè)歸檔表里(所謂:快慢表),數(shù)據(jù)中間通過定期“搬家”和定期刪除無效數(shù)據(jù)來節(jié)省,畢竟大部分應(yīng)用(比如論壇)訪問2個(gè)月前數(shù)據(jù)的幾率會(huì)非常少,而且價(jià)值也不是很高。這樣對(duì)于應(yīng)用來說總是在一個(gè)比較小的結(jié)果級(jí)中進(jìn)行數(shù)據(jù)選擇,比較有利于數(shù)據(jù)的緩存,不要指望MySQL中對(duì)單表記錄條數(shù)在10萬級(jí)以上還有比較高的效率。而且有時(shí)候數(shù)據(jù)沒有必要做那么精確,比如一個(gè)快表中查到了某個(gè)人發(fā)表的文章有60條結(jié)果,快表和慢表的比例是1:20,那么就可以簡單的估計(jì)這個(gè)人一共發(fā)表了1200篇。Google的搜索結(jié)果數(shù)也是一樣:對(duì)于很多上十萬的結(jié)果數(shù),后面很多的數(shù)字都是通過一定的算法估計(jì)出來的。
- 數(shù)據(jù)庫字段設(shè)計(jì):表的縱向拆分(過渡范化):將所有的定長字段(char, int等)放在一個(gè)表里,所有的變長字段(varchar,text,blob等)放在另外一個(gè)表里,2個(gè)表之間通過主鍵關(guān)聯(lián),這樣,定長字段表可以得到很大的優(yōu)化(這樣可以使用HEAP表類型,數(shù)據(jù)完全在內(nèi)存中存取),這里也說明另外一個(gè)原則,對(duì)于我們來說,盡量使用定長字段可以通過空間的損失換取訪問效率的提高。在MySQL4中也出現(xiàn)了支持外鍵和事務(wù)的InnoDB類型表,標(biāo)準(zhǔn)的MyISAM格式表和基于HASH結(jié)構(gòu)的HEAP內(nèi)存表,MySQL之所以支持多種表類型,實(shí)際上是針對(duì)不同應(yīng)用提供了不同的優(yōu)化方式;
- 仔細(xì)的檢查應(yīng)用的索引設(shè)計(jì):可以在服務(wù)啟動(dòng)參數(shù)中加入 --log-slow-queries[=file]用于跟蹤分析應(yīng)用瓶頸,對(duì)于跟蹤服務(wù)瓶頸最簡單的方法就是用MySQL的status查看MySQL服務(wù)的運(yùn)行統(tǒng)計(jì)和show processlist來查看當(dāng)前服務(wù)中正在運(yùn)行的SQL,如果某個(gè)SQL經(jīng)常出現(xiàn)在PROCESS LIST中,一。有可能被查詢的此時(shí)非常多,二,里面有影響查詢的字段沒有索引,三,返回的結(jié)果數(shù)過多數(shù)據(jù)庫正在排序(SORTING);所以做一個(gè)腳本:比如每2秒運(yùn)行以下show processlist;把結(jié)果輸出到文件中,看到底是什么查詢在吃CPU。
- 全文檢索:如果相應(yīng)字段沒有做全文索引的話,全文檢索將是一個(gè)非常消耗CPU的功能,因?yàn)槿臋z索是用不上一般數(shù)據(jù)庫的索引的,所以要進(jìn)行相應(yīng)字段記錄遍歷。關(guān)于全文索引可以參考一下基于Java的全文索引引擎lucene的介紹。
- 前臺(tái)應(yīng)用的記錄緩存:比如一個(gè)經(jīng)常使用數(shù)據(jù)庫認(rèn)證,如果需要有更新用戶最后登陸時(shí)間的操作,最好記錄更新后就把用戶放到一個(gè)緩存中(設(shè)置2個(gè)小時(shí)后過期),這樣如果用戶在2個(gè)小時(shí)內(nèi)再次使用到登陸,就直接從緩存里認(rèn)證,避免了過于頻繁的數(shù)據(jù)庫操作。
- 查詢優(yōu)先的表應(yīng)該盡可能為where和order by字句中的字段加上索引,數(shù)據(jù)庫更新插入優(yōu)先的應(yīng)用索引越少越好。
總之:對(duì)于任何數(shù)據(jù)庫單表記錄超過100萬條優(yōu)化都是比較困難的,關(guān)鍵是要把應(yīng)用能夠轉(zhuǎn)化成數(shù)據(jù)庫比較擅長的數(shù)據(jù)上限內(nèi)。也就是把復(fù)雜需求簡化成比較成熟的解決方案內(nèi)。
一次優(yōu)化實(shí)戰(zhàn)
============
以下例子是對(duì)一個(gè)論壇應(yīng)用進(jìn)行的優(yōu)化:
- 用Webalizer代替了原來的通過數(shù)據(jù)庫的統(tǒng)計(jì)。
- 首先通過TOP命令查看MySQL服務(wù)的CPU占用左右80%和內(nèi)存占用:10M,說明數(shù)據(jù)庫的索引緩存已經(jīng)用完了,修改啟動(dòng)參數(shù),增加了-O key_buffer=32M,過一段時(shí)間等數(shù)據(jù)庫穩(wěn)定后看的內(nèi)存占用是否達(dá)到上限。最后將緩存一直增加到64M,數(shù)據(jù)庫緩存才基本能充分使用。對(duì)于一個(gè)數(shù)據(jù)庫應(yīng)用來說,把內(nèi)存給數(shù)據(jù)庫比給WEB服務(wù)實(shí)用的多,因?yàn)镸ySQL查詢速度的提高能加快web應(yīng)用從而節(jié)省并發(fā)的WEB服務(wù)所占用的內(nèi)存資源。
- 用show processlist;統(tǒng)計(jì)經(jīng)常出現(xiàn)的SQL:
每分鐘運(yùn)行一次show processlist并記錄日志:
* * * * * (/home/mysql/bin/mysql -uuser -ppassword < /home/chedong/show_processlist.sql >> /home/chedong/mysql_processlist.log)
show_processlist.sql里就一句:
show processlist;
比如可以從日志中將包含where的字句過濾出來:
grep where mysql_processlist.log
如果發(fā)現(xiàn)有死鎖,一定要重新審視一下數(shù)據(jù)庫設(shè)計(jì)了,對(duì)于一般情況:查詢速度很慢,就將SQL where字句中沒有索引的字段加上索引,如果是排序慢就將order by字句中沒有索引的字段加上。對(duì)于有%like%的查詢,考慮以后禁用和使用全文索引加速。
- 還是根據(jù)show processlist;看經(jīng)常有那些數(shù)據(jù)庫被頻繁使用,考慮將數(shù)據(jù)庫拆分到其他服務(wù)端口上。
MSSQL到MySQL的數(shù)據(jù)遷移:ACCESS+MySQL ODBC Driver
在以前的幾次數(shù)據(jù)遷移實(shí)踐過程中,我發(fā)現(xiàn)最簡便的數(shù)據(jù)遷移過程并不是通過專業(yè)的數(shù)據(jù)庫遷移工具,也不是MSSQL自身的DTS進(jìn)行數(shù)據(jù)遷移(遷移過程中間會(huì)有很多表出錯(cuò)誤警告),但通過將MSSQL數(shù)據(jù)庫通過ACCESS獲取外部數(shù)據(jù)導(dǎo)入到數(shù)據(jù)庫中,然后用ACCESS的表==>右鍵==>導(dǎo)出,制定ODBC,通過MySQL的DSN將數(shù)據(jù)導(dǎo)出。這樣遷移大部分?jǐn)?shù)據(jù)都會(huì)非常順利,如果導(dǎo)出的表有索引問題,還會(huì)出添加索引提示(DTS就不行),然后剩余的工作就是在MySQL中設(shè)計(jì)字段對(duì)應(yīng)的SQL腳本了。
參考文檔:
MySQL的參考:
http://dev.mysql.com/doc/