SQLite的一個顯著的特點就是占用內(nèi)存量很小,這作為一個嵌入式的DBMS是非常重要的,那么我下面就對這個問題從根本上分析它是如何做到“小內(nèi)存”的。
一、ORDER BY查詢中內(nèi)存使用情況
由于SQLite的執(zhí)行都是先把SQL語句轉(zhuǎn)化成指令再執(zhí)行,所以下面就先一條條的分析一下它所用到的指令。先建立一個表再插入下面的數(shù)據(jù),然后再用explain操作來得到那些指令。下面就是它們的具體操作以及解釋。
Sqlite> create table stu (sno int, name text, sex text, age int);
Sqlite > insert into stu values (1,'aa','n', 21);
Sqlite > insert into stu values (2,'bb','m', 18);
Sqlite > insert into stu values (3,'yy','m', 17);
Sqlite > insert into stu values (4,'xx','n', 19);
Sqlite > insert into stu values (5,'ee','n', 20);
Sqlite > insert into stu values (5,'ee','n', 24);
Sqlite > insert into stu values (6,'fe','m', 34);
Sqlite > explain select * from stu order by age;

下面是制作一個record的過程。

下面是record5的數(shù)據(jù)結(jié)構(gòu),也就是執(zhí)行第十條指令后的結(jié)果:(記錄1)
Hdr-size | Int | Text | Text | Int | Sno | Name | Sex | age |
再執(zhí)行11-14條指令后得到的結(jié)果為:(記錄2)
Hdr-size | Int | Text | Text | age | sequence | Record5 |
再執(zhí)行第15條指令是將最后得到的一個record插入到臨時數(shù)據(jù)庫文件1中,也就是執(zhí)行Open Ephemeral后得到的數(shù)據(jù)文件。就象上面一直循環(huán)將所有要排序的數(shù)據(jù)插入到臨時數(shù)據(jù)庫中。
再執(zhí)行第19條指令,打開的是個臨時表,這個表的特點就是這個表中只有一條記錄,每當(dāng)插入第二條記錄第一條就會自動被刪除,這樣可以節(jié)約內(nèi)存的使用。
再執(zhí)行第20條指令,循環(huán)遍歷臨時數(shù)據(jù)庫文件1的數(shù)據(jù)。
再執(zhí)行第21條指令,這是從數(shù)據(jù)庫1中得到第3列放到amem[]第5個位中,也就是取出上面記錄2中的Record5值,也就是記錄1,放到第五位。
再執(zhí)行第22條指令,它是把一個整數(shù)值(代表一個鍵值)放到第九位。
再下來執(zhí)行第23條指令,它是將amem第5位中的數(shù)據(jù)(記錄1)和第9位的鍵值取出來插入到表2中,此時得到的數(shù)據(jù)就是原來的數(shù)據(jù)。
再下來的指令就是從這條指令中把數(shù)據(jù)取出做下面的工作,比如輸出或者是計數(shù)等操作。
這里實現(xiàn)排序功能的就是IdxInsert指令和,因為它是將得到的帶有排序關(guān)鍵字的記錄插入到B樹的合適位置,再執(zhí)行第21條指令的時候一條條的把數(shù)據(jù)取出來,這樣就是有序的數(shù)據(jù)了。
而對于內(nèi)存的使用來說,也就是在這個問題上,因為其它操作都是在計算,不用什么內(nèi)存的,而它用內(nèi)存就是看它是把數(shù)據(jù)存放到什么地方了,很明顯它是存在數(shù)據(jù)庫1中的,那么問題就是說數(shù)據(jù)庫1的建立是的是在磁盤上還是內(nèi)存中,也就是指令OP_OpenEphemeral的執(zhí)行情況:
allocateCursor();//先給它分配游標(biāo)
再下來創(chuàng)建數(shù)據(jù)庫:
sqlite3BtreeFactory (db, 0, 1, SQLITE_DEFAULT_TEMP_CACHE_SIZE, openFlags, &pCx->pBt);
在這個函數(shù)中會判斷它是創(chuàng)建什么類型的數(shù)據(jù)庫,這里是用第二個參數(shù)決定類型的,如果不為空且是個具體的名字,那么就調(diào)用sqlite3BtreeOpen()函數(shù)打開即可,如果是":memory:",那么直接在內(nèi)存中建立,如果為0,說明就是虛數(shù)據(jù)庫,可以是在內(nèi)存也可以是數(shù)據(jù)庫文件,這會決定于兩個條件:
SQLITE_TEMP_STORE和db->temp_store==2,下面是它們的決定方式:

這說明這個排序也不會給內(nèi)存使用帶來很大的影響。
下面再根據(jù)代碼分析它執(zhí)行IdxInsert的內(nèi)存使用情況:
它也是執(zhí)行函數(shù):sqlite3BtreeInsert(pCrsr, zKey, nKey, "", 0, 0, pOp->p3);只是它在這里不插入數(shù)據(jù)只插入關(guān)鍵字Key,這個zKey其實就是上面所說的記錄2,執(zhí)行這個函數(shù)過程中,首先它申請臨時空間,調(diào)用函數(shù)allocateTempSpace(pBt),這個操作申請到的空間一般是固定的,為1024B,也就是一個頁面的大小,隨著page_size變化。這1K內(nèi)存就是它執(zhí)行排序時比其它不排序的多出來的內(nèi)存使用量。但是這個TempSpace對于一個Btshared對象來說只有一個,當(dāng)申請后再就不能申請了。
上面那個插入操作函數(shù)再調(diào)用fillInCell(),這里是真正的將數(shù)據(jù)插入到臨時數(shù)據(jù)庫中的操作,首先是將數(shù)據(jù)插入到申請到的臨時內(nèi)存空間中,如果空間用完就再從磁盤中申請頁面來存儲溢出數(shù)據(jù)。
二、下面再具體算一下總共所用的3M內(nèi)存用到何處了。
1) 首先打開一個數(shù)據(jù)庫自動要分配2000個頁面,也就是2000K
2) 再下來執(zhí)行指令Open Ephemeral,內(nèi)存分配情況如下圖:
3) 再就是OpenRead指令:這里也是為主數(shù)據(jù)庫分配一個游標(biāo),大小為300K
4) 再下來執(zhí)行Idxinsert要分配1024B的臨時內(nèi)存空間
5) 執(zhí)行OpenPseudo指令打開一個游標(biāo)也要300B的空間
共使用2502K空間

從上面可以看出,其實內(nèi)存空間的應(yīng)該只是它自身的一些初始分配,對于這個操作,額外的應(yīng)用是很少的,2502K這個數(shù)和經(jīng)測試的3M也相差不多。
三、再下來討論一下Pager是如何來管理頁面的
在打開數(shù)據(jù)庫的時候首先會把Pager的頁面數(shù)設(shè)置成2000個,執(zhí)行函數(shù)sqlite3_open()的時候它會調(diào)用openDatabase()函數(shù),再調(diào)用sqlite3BtreeFactory(),這個函數(shù)的一個參數(shù)在這里是用了一個默認(rèn)值SQLITE_DEFAULT_CACHE_SIZE,它是2000,這是Pager的最大的頁面數(shù),再通過sqlite3BtreeSetCacheSize(*ppBtree, nCache)設(shè)置這個最大頁面數(shù),接下來應(yīng)用內(nèi)存的操作是在遍歷數(shù)據(jù)庫的時候,首先執(zhí)行指令OP_Rewind,它會找到要查詢的B樹的第一個記錄,也同時把第一個頁面調(diào)入內(nèi)存,通過執(zhí)行getAndInitPage(pBt, pCur->pgnoRoot, &pCur->apPage[0])操作,這樣再繼續(xù)執(zhí)行下面的指令來取數(shù)據(jù)以及對數(shù)據(jù)進(jìn)行處理,等到循環(huán)第二次的時候執(zhí)行OP_next指令,它其實是要找到下一條數(shù)據(jù),首先判斷此數(shù)據(jù)的索引值是否可以在現(xiàn)在游標(biāo)所處的頁面的內(nèi)存單元之外,如果是那么說明在這個頁面中已經(jīng)找不到,那么就再在內(nèi)存中找這個頁面,因為這個頁面有可能因為以前的操作已經(jīng)把它放入內(nèi)存中了,如果能找到就返回這個頁面指針,如果找不到的話再去已經(jīng)閑置不用的隊列中找合適的頁面來用,如果能找到就用這個,如果找不到就再新建一個頁面。
那么再下來對上面得到的頁面進(jìn)行初始化:數(shù)據(jù)就是在數(shù)據(jù)庫文件中到需要的頁面并且將這個頁面的數(shù)據(jù)讀到剛才得到的新頁面中,這樣就完成了一次數(shù)據(jù)的搜索,每次執(zhí)行OP_next指令的操作都是這樣,如此反復(fù)直到讀完數(shù)據(jù)為止……
四、多表連接的內(nèi)存使用情況分析
多表連接的做法已經(jīng)在前面查詢優(yōu)化中講過了,至于它的內(nèi)存使用其實和普通的查詢基本是一樣的,只不過是多了幾個游而已,有幾個表連接就打開幾個對應(yīng)的游標(biāo),再另加一個用于輸出的游標(biāo),所以內(nèi)存和普通查詢基本相同,這里不再敘述。
五、建立索引的內(nèi)存使用情況。
索引的建立是將數(shù)據(jù)生成關(guān)鍵字再把它們插入到B樹的合適位置中去,B樹是存儲在文件中的,所以使用內(nèi)存的數(shù)量和前面討論過的排序中執(zhí)行指令idxinsert是相同的,所以內(nèi)存使用也是很小,這里不再敘述。
六、插入操作的內(nèi)存使用情況
插入操作分兩種情況,一種就是自動提交,這樣就是執(zhí)行一次就提交一次,這個過程中,存在內(nèi)存中的數(shù)據(jù)量不會很大,所以插入操作使用內(nèi)存情況就是一條數(shù)據(jù)的大小。
而如果是將插入放到BEGIN和COMMIT語句之間的話,那么這就是手動提交,中間執(zhí)行的操作都會保存在內(nèi)存中,插入多少條保存多少的數(shù)據(jù),這很明顯占內(nèi)存量就是很大了。與在這兩個語句中插入的數(shù)據(jù)量成正比。
七、更新操作的內(nèi)存使用情況
更新操作使用內(nèi)存比較大,因為在SQLite中,更新會采用兩個步驟進(jìn)行,第一步先是把滿足條件的數(shù)據(jù)找出來存到一個RowSet的內(nèi)存單元中,對數(shù)據(jù)遍歷完一遍后再將這些數(shù)據(jù)從RowSet中取出來,再一條條的更新,所以數(shù)據(jù)多的話使用內(nèi)存就會很大,其中放到RowSet中的指令為OP_RowSetAdd,它會執(zhí)行一個插入函數(shù)sqlite3RowSetInsert(),在這個函數(shù)中要對內(nèi)存空間進(jìn)行管理,如果還有空間就繼續(xù)插入,沒有空間就再申請。
八、刪除操作的內(nèi)存使用情況
刪除操作使用內(nèi)存比較大,因為在SQLite中,刪除會采用兩個步驟進(jìn)行,第一步先是把滿足條件的數(shù)據(jù)找出來存到一個RowSet的內(nèi)存單元中,對數(shù)據(jù)遍歷完一遍后再將這些數(shù)據(jù)從RowSet中取出來,再一條條的刪除,所以數(shù)據(jù)多的話使用內(nèi)存就會很大,其中放到RowSet中的指令為OP_RowSetAdd,它會執(zhí)行一個插入函數(shù)sqlite3RowSetInsert(),在這個函數(shù)中要對內(nèi)存空間進(jìn)行管理,如果還有空間就繼續(xù)插入,沒有空間就再申請。