欧美亚男人的天堂,激情另类综合,亚洲欧美不卡

redis如何刪除過期數據

隨著nosql風潮興起，redis作為當中一個耀眼的明星，也越來越多的被關注和使用，我在工作中也廣泛的用到了redis來充當cache和key-value DB，但當大家發現數據越來越多時，不禁有些擔心，redis能撐的住嗎，雖然官方已經有漂亮的benchmark，自己也可以做做壓力測試，但是看看源碼，也是確認問題最直接的辦法之一。比如目前我們要確認的一個問題是，redis是如何刪除過期數據的？

用一個可以"find reference"的IDE,沿著setex(Set the value and expiration of a key)命令一窺究竟：

void setexCommand(redisClient *c) {
c->argv[3] = tryObjectEncoding(c->argv[3]);
setGenericCommand(c,0,c->argv[1],c->argv[3],c->argv[2]);
}

setGenericCommand是一個實現set,setnx,setex的通用函數，參數設置不同而已。

void setCommand(redisClient *c) {
    c->argv[2] = tryObjectEncoding(c->argv[2]);
    setGenericCommand(c,0,c->argv[1],c->argv[2],NULL);
}

void setnxCommand(redisClient *c) {
    c->argv[2] = tryObjectEncoding(c->argv[2]);
    setGenericCommand(c,1,c->argv[1],c->argv[2],NULL);
}

void setexCommand(redisClient *c) {
    c->argv[3] = tryObjectEncoding(c->argv[3]);
    setGenericCommand(c,0,c->argv[1],c->argv[3],c->argv[2]);
}

再看setGenericCommand：

1 void setGenericCommand(redisClient *c, int nx, robj *key, robj *val, robj *expire) {
2     long seconds = 0; /* initialized to avoid an harmness warning */
3
4     if (expire) {
5         if (getLongFromObjectOrReply(c, expire, &seconds, NULL) != REDIS_OK)
6             return;
7         if (seconds <= 0) {
8             addReplyError(c,"invalid expire time in SETEX");
9             return;
10         }
11     }
12
13     if (lookupKeyWrite(c->db,key) != NULL && nx) {
14         addReply(c,shared.czero);
15         return;
16     }
17     setKey(c->db,key,val);
18     server.dirty++;
19     if (expire) setExpire(c->db,key,time(NULL)+seconds);
20     addReply(c, nx ? shared.cone : shared.ok);
21 }
22

13行處理"Set the value of a key, only if the key does not exist"的場景，17行插入這個key，19行設置它的超時，注意時間戳已經被設置成了到期時間。這里要看一下redisDb(即c->db)的定義：

typedef struct redisDb {
    dict *dict;                 /* The keyspace for this DB */
    dict *expires;              /* Timeout of keys with a timeout set */
    dict *blocking_keys;        /* Keys with clients waiting for data (BLPOP) */
    dict *io_keys;              /* Keys with clients waiting for VM I/O */
    dict *watched_keys;         /* WATCHED keys for MULTI/EXEC CAS */
    int id;
} redisDb;

僅關注dict和expires，分別來存key-value和它的超時，也就是說如果一個key-value是有超時的，那么它會存在dict里，同時也存到expires里，類似這樣的形式：dict[key]:value,expires[key]:timeout.

當然key-value沒有超時，expires里就不存在這個key。剩下setKey和setExpire兩個函數無非是插數據到兩個字典里，這里不再詳述。

那么redis是如何刪除過期key的呢。

通過查看dbDelete的調用者，首先注意到這一個函數，是用來刪除過期key的。

1 int expireIfNeeded(redisDb *db, robj *key) {
2     time_t when = getExpire(db,key);
3
4     if (when < 0) return 0; /* No expire for this key */
5
6     /* Don't expire anything while loading. It will be done later. */
7     if (server.loading) return 0;
8
9     /* If we are running in the context of a slave, return ASAP:
10      * the slave key expiration is controlled by the master that will
11      * send us synthesized DEL operations for expired keys.
12      *
13      * Still we try to return the right information to the caller,
14      * that is, 0 if we think the key should be still valid, 1 if
15      * we think the key is expired at this time. */
16     if (server.masterhost != NULL) {
17         return time(NULL) > when;
18     }
19
20     /* Return when this key has not expired */
21     if (time(NULL) <= when) return 0;
22
23     /* Delete the key */
24     server.stat_expiredkeys++;
25     propagateExpire(db,key);
26     return dbDelete(db,key);
27 }
28

ifNeed表示能刪則刪，所以4行沒有設置超時不刪，7行在"loading"時不刪，16行非主庫不刪，21行未到期不刪。25行同步從庫和文件。

再看看哪些函數調用了expireIfNeeded，有lookupKeyRead，lookupKeyWrite，dbRandomKey，existsCommand，keysCommand。通過這些函數命名可以看出，只要訪問了某一個key，順帶做的事情就是嘗試查看過期并刪除，這就保證了用戶不可能訪問到過期的key。但是如果有大量的key過期，并且沒有被訪問到，那么就浪費了許多內存。Redis是如何處理這個問題的呢。

dbDelete的調用者里還發現這樣一個函數：

1 /* Try to expire a few timed out keys. The algorithm used is adaptive and
2  * will use few CPU cycles if there are few expiring keys, otherwise
3  * it will get more aggressive to avoid that too much memory is used by
4  * keys that can be removed from the keyspace. */
5 void activeExpireCycle(void) {
6     int j;
7
8     for (j = 0; j < server.dbnum; j++) {
9         int expired;
10         redisDb *db = server.db+j;
11
12         /* Continue to expire if at the end of the cycle more than 25%
13          * of the keys were expired. */
14         do {
15             long num = dictSize(db->expires);
16             time_t now = time(NULL);
17
18             expired = 0;
19             if (num > REDIS_EXPIRELOOKUPS_PER_CRON)
20                 num = REDIS_EXPIRELOOKUPS_PER_CRON;
21             while (num--) {
22                 dictEntry *de;
23                 time_t t;
24
25                 if ((de = dictGetRandomKey(db->expires)) == NULL) break;
26                 t = (time_t) dictGetEntryVal(de);
27                 if (now > t) {
28                     sds key = dictGetEntryKey(de);
29                     robj *keyobj = createStringObject(key,sdslen(key));
30
31                     propagateExpire(db,keyobj);
32                     dbDelete(db,keyobj);
33                     decrRefCount(keyobj);
34                     expired++;
35                     server.stat_expiredkeys++;
36                 }
37             }
38         } while (expired > REDIS_EXPIRELOOKUPS_PER_CRON/4);
39     }
40 }
41

這個函數的意圖已經有說明：刪一點點過期key，如果過期key較少，那也只用一點點cpu。25行隨機取一個key，38行刪key成功的概率較低就退出。這個函數被放在一個cron里，每毫秒被調用一次。這個算法保證每次會刪除一定比例的key，但是如果key總量很大，而這個比例控制的太大，就需要更多次的循環，浪費cpu，控制的太小，過期的key就會變多，浪費內存——這就是時空權衡了。

最后在dbDelete的調用者里還發現這樣一個函數：

/* This function gets called when 'maxmemory' is set on the config file to limit
* the max memory used by the server, and we are out of memory.
* This function will try to, in order:
*
* - Free objects from the free list
* - Try to remove keys with an EXPIRE set
*
* It is not possible to free enough memory to reach used-memory < maxmemory
* the server will start refusing commands that will enlarge even more the
* memory usage.
*/
void freeMemoryIfNeeded(void)

這個函數太長就不再詳述了，注釋部分說明只有在配置文件中設置了最大內存時候才會調用這個函數，而設置這個參數的意義是，你把redis當做一個內存cache而不是key-value數據庫。

以上3種刪除過期key的途徑，第二種定期刪除一定比例的key是主要的刪除途徑，第一種“讀時刪除”保證過期key不會被訪問到，第三種是一個當內存超出設定時的暴力手段。由此也能看出redis設計的巧妙之處，

posted @ 2011-11-29 19:57 阿二閱讀(14895) | 評論 (1) | 編輯收藏

Poco::TCPServer框架解析

摘要: POCO C++ Libraries提供一套 C++ 的類庫用以開發基于網絡的可移植的應用程序，功能涉及線程、文件、流，網絡協議包括：HTTP、FTP、SMTP 等，還提供 XML 的解析和 SQL 數據庫的訪問接口。不僅給我的工作帶來極大的便利，而且設計巧妙，代碼易讀，注釋豐富，也是非常好的學習材料。閱讀全文

posted @ 2010-09-10 01:05 阿二閱讀(18901) | 評論 (13) | 編輯收藏

從海量數據中找出中位數

題目和基本思路都來源網上，本人加以整理。

題目：在一個文件中有 10G 個整數，亂序排列，要求找出中位數。內存限制為 2G。只寫出思路即可（內存限制為 2G的意思就是，可以使用2G的空間來運行程序，而不考慮這臺機器上的其他軟件的占用內存）。

關于中位數：數據排序后，位置在最中間的數值。即將數據分成兩部分，一部分大于該數值，一部分小于該數值。中位數的位置：當樣本數為奇數時，中位數=(N+1)/2 ; 當樣本數為偶數時，中位數為N/2與1+N/2的均值（那么10G個數的中位數，就第5G大的數與第5G+1大的數的均值了）。

分析：明顯是一道工程性很強的題目，和一般的查找中位數的題目有幾點不同。
1. 原數據不能讀進內存，不然可以用快速選擇，如果數的范圍合適的話還可以考慮桶排序或者計數排序，但這里假設是32位整數，仍有4G種取值，需要一個16G大小的數組來計數。

2. 若看成從N個數中找出第K大的數，如果K個數可以讀進內存，可以利用最小或最大堆，但這里K=N/2,有5G個數，仍然不能讀進內存。

3. 接上，對于N個數和K個數都不能一次讀進內存的情況，《編程之美》里給出一個方案：設k<K,且k個數可以完全讀進內存，那么先構建k個數的堆，先找出第0到k大的數，再掃描一遍數組找出第k+1到2k的數，再掃描直到找出第K個數。雖然每次時間大約是nlog(k)，但需要掃描ceil(K/k)次，這里要掃描5次。

解法：首先假設是32位無符號整數。
1. 讀一遍10G個整數，把整數映射到256M個區段中，用一個64位無符號整數給每個相應區段記數。
說明：整數范圍是0 - 2^32 - 1，一共有4G種取值，映射到256M個區段，則每個區段有16（4G/256M = 16）種值，每16個值算一段， 0～15是第1段，16～31是第2段，……2^32-16 ～2^32-1是第256M段。一個64位無符號整數最大值是0～8G-1，這里先不考慮溢出的情況。總共占用內存256M×8B=2GB。

2. 從前到后對每一段的計數累加，當累加的和超過5G時停止，找出這個區段（即累加停止時達到的區段，也是中位數所在的區段）的數值范圍，設為[a，a+15]，同時記錄累加到前一個區段的總數，設為m。然后，釋放除這個區段占用的內存。

3. 再讀一遍10G個整數，把在[a，a+15]內的每個值計數，即有16個計數。

4. 對新的計數依次累加，每次的和設為n，當m+n的值超過5G時停止，此時的這個計數所對應的數就是中位數。

總結：
1.以上方法只要讀兩遍整數，對每個整數也只是常數時間的操作，總體來說是線性時間。

2. 考慮其他情況。
若是有符號的整數，只需改變映射即可。若是64為整數，則增加每個區段的范圍，那么在第二次讀數時，要考慮更多的計數。若過某個計數溢出，那么可認定所在的區段或代表整數為所求，這里只需做好相應的處理。噢，忘了還要找第5G+1大的數了，相信有了以上的成果，找到這個數也不難了吧。

3. 時空權衡。
花費256個區段也許只是恰好配合2GB的內存（其實也不是，呵呵）。可以增大區段范圍，減少區段數目，節省一些內存，雖然增加第二部分的對單個數值的計數，但第一部分對每個區段的計數加快了（總體改變？？待測）。

4. 映射時盡量用位操作，由于每個區段的起點都是2的整數冪，映射起來也很方便。

posted @ 2008-09-09 22:49 阿二閱讀(6160) | 評論 (2) | 編輯收藏

基于boost::multi_array的矩陣相乘

博客第一篇，還望大家多多指點。

看了半天的boost::multi_array文檔，才發現可以用shape()[]這個的東西，來取某一維的長度

而關于視圖部分，小弟看的一知半解，
比如，怎么樣把一個4×4的矩陣分成4個2×2的矩陣呢
雖然可以用別的途徑解決，但還是想看下multi_array的視圖操作

本來要實現下Strassen算法的，
下面是普通的矩陣乘法。

#include <iostream>

#include "boost/multi_array.hpp"

using namespace std;

typedef boost::multi_array<int, 2> matrix;

matrix matrix_multiply(matrix& a,matrix& b)

{

matrix::index row=a.shape()[0];

matrix::index col=b.shape()[1];

matrix c(boost::extents[row][col]);

for (matrix::index i=0; i!=a.shape()[0]; ++i)

for (matrix::index j=0; j!=b.shape()[1]; ++j)

for (matrix::index k=0; k!=a.shape()[1]; ++k)

c[i][j]+=a[i][k]*b[k][j];

return c;

}

void print(const matrix& m)

{

for (matrix::index i=0; i!=m.shape()[0]; cout<<endl,++i)

for (matrix::index j=0; j!=m.shape()[1]; ++j)

cout<<m[i][j]<<" ";

}

int main() {

int values[] = {

0, 1, 2,

3, 4, 5

};

const int values_size = 6;

matrix A(boost::extents[2][3]);

matrix B(boost::extents[3][2]);

A.assign(values,values + values_size);

B.assign(values,values + values_size);

cout<<"matrix A"<<endl;

print(A);

cout<<endl;cout<<"*"<<endl;cout<<"matrix B"<<endl;

print(B);

cout<<endl;cout<<"="<<endl;cout<<"matrix C"<<endl;

print(matrix_multiply(A,B));

cout<<endl;

return 0;

}

posted @ 2008-09-09 20:21 阿二閱讀(1636) | 評論 (1) | 編輯收藏

阿二的夢想船

redis如何刪除過期數據

Poco::TCPServer框架解析

從海量數據中找出中位數

基于boost::multi_array的矩陣相乘

導航

統計

常用鏈接

留言簿

隨筆分類

隨筆檔案

搜索

最新評論

閱讀排行榜

評論排行榜