posts - 12, comments - 39, trackbacks - 0

當QQ群聊天記錄日積月累，達到一定數量級的時候，要查找某些單一文字，往往會花費10幾秒甚至幾分鐘才有反應。除去磁盤讀取的時間，是否對聊天記錄做一個全局索引也是個重要的優化，這篇文章就是為了優化文本查找速度，介紹一個最簡單的方法。

試著把QQ每條聊天記錄看成SQL里單一記錄，對單條記錄做全文索引。這里用的方法是bit位快速匹配。假設一條聊天記錄是"test", 轉換成16進制，就是"74 65 73 74", 對單條記錄，定義196位bit空間(占用24字節)，定義為數組A, 然后按bit層(注意不是字節)做or操作: (A = A or N, 把A的第N個bit設置為1)

初始狀態：
A = 0; // 【0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00】

A = A or 0x74; // 【0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x10,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00】
A = A or 0x65; // 【0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x20,0x00,0x10,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00】
A = A or 0x73; // 【0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x20,0x00,0x18,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00】
A = A or 0x74; // 【0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x20,0x00,0x18,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00】

使用時，給需要查找的字符串建立相同大小的bit索引B，對查找數據"es"做相同處理：

B = 0;
B = B or 0x65; // 【0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x20,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00】
B = B or 0x73; // 【0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x20,0x00,0x08,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00】

然后把A和B做and操作，如果結果為空（完全沒有交集），則可以快速跳過這條記錄，而不用去判斷實際內容中是否包含了查找文本。

if (B & A)
{
// 兩者索引存在交集，有一定的可能性，處理進一步文字查找操作。
}
else
{
// 兩者不可能有包含關系，直接跳過本條記錄內容，判斷數據庫下一條記錄。
}

原理很簡單，就是求兩者的交集，但往往簡單的索引，能帶來意想不到的速度提升。實際測試中，只要輸入的查找文本比較短小，大約30%~60%上下浮動的數據都能直接略過，大大節省了查找總耗時。

本人實現中，中文的查找方法相當于兩個單字節的英文，為了最大效率利用空間，用算法把中文每個BYTE都壓縮在196bit之內。

posted on 2011-01-14 01:22 foxriver 閱讀(2252) 評論(6) 編輯收藏引用

FeedBack:

# re: C++ 【原創算法】實現一個最簡單bit位全文查找索引。

2011-01-14 09:30 | atyuwen

你這個不就是bloom filter的山寨版么，而且hash時并沒有考慮到pattern中的字母順序，結果退化成了一個普通的字符集求交。回復更多評論

# re: C++ 實現一個最簡單bit位全文查找索引。

2011-01-14 09:42 | foxriver

@atyuwen

啥，已經有人實現過了？有點杯具，去找來bloom filter研究研究。回復更多評論

# re: C++ 【山寨算法】實現一個最簡單bit位全文查找索引。

2011-01-14 12:03 | waiting4you

和布隆算法還是不太一樣的，有創意~~
只是有個地方沒看懂，A = A or 0x74怎么運算呢？怎么得到...0x16...的？謝謝回復更多評論

# re: C++ 【山寨算法】實現一個最簡單bit位全文查找索引。

2011-01-14 14:28 | foxriver

@waiting4you

杯具，測試數據寫錯了，是十進制的結果，被我寫成了16進制，已經修正。感謝。回復更多評論

# re: C++ 【山寨算法】實現一個最簡單bit位全文查找索引。

2011-01-14 21:50 | qiuxiafei

額確實是bloomfilter....
不過還是很贊異曲同工回復更多評論

# re: C++ 【山寨算法】實現一個最簡單bit位全文查找索引。

2011-02-12 17:57 | 隨便寫寫～～

@waiting4you
嘗試做了下，還不錯～～

public void or(byte[] input, byte index) {
int move = index % 8;
int fix = index / 8;
input[fix] |= (byte)(1 << move);
}

public bool and(byte[] input1, byte[] input2) {
for (int i = 0; i < input1.Length; i++) {
int x = input1[i] & input2[i];
if (x > 0)
return true;
}
return false;
} 回復更多評論

刷新評論列表

只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

<

2025年11月

>

日

一

二

三

四

五

六

26

27

28

29

30

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

1

2

3

4

5

6

常用鏈接

留言簿(3)

隨筆檔案

文章檔案

2012年11月 (1)

相冊

1

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

常用鏈接

留言簿(3)

隨筆檔案

文章檔案

相冊

1

搜索

最新評論

閱讀排行榜

評論排行榜