• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            foxriver
            Keep It Simple and Stupid.
            posts - 12,  comments - 39,  trackbacks - 0

            當QQ群聊天記錄日積月累,達到一定數量級的時候,要查找某些單一文字,往往會花費10幾秒甚至幾分鐘才有反應。除去磁盤讀取的時間,是否對聊天記錄做一個全局索引也是個重要的優化,這篇文章就是為了優化文本查找速度,介紹一個最簡單的方法。

            試著把QQ每條聊天記錄看成SQL里單一記錄,對單條記錄做全文索引。這里用的方法是bit位快速匹配。假設一條聊天記錄是"test", 轉換成16進制,就是"74 65 73 74", 對單條記錄,定義196位bit空間(占用24字節),定義為數組A, 然后按bit層(注意不是字節)做or操作:  (A = A or N, 把A的第N個bit設置為1)

            初始狀態:
            A = 0;        // 【0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00】

            A = A or 0x74; // 【0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x10,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00】
            A = A or 0x65; // 【0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x20,0x00,0x10,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00】
            A = A or 0x73; // 【0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x20,0x00,0x18,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00】
            A = A or 0x74; // 【0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x20,0x00,0x18,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00】

            使用時,給需要查找的字符串建立相同大小的bit索引B,對查找數據"es"做相同處理:

            B = 0;
            B = B or 0x65; // 【0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x20,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00】
            B = B or 0x73; // 【0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x20,0x00,0x08,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00】

            然后把A和B做and操作,如果結果為空(完全沒有交集),則可以快速跳過這條記錄,而不用去判斷實際內容中是否包含了查找文本。

            if (B & A)
            {
              // 兩者索引存在交集,有一定的可能性,處理進一步文字查找操作。
            }
            else
            {
              // 兩者不可能有包含關系,直接跳過本條記錄內容,判斷數據庫下一條記錄。
            }

            原理很簡單,就是求兩者的交集,但往往簡單的索引,能帶來意想不到的速度提升。實際測試中,只要輸入的查找文本比較短小,大約30%~60%上下浮動的數據都能直接略過,大大節省了查找總耗時。

            本人實現中,中文的查找方法相當于兩個單字節的英文,為了最大效率利用空間,用算法把中文每個BYTE都壓縮在196bit之內。

            posted on 2011-01-14 01:22 foxriver 閱讀(2227) 評論(6)  編輯 收藏 引用

            FeedBack:
            # re: C++ 【原創算法】實現一個最簡單bit位全文查找索引。
            2011-01-14 09:30 | atyuwen
            你這個不就是bloom filter的山寨版么,而且hash時并沒有考慮到pattern中的字母順序,結果退化成了一個普通的字符集求交。  回復  更多評論
              
            # re: C++ 實現一個最簡單bit位全文查找索引。
            2011-01-14 09:42 | foxriver
            @atyuwen

            啥,已經有人實現過了?有點杯具,去找來bloom filter研究研究。  回復  更多評論
              
            # re: C++ 【山寨算法】實現一個最簡單bit位全文查找索引。
            2011-01-14 12:03 | waiting4you
            和布隆算法還是不太一樣的,有創意~~
            只是有個地方沒看懂,A = A or 0x74怎么運算呢?怎么得到...0x16...的?謝謝  回復  更多評論
              
            # re: C++ 【山寨算法】實現一個最簡單bit位全文查找索引。
            2011-01-14 14:28 | foxriver
            @waiting4you

            杯具,測試數據寫錯了,是十進制的結果,被我寫成了16進制,已經修正。感謝。  回復  更多評論
              
            # re: C++ 【山寨算法】實現一個最簡單bit位全文查找索引。
            2011-01-14 21:50 | qiuxiafei
            額 確實是bloomfilter....
            不過還是很贊 異曲同工  回復  更多評論
              
            # re: C++ 【山寨算法】實現一個最簡單bit位全文查找索引。
            2011-02-12 17:57 | 隨便寫寫~~
            @waiting4you
            嘗試做了下,還不錯~~

            public void or(byte[] input, byte index) {
            int move = index % 8;
            int fix = index / 8;
            input[fix] |= (byte)(1 << move);
            }

            public bool and(byte[] input1, byte[] input2) {
            for (int i = 0; i < input1.Length; i++) {
            int x = input1[i] & input2[i];
            if (x > 0)
            return true;
            }
            return false;
            }  回復  更多評論
              

            <2011年2月>
            303112345
            6789101112
            13141516171819
            20212223242526
            272812345
            6789101112

            常用鏈接

            留言簿(3)

            隨筆檔案

            文章檔案

            相冊

            1

            搜索

            •  

            最新評論

            閱讀排行榜

            評論排行榜

            国内精品久久久久影院日本 | 久久青青草视频| 97久久精品人妻人人搡人人玩| 伊人久久大香线蕉AV色婷婷色| 国产麻豆精品久久一二三| 国内精品久久久久久麻豆| 久久中文字幕视频、最近更新| 久久国产色AV免费看| 久久毛片一区二区| 久久最新免费视频| 伊人久久五月天| 国产精品伊人久久伊人电影| 亚洲国产精品狼友中文久久久| 国产成人精品久久| 精品久久人人爽天天玩人人妻| 久久久亚洲精品蜜桃臀| 亚洲国产精品无码久久久不卡| 天天久久狠狠色综合| 亚洲AV无码久久精品成人| 久久影院久久香蕉国产线看观看| 思思久久精品在热线热| 久久亚洲色一区二区三区| 久久国产精品久久精品国产| 国产午夜精品久久久久免费视| 国产亚洲精久久久久久无码77777 国产亚洲精品久久久久秋霞 | 国产精久久一区二区三区| 一本色道久久88—综合亚洲精品| 亚洲&#228;v永久无码精品天堂久久 | 久久毛片免费看一区二区三区| 成人午夜精品久久久久久久小说| 久久亚洲欧美国产精品| 亚洲午夜久久久久久久久电影网| 欧美一级久久久久久久大| 久久er国产精品免费观看8| 久久国产精品一国产精品金尊| 久久成人国产精品免费软件| 久久香蕉国产线看观看猫咪?v| 国产精品无码久久久久| 久久精品国产福利国产秒| 中文字幕久久精品无码| 久久超碰97人人做人人爱|