亚洲国产精品久久久久久,久久AV高清无码,精品熟女少妇a∨免费久久http://www.shnenglu.com/yefeng/category/12093.html夜風(fēng)'blogzh-cnMon, 07 Dec 2009 12:45:06 GMTMon, 07 Dec 2009 12:45:06 GMT60Aho-Corasick算法實(shí)踐http://www.shnenglu.com/yefeng/archive/2009/12/06/102671.html夜風(fēng)夜風(fēng)Sun, 06 Dec 2009 14:51:00 GMThttp://www.shnenglu.com/yefeng/archive/2009/12/06/102671.htmlhttp://www.shnenglu.com/yefeng/comments/102671.htmlhttp://www.shnenglu.com/yefeng/archive/2009/12/06/102671.html#Feedback0http://www.shnenglu.com/yefeng/comments/commentRss/102671.htmlhttp://www.shnenglu.com/yefeng/services/trackbacks/102671.html

Aho-Corasick算法實(shí)踐

摘要:

    Aho-Corasick算法可以在文本串中識(shí)別一組關(guān)鍵字,所需時(shí)間和文本長(zhǎng)度以及所有關(guān)鍵字的總長(zhǎng)度成正比。該算法使用了一種稱為“trie”的特殊形式的狀態(tài)裝換圖。Trie是一個(gè)樹形結(jié)構(gòu)的狀態(tài)裝換圖,從一個(gè)結(jié)點(diǎn)到它的各個(gè)子結(jié)點(diǎn)的邊上有不同的標(biāo)號(hào)。Trie的葉子結(jié)點(diǎn)表示識(shí)別到的關(guān)鍵字。

    在這里,將著重討論算法的實(shí)現(xiàn)。算法包含兩個(gè)部分,一是經(jīng)典的KMP算法,二是KMP的擴(kuò)展算法Aho-Corasick算法。前者實(shí)現(xiàn)單關(guān)鍵字的模式匹配,后者實(shí)現(xiàn)多關(guān)鍵字的匹配。(參考龍書詞法分析部分內(nèi)容)

   【源代碼:http://www.shnenglu.com/Files/yefeng/ACKMP.rar(vc9.0下測(cè)試通過) 】

一、經(jīng)典KMP算法

    當(dāng)初,初學(xué)KMP算法時(shí),總是通過反復(fù)的舉例去理解,沒有一種好的表達(dá)方式,而龍書描述這個(gè)算法使用了trie樹,也就是一個(gè)單鏈的狀態(tài)轉(zhuǎn)換圖。如模式b0b1...bn-1,trie樹如下:

    

    對(duì)模式串定義失效函數(shù)f:x->y,x,y in S,描述狀態(tài)轉(zhuǎn)移,f(s)表示在狀態(tài)s處,當(dāng)下一個(gè)字符不是bs時(shí)轉(zhuǎn)向狀態(tài)f(s)繼續(xù)匹配。因此設(shè)置f(s)成為關(guān)鍵問題。

    f(s)的存在其實(shí)主要是為了消除回溯。細(xì)節(jié)就不再多說了,這里只從原理上簡(jiǎn)單說明。

    設(shè)模式串為W,用文法描述,U、V表示W(wǎng)的一部分,w表示一個(gè)字符:

    W -> UwV,

    當(dāng)U識(shí)別完成后,進(jìn)入狀態(tài)s,識(shí)別w時(shí),發(fā)現(xiàn)到來的字符不等于w,則需要轉(zhuǎn)向狀態(tài)f(s),f(s)到哪里去找呢?

    那就要看U是什么樣子了。不管什么情況,只要U非空串,總可以表示成:

       U -> uXu,或 U -> u,或U-> uXx,(x != u)

    可以發(fā)現(xiàn),前綴u是,如果后綴也是u,意味著主串中u已經(jīng)被識(shí)別,如果還從模式串頭匹配u無疑是多余的,所以f(s)應(yīng)該是識(shí)別前綴u后進(jìn)入的狀態(tài)。然后再匹配下一個(gè)字符。而滿足條件的u可能會(huì)有多個(gè),所以總是選擇最長(zhǎng)的那個(gè)。偽代碼如下:

   

    到此為止,應(yīng)該算是可以結(jié)束KMP了,但實(shí)際情況下還可以對(duì)f函數(shù)進(jìn)行優(yōu)化。很多書本上描述的next數(shù)組就可以從f函數(shù)推導(dǎo)過來。

    其實(shí)也顯然,設(shè)狀態(tài)s接收字符w,當(dāng)與輸入字符c不等于c時(shí),轉(zhuǎn)向狀態(tài)t,倘若t狀態(tài)也只接收字符w,顯然再次比較w與c是多余的,之后必然再次轉(zhuǎn)向狀態(tài)f(t)。在運(yùn)行的時(shí)候,這些狀態(tài)轉(zhuǎn)換時(shí)沒有意義的,可以在構(gòu)造f之后,直接將f(s)設(shè)置為f(t)提高運(yùn)行效率(不過此時(shí)f函數(shù)的意義已經(jīng)不同了)。f優(yōu)化如下:

   

二、多關(guān)鍵字匹配與Aho-Corasick算法

    Aho和Corasick對(duì)KMP算法進(jìn)行了推廣,使它可以在一個(gè)文本串識(shí)別一個(gè)關(guān)鍵字集合中的任何關(guān)鍵字。在這種情況下,trie是一棵真正的樹,從其根結(jié)點(diǎn)開始就會(huì)出現(xiàn)分支。如果一個(gè)字符串是某個(gè)關(guān)鍵字的前綴,那么在trie中就又一個(gè)和該字符串對(duì)應(yīng)的狀態(tài)。如關(guān)鍵字集合{he,she,his,hers},trie樹如下:

   

   

    類似的,仍然構(gòu)造類似KMP算法中那樣的實(shí)效函數(shù)。對(duì)于上面的例子,失效函數(shù)如下:

s

0

1

2

3

4

5

6

7

8

9

f(s)

-1

0

0

0

1

2

0

3

0

3


  1.構(gòu)造失效函數(shù)

    類似KMP算法,同樣采用實(shí)效實(shí)效函數(shù)推進(jìn)的方法,假設(shè)當(dāng)前狀態(tài)為s,s的一個(gè)孩子結(jié)點(diǎn)的根結(jié)點(diǎn)根節(jié)點(diǎn)t狀態(tài),如果當(dāng)前的失效函數(shù)已知為f(s),則顯然地,f(t)必定是f(s)的孩子結(jié)點(diǎn)狀態(tài),所要做的就是在狀態(tài)f(s)處尋找接受字符同s->t下一個(gè)狀態(tài),如果能找到,那就是f(t),否則說明到s處匹配串的前綴長(zhǎng)度太長(zhǎng),需縮減,所以需要找到更短的后綴,于是就到f(s)處繼續(xù),如果仍然找不到,則轉(zhuǎn)到f(f(s))處,形成狀態(tài)的遞歸轉(zhuǎn)移。構(gòu)造中需要遍歷之前結(jié)點(diǎn)的所有孩子,所以需采用廣度優(yōu)先遍歷,偽代碼如下:

   

    具體的構(gòu)造如下:

   

  2.構(gòu)造Trie樹

    具體實(shí)現(xiàn)當(dāng)然需要用到樹形結(jié)構(gòu)了,顯然采用靜態(tài)鏈表應(yīng)該是最適合的,因?yàn)闃錁?gòu)造完就不需要改變,而且當(dāng)模式串比較多的時(shí)候可以減少內(nèi)存碎片。

    每一個(gè)結(jié)點(diǎn)有5個(gè)域:接受字符,下一個(gè)兄弟結(jié)點(diǎn),第一個(gè)孩子結(jié)點(diǎn),失效函數(shù)值,結(jié)點(diǎn)狀態(tài)。

但是有一種特殊情況,如上面的第二個(gè)圖,在進(jìn)行匹配時(shí),hers是永遠(yuǎn)不會(huì)被匹配,因?yàn)閔e總是先于hers被匹配。這里就不考慮在內(nèi)點(diǎn)狀態(tài)結(jié)束,這個(gè)問題暫時(shí)無法解決。于是可以做個(gè)特殊處理,只使用4個(gè)域,因?yàn)榇藭r(shí)匹配成功后狀態(tài)就到了葉子結(jié)點(diǎn),葉子結(jié)點(diǎn)不存在孩子域,這個(gè)域被浪費(fèi)了,這里就可以借用一下,比如此域值為x,當(dāng)x<0時(shí),使用x xor 0x80000000表示識(shí)別到的模式串編號(hào)。

    另一個(gè)棘手的問題是結(jié)點(diǎn)個(gè)數(shù)問題,這個(gè)數(shù)組到底多大?如何確定?

    可以使用分值算法計(jì)算,先把模式串按字典順序排好序,設(shè)想n個(gè)排好序的模式串第i位排在一起,相同字符的組成一組,如AiBi…Xi,再把每組下一個(gè)字符,也就是第i+1位排在一起,相同字符的組成一組,如A’iB’I…X’i,以此遞歸運(yùn)算。偽代碼如下:

    

  3.缺點(diǎn)

    水平有限,程序缺點(diǎn)很多,很多問題都沒有解決。

    1.如果存在兩個(gè)模式串,一個(gè)是另一個(gè)的子串,那么后者將無法被匹配。

    2.無法處理動(dòng)態(tài)決定大小寫敏感性

    3.不夠完整,只能向后匹配



夜風(fēng) 2009-12-06 22:51 發(fā)表評(píng)論
]]>
虛擬鍵盤(軟鍵盤)設(shè)計(jì)要點(diǎn)http://www.shnenglu.com/yefeng/archive/2009/10/18/98905.html夜風(fēng)夜風(fēng)Sun, 18 Oct 2009 15:19:00 GMThttp://www.shnenglu.com/yefeng/archive/2009/10/18/98905.htmlhttp://www.shnenglu.com/yefeng/comments/98905.htmlhttp://www.shnenglu.com/yefeng/archive/2009/10/18/98905.html#Feedback6http://www.shnenglu.com/yefeng/comments/commentRss/98905.htmlhttp://www.shnenglu.com/yefeng/services/trackbacks/98905.html    前些天花了很多時(shí)間寫這樣一個(gè)軟鍵盤,效果是顯示一個(gè)與鍵盤外觀相似的視圖,通過鼠標(biāo)單擊像活動(dòng)窗口發(fā)送虛擬的鍵盤消息。目標(biāo)是實(shí)現(xiàn)像windows自帶的軟鍵盤osk相似。
    看似很簡(jiǎn)單的工作,設(shè)計(jì)中卻遇到了很多困難。
    困難一:鍵盤按鍵分類
        鍵盤按鍵有很多種分類方法。
        第一種:按顯示分類。按住shift鍵,字母鍵、符號(hào)鍵顯示上面的字符;按下caps lock鍵,字母鍵切換為大寫字母。
        第二種:按功能分類。大體有可顯示字符類、控制類??刂祁惏╯hift,ctrl等。
        為了解決可變的顯示問題,采用了一個(gè)自我感覺非常好的解決方案:字符集、鍵集相互獨(dú)立。如此一來,只要總體按照功能分類,通過特定功能的按鍵控制有效字符集即可,也就是說,對(duì)普通按鍵來說,它只負(fù)責(zé)到指定的字符集中去取對(duì)應(yīng)序號(hào)的字符即可。
//LabelSet.h
#pragma once

//字母標(biāo)簽集合
class LabelSet
{
public:
    LabelSet(LPCSTR
* _pTable,int _n);
    LPCSTR getLabel(
int _id) const;

    
~LabelSet();

protected:
    LabelSet(){}

private:
    LPCSTR
* pTable;
    
int n;
};

//相當(dāng)于單刀雙擲開關(guān)組
class LabelSetEx
{
protected:
    
struct Switch
    {
        LabelSet
* s[2];
        
int at;
    };

public:
    LabelSetEx(
int _n);
    
bool addSets(int id,LPCSTR* s1,LPCSTR* s2,int n,int at = 0);
    LPCSTR getLable(
int id,int off) const;
    
void turn(int id);

    
~LabelSetEx();

private:
    
int n;    //開關(guān)組總個(gè)數(shù)
    Switch* pGroup;    //開關(guān)組
};

//
//LabelSet.cpp
#include "StdAfx.h"
#include 
"LabelSet.h"
#include 
<algorithm>
#include 
<cassert>

using namespace std;

LabelSet::LabelSet( LPCSTR
* _pTable,int _n )
{
    n 
= _n;
    pTable 
= new LPCSTR[n];
    copy(_pTable,_pTable 
+ _n,pTable);
}

LPCSTR LabelSet::getLabel( 
int _id ) const
{
    
return pTable[_id];
}

LabelSet::
~LabelSet()
{
    delete [] pTable;
}

LabelSetEx::LabelSetEx( 
int _n )
{
    n 
= _n;
    pGroup 
= new Switch[n];
    memset(pGroup,
0,n * sizeof(pGroup[0]));
}

LabelSetEx::
~LabelSetEx()
{
    
while(n--)
    {
        
if(pGroup[n].s[0== pGroup[n].s[1])
            delete pGroup[n].s[
0];
        
else
        {
            delete pGroup[n].s[
0];
            delete pGroup[n].s[
1];
        }
    }
    delete [] pGroup;
}

bool LabelSetEx::addSets( int id,LPCSTR* s1,LPCSTR* s2,int n,int at /*= 0*/ )
{
    assert((at 
& ~1== 0);
    
if(pGroup[id].s[0!= NULL)
        
return false;
    LabelSet
* p = new LabelSet(s1,n);
    pGroup[id].s[
0= p;
    
if(s1 == s2)
        pGroup[id].s[
1= p;
    
else
        pGroup[id].s[
1= new LabelSet(s2,n);
    pGroup[id].at 
= at;
    
return true;
}

LPCSTR LabelSetEx::getLable( 
int id,int off ) const
{
    Switch
* p = pGroup + id;
    
return p->s[p->at]->getLabel(off);
}

void LabelSetEx::turn( int id )
{
    assert((pGroup
->at & ~1== 0);
    pGroup[id].at 
^= 1;
}
        以上取開關(guān)的索引id是指字符集的分類id,在config.h文件下定義了這樣的id
#pragma once

//分類id的定義
#define LABEL_SET_ALPHA  0
#define LABEL_SET_SYMBOL 1
#define LABEL_SET_NUMPAD 2
#define LABEL_SET_MAIN   3
#define LABEL_SET_HELP   4

//字母串表
extern LPCSTR AlphaTable1[];    //小寫
extern LPCSTR AlphaTable2[];    //大寫
extern const int AlphaTableSize;

//符號(hào)串表
extern LPCSTR SymbolTable1[];    //
extern LPCSTR SymbolTable2[];    //
extern const int SymbolTableSize;

//小鍵盤數(shù)字表
extern LPCSTR NumPadTable1[];    //數(shù)字
extern LPCSTR NumPadTable2[];    //光標(biāo)控制
extern const int NumPadTableSize;

//主鍵盤單顯
extern LPCSTR MainTable[];
extern const int MainTableSize;

//輔助鍵盤單顯
extern LPCSTR HelpTable[];
extern const int HelpTableSize;

struct KeyConfig
{
    
short id;        //分類id
    short offset;    //類內(nèi)偏移
    RECT rt;    //位置
    BYTE vk;    //虛擬碼
};

extern KeyConfig kcs[];
extern const int kcSize;
extern const SIZE kbSize;
        第一次這樣寫代碼,寫完發(fā)現(xiàn)這樣極大地提高了靈活性,只要在配置文件config.cpp中修改,就可以產(chǎn)生很多種不同的界面(雖然仍然是代碼級(jí)別的,畢竟邁出了第一步,今后還會(huì)嘗試改成xml配置)。
        言歸正傳,這樣的設(shè)計(jì)分離了按鍵與顯示,可配置能力大大加強(qiáng)。但仍然存在第二個(gè)大問題。
    問題二:輸入焦點(diǎn)的確定
        方案一:現(xiàn)在只要在網(wǎng)上搜索“虛擬鍵盤”,能夠搜到一大溜的源代碼,但只可惜全是同一份拷貝,而且存在一點(diǎn)小錯(cuò)誤。他的解決方案是:利用 PreTranslateMessage,在底層調(diào)用它之前,前臺(tái)窗口仍然沒有改變,此時(shí)是獲得前一個(gè)前臺(tái)窗口的好時(shí)機(jī),獲得后保存,并將使用 AttachThreadInput將當(dāng)前線程綁定活動(dòng)窗口的消息隊(duì)列,然后在單擊虛擬鍵盤時(shí)使用SetFocus將保存的窗口設(shè)為焦點(diǎn)(源代碼中同時(shí)使用了SetForgroundWindow和SetFocus,這是失效的原因),然后發(fā)送虛擬按鍵。

        方案二:其實(shí)有更簡(jiǎn)便的方法。設(shè)置主窗口屬性為WM_ES_NOACTIVATE,這樣窗口就不會(huì)成為前臺(tái)窗口,不管如何發(fā)送鍵盤消息,擁有焦點(diǎn)的窗口總會(huì)收到。但此時(shí)仍然存在問題。當(dāng)移動(dòng)窗口時(shí),效果不大順暢,而且沒辦法響應(yīng)菜單命令,那是因?yàn)樵摯翱谑冀K不是前臺(tái)窗口造成的。解決方法就是在單擊標(biāo)題欄時(shí),成為前臺(tái)窗口,釋放是歸還前臺(tái)。

void CMainFrame::OnNcLButtonDown(UINT nHitTest, CPoint point)
{
    
if(m_hForground == NULL)
    {
        m_hForground 
= ::GetForegroundWindow();
        ModifyStyleEx(WS_EX_NOACTIVATE,
0);
        SetForegroundWindow();
    }
    CFrameWnd::OnNcLButtonDown(nHitTest, point);
}
                但是,如果想當(dāng)然歸還前臺(tái)使用WM_NCLBUTTONUP消息的話,就要讓你失望了,windows似乎有意跟我們開玩笑,必須單擊兩次才能響應(yīng)這個(gè)消息。沒辦法,于是嘗試WM_NCMOUSELEAVE,但效果也不好,最終嘗試WM_NCMOUSEMOVE,很好,這次終于成功了。
void CMainFrame::OnNcMouseMove(UINT nHitTest, CPoint point)
{
    
if(m_hForground != NULL)
    {
        ::SetForegroundWindow(m_hForground);
        ModifyStyleEx(
0,WS_EX_NOACTIVATE);
        m_hForground 
= NULL;
    }
    CFrameWnd::OnNcMouseMove(nHitTest, point);
}
        問題到此為止,現(xiàn)在說說一點(diǎn)小小的發(fā)現(xiàn)。
        原本以為一般的按鍵就兩種狀態(tài),通過down、up改變,如果用方波描述,down就是下降沿觸發(fā),up是上升沿觸發(fā)。也曾了解,像shift這樣的按鍵會(huì)很復(fù)雜,存在多個(gè)狀態(tài)。后來測(cè)試發(fā)現(xiàn),shift并非一個(gè)特例,所有的按鍵都有4個(gè)狀態(tài),通過down、up改變狀態(tài)。只是不同按鍵對(duì)狀態(tài)的關(guān)注點(diǎn)不同。
        可以做這樣一個(gè)測(cè)試,用GetKeyboardState得到各個(gè)虛擬碼對(duì)應(yīng)的按鍵狀態(tài)。最高位為1時(shí)表示鍵被按下,最高位為1時(shí),如果是lock鍵則表示被鎖住,對(duì)于其他鍵,各有各的作用。
        比如一個(gè)鍵,用2位的二進(jìn)制數(shù)表示這些狀態(tài),設(shè)初始狀態(tài)為10,經(jīng)過down后,變?yōu)?1,經(jīng)過up后,變?yōu)?1,再經(jīng)過down后,變?yōu)?0,再經(jīng)過up后,變?yōu)?0,如此四個(gè)狀態(tài)經(jīng)過down、up實(shí)現(xiàn)了周期性的狀態(tài)裝換。大體符合這樣的規(guī)律:
            10-(down xor 11)->01->(up xor 10)->11-(down xor 11)->00(up xor 10)->10。
        這樣,如果虛擬得比較徹底,在虛擬鍵盤內(nèi)部可以輕易地實(shí)現(xiàn)狀態(tài)的記憶,并且可以獲得足夠的信息。對(duì)于顯示、控制都非常方便。

    這只是第一個(gè)版本,還有很多問題需要解決。
    待解決問題一:xml配置動(dòng)態(tài)配置鍵盤,及動(dòng)態(tài)更換顯示效果。
    待解決問題二:同步物理鍵盤。
    待解決問題三:更深層次,防止鍵盤消息被hook,初步認(rèn)識(shí),似乎可以使用剪貼板。
   【源代碼1.2版本:http://www.shnenglu.com/Files/yefeng/VirtualKeyboard1.2.rar


夜風(fēng) 2009-10-18 23:19 發(fā)表評(píng)論
]]>
久久亚洲AV无码精品色午夜 | 久久青青国产| 欧美牲交A欧牲交aⅴ久久 | 国产精品久久久久久久久鸭| 久久久久亚洲国产| 大香伊人久久精品一区二区 | 久久这里只有精品久久| 日本五月天婷久久网站| 久久九九免费高清视频| 久久国产高清一区二区三区| 人人狠狠综合久久亚洲婷婷| 国产精品久久久久9999高清| 久久久久久狠狠丁香| 久久99国产精品久久99果冻传媒| 国产精品免费看久久久| 久久国产高清字幕中文| 亚洲天堂久久精品| 久久精品女人天堂AV麻| 一本色综合久久| 久久偷看各类wc女厕嘘嘘| 国产精品久久午夜夜伦鲁鲁| 一级做a爱片久久毛片| 久久国产午夜精品一区二区三区| 久久久久亚洲精品男人的天堂 | 伊人色综合久久天天人守人婷| 欧美精品九九99久久在观看| 久久精品国产亚洲AV影院| 久久久久免费看成人影片| 99久久精品国产综合一区| 久久久久久久精品妇女99| 久久婷婷综合中文字幕| 日韩久久无码免费毛片软件| 伊人久久综合精品无码AV专区| 999久久久无码国产精品| 久久久久久亚洲精品无码| 亚洲va中文字幕无码久久 | 囯产精品久久久久久久久蜜桃| 99久久久国产精品免费无卡顿| 国产精品欧美久久久久天天影视| 一本一道久久a久久精品综合 | 97久久国产亚洲精品超碰热 |