在线欧美小视频,精品动漫3d一区二区三区免费,欧美日韩国产综合久久

一個(gè)關(guān)鍵字過濾算法

      經(jīng)常某些論壇，或者軟件中對某些字符串進(jìn)行了關(guān)鍵字過濾, 一般代替為*號，一般的算法是利用strstr算法，即使是string的find子串算法復(fù)雜度也是(N*log(n))，并非kmp算法，也非bm查找子串算法。
     對于一組關(guān)鍵字過濾，特別是對于一組字符串多，且長度不規(guī)律的字符串過濾算法完全是有必要的。

    網(wǎng)上對于關(guān)鍵字過濾算法較多，且實(shí)現(xiàn)方法較多，本文主要介紹基于一種把關(guān)鍵字轉(zhuǎn)換為Unicode，然后對關(guān)鍵字的字符或者單個(gè)關(guān)鍵字hash求值。算法復(fù)雜度為O(n).
   對于漢字的hash值的求法，因?yàn)槭荱nicode編碼是16位，哈希求值:

/// 求漢字的哈希值

long HashFun(wchar_t word)

{

BYTE l = LOBYTE(word);

int h = HIBYTE(word);

long num = h << 8 ;

num +=l;

return num;

}

    基本算法思想;
   1.建立2個(gè)過濾關(guān)鍵字?jǐn)?shù)組:數(shù)組1：為單個(gè)字符數(shù)組2：為2個(gè)或者多個(gè)字符
   2.求出數(shù)組1，2的hash值，數(shù)組2的hash值只求出前2個(gè)字符的hash值即可。
   3.掃描待檢測的文本，然后每次取2個(gè)字符，查找數(shù)組2是否有匹配，如果沒有則查找數(shù)組1。。。。查找為O(1)

主要代碼如下:

File : WordFilter.cpp

brief: 關(guān)鍵字過濾程序，復(fù)雜度為O(n)，線性

Author: Expter

Data : 2009/06/30

對漢字或者字符進(jìn)行哈希算法，先轉(zhuǎn)換為unicode編碼，然后求其hash值。

主要算法為:

1.建立2個(gè)過濾關(guān)鍵字?jǐn)?shù)組:數(shù)組1：為單個(gè)字符數(shù)組2：為2個(gè)或者多個(gè)字符

2.求出數(shù)組1，2的hash值，數(shù)組2的hash值只求出前2個(gè)字符的hash值即可。

3.掃描待檢測的文本，然后每次取2個(gè)字符，查找數(shù)組2是否有匹配，如果沒有則查找數(shù)組1。。。。查找為O(1)

不足:

不能很好的分詞。過濾不是很準(zhǔn)確，每次只能1，2個(gè)詞的過濾。

#include <stdlib.h>

#include <iostream>

#include <map>

#include <vector>

#include <string>

#include <windows.h>

#include <wchar.h>

#include <iosfwd>

using namespace std;

wchar_t des1 [5][2] = { L"漢",L"字",L"測",L"試",L"個(gè)"};

wchar_t des2 [3][5] = { L"用漢", L"的啥" ,L"測試啊"};

wchar_t src[] = { L"這個(gè)原來是打算的啥子?xùn)|西用漢字只是一個(gè)是不是測試"};

/// 求漢字的哈希值

long HashFun(wchar_t word)

{

BYTE l = LOBYTE(word);

int h = HIBYTE(word);

long num = h << 8 ;

num +=l;

return num;

}

long HashFun(wchar_t * word)

{

return HashFun(word[0])*10 + HashFun(word[1]);

}

void ParamVer(map<long,int> hashmp , wchar_t *src , int i)

{

long val = HashFun(src[i+1]);

if(hashmp[val] == 1)

{

src[i+1] = L'*';

}

void VmAlorgthm(map<long,int> hashmp,wchar_t *src)

{

long val = 0;

int m = wcslen(src) ;

// O(n);

for(int i = 0 ; i < m-1 ; i ++)

{

if( HashFun(src[i]) != L'*')

{

val = HashFun(src[i]) + HashFun(src[i+1]);

if( hashmp[val] == 1)

{

src[i] = L'*';

src[i+1] =L'*';

}

else

{

val = HashFun(src[i]);

if(hashmp[val] == 1)

{

src[i] = L'*';

}

else

{

ParamVer(hashmp,src,i);

}

else

{

ParamVer(hashmp,src,i+1);

}

ParamVer(hashmp,src,m-1);

}

int _tmain(int argc, _TCHAR* argv[])

{

wcout.imbue(locale("chs"));

typedef map<long,int> HASHMAP;

cout <<" 需要過濾文本: ";

wcout<< src <<endl;

cout <<" 過濾關(guān)鍵字 : " ;

for(int i = 0 ;i < 5; i++)

wcout << des1[i][0] <<" ";

wcout <<endl;

cout <<" 過濾關(guān)鍵詞 : " ;

for(int i = 0 ;i < 3; i++)

wcout << des2[i] <<" ";

wcout <<endl;

long val = 0;

HASHMAP hash_map;

/// 字 hash

for(int i = 0 ; i < 5 ; i++)

{

val = HashFun(des1[i][0]);

hash_map[val] = 1;

}

/// 詞 hash

for(int i =0 ; i < 3 ; i++)

{

val = HashFun(des2[i]);

hash_map[val] = 1;

}

VmAlorgthm(hash_map,src);

cout <<"\n-------------------------------------------------------------\n"

<<" 過濾后的文本: ";

wcout<< src <<endl;

return 0;

}

posted on 2009-07-12 22:07 expter 閱讀(4140) 評論(4) 編輯收藏引用所屬分類: 其他學(xué)習(xí)筆記、算法與數(shù)據(jù)結(jié)構(gòu)

只有注冊用戶登錄后才能發(fā)表評論。
【推薦】100%開源！大型工業(yè)跨平臺(tái)軟件C++源碼提供，建模，組態(tài)！

相關(guān)文章: 根據(jù)子類類型訪問其特有操作針對一個(gè)內(nèi)存池測試相關(guān)介紹一個(gè)關(guān)于容器選取的刪除問題。在CEGUI顯示GIF圖像，簡單的聊天窗口實(shí)現(xiàn)方式. 基于CEGUI的StaticText的超級鏈接實(shí)現(xiàn) 一個(gè)基于足球AI仿真機(jī)的模擬實(shí)現(xiàn) 基于策略的一種高效內(nèi)存池的實(shí)現(xiàn) 一個(gè)小型的IOCP網(wǎng)絡(luò)庫一個(gè)字典生成算法幾種解法: 一個(gè)問題，如何優(yōu)化？是否有高效的算法

網(wǎng)站導(dǎo)航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

# re: 一個(gè)關(guān)鍵字過濾算法[未登錄] 2009-07-13 11:33 megax

# re: 一個(gè)關(guān)鍵字過濾算法 2009-07-14 00:42 XXOO

# re: 一個(gè)關(guān)鍵字過濾算法 2009-07-14 12:37 戴爾電腦

# re: 一個(gè)關(guān)鍵字過濾算法[未登錄] 2009-07-20 09:10 cc

勤能補(bǔ)拙，Expter

導(dǎo)航

統(tǒng)計(jì)

留言簿(18)

隨筆分類

隨筆檔案

文章檔案

收藏夾

程序人生

經(jīng)常去的論壇

曾經(jīng)ACM

積分與排名

最新評論

閱讀排行榜

評論排行榜

一個(gè)關(guān)鍵字過濾算法

評論