posts - 7, comments - 64, trackbacks - 0

大學畢業了！！上來感嘆一下！并拿出自己的畢業設計分享一下。
這個小東西是用了一個星期完成的。BUG肯定不少，大家湊合著看一下吧。感覺有趣的就拿去玩玩。
說說基本思路。
1.對文件進行分詞處理
2.通過統計訓練文檔當中的詞頻方差，構造評判矩陣
3.之后在構造待分類文檔的評判向量
4.用評判向量和構造矩陣相乘，選出最接近的分類。
具體地方法大家可以參考一下這篇論文：《基于模糊理論的網頁過濾算法的實現》
上圖：

主界面

結果文件

訓練文檔的目錄結構

程序文件：
http://www.namipan.com/d/db9717e2153a1bc504dc597fee9ac32e92b428fcc4fe3900

其實正確率還可以進一步提高的。以后有興趣的時候再來重寫一下這個程序吧。

總結：
我盡力優化了這個程序的速度。但還是不理想。
ICTCLAS分詞系統的效率低是其中一個重要原因。
我使用了stlsoft中的aoto_buffer來優化內存的分配。
使所有的string在內存當中只存在一份拷貝。
map和vector容器永遠只存放string*

無法解決的問題：
我想在一個double數組中存放1/N,2/N,3/N......N/N，以便后來使用。
我覺得這些常量應當能在編譯時期確定。但是不知道如何通過定義宏來表示這些數值。
搞的我最后不得不啟動一個線程來專門計算這些值。

有興趣的郵件聯系啊~！

posted on 2009-06-12 21:38 HIT@ME 閱讀(1423) 評論(2) 編輯收藏引用

FeedBack:

# re: 非法信息識別系統

2009-06-12 23:27 | unnamed

還以為是源代碼，結果是執行程序。回復更多評論

# re: 非法信息識別系統

2009-06-13 07:18 | YZY

double數組既然是靜態的為什么還要用一個線程來計算這些值啊？
直接計算或者從文本文件中讀取不就可以了？回復更多評論

刷新評論列表

只有注冊用戶登錄后才能發表評論。
【推薦】100%開源！大型工業跨平臺軟件C++源碼提供，建模，組態！



網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

<

2009年6月

>

日

一

二

三

四

五

六

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

1

2

3

4

5

6

7

8

9

10

11

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

常用鏈接

留言簿(5)

隨筆檔案

test

搜索

最新評論

閱讀排行榜

評論排行榜