| |||||||||
日 | 一 | 二 | 三 | 四 | 五 | 六 | |||
---|---|---|---|---|---|---|---|---|---|
27 | 28 | 29 | 30 | 31 | 1 | 2 | |||
3 | 4 | 5 | 6 | 7 | 8 | 9 | |||
10 | 11 | 12 | 13 | 14 | 15 | 16 | |||
17 | 18 | 19 | 20 | 21 | 22 | 23 | |||
24 | 25 | 26 | 27 | 28 | 29 | 30 | |||
31 | 1 | 2 | 3 | 4 | 5 | 6 |
當(dāng)我們看網(wǎng)頁的時(shí)候,常常看見大量和我們所關(guān)心內(nèi)容無關(guān)的導(dǎo)航條、廣告信息、版權(quán)信息以及調(diào)查問卷等。有時(shí)候,我們可能從中得到一些意外的驚喜;但大多數(shù)時(shí)候都是非常討厭。
飛行廣告可以說是其中的佼佼者,但已經(jīng)有插件可以讓它不顯示了。但更多更多的無關(guān)廣告,特別是那種點(diǎn)進(jìn)去還中毒的廣告,是不是也該開發(fā)個(gè)插件讓它們不要出現(xiàn)在我們面前了。
最近看搜索引擎,搜索引擎分析網(wǎng)頁的時(shí)候也需要這樣處理,稱之為網(wǎng)頁凈化。
不過不知道加了這種插件之后,那網(wǎng)站還能不能接到廣告哈。。。
摘要: 閱讀全文
最新研究搜索引擎了,做點(diǎn)筆記。
搜索引擎一般分為三個(gè)模塊: 網(wǎng)頁搜集、預(yù)處理和查詢服務(wù)。
網(wǎng)頁搜集是事先搜集的,在查詢的時(shí)候再去搜集明顯不可能了。而事先搜集又分為定期搜集和增量搜集。定期搜集是個(gè)全量的搜集過程,往往更新一次需要很長(zhǎng)的時(shí)間,基本也不時(shí)新了,但是實(shí)現(xiàn)無疑要簡(jiǎn)單點(diǎn);增量搜集除第一次是全量的外,后續(xù)做的就是更新了(包括新增網(wǎng)頁,刪除過期的,以及更新),實(shí)現(xiàn)上要復(fù)雜的多。現(xiàn)實(shí)上這兩種也是相輔相成的,如新聞的搜索要及時(shí)更新,但某些學(xué)術(shù)網(wǎng)站就很少更新了。
網(wǎng)頁搜集要解決的問題:
(1)各種類型的網(wǎng)頁(html、asp、javascript),各種語種(ascii, utf-8)
(2)網(wǎng)絡(luò)資源的多樣化(文件,圖片,文檔,音頻,視頻 etc.)
(3)搜索策略(深度優(yōu)先,廣度優(yōu)先)
(4)并發(fā)搜集(避免對(duì)同一站點(diǎn)同一時(shí)刻的大量訪問,不然就變成Dos攻擊了)
(5)避免重復(fù)搜集
記錄未訪問、已訪問URL和網(wǎng)頁內(nèi)容摘要信息
域名與IP的對(duì)應(yīng)問題
(6)判斷網(wǎng)頁的重要程度
1) 網(wǎng)頁的入度大,表明被其他網(wǎng)頁引用的次數(shù)多;
2) 某網(wǎng)頁的父網(wǎng)頁入度大;
3) 網(wǎng)頁的鏡像度高,說明網(wǎng)頁內(nèi)容比較熱門,從而顯得重要;
4) 網(wǎng)頁的目錄深度小,易于用戶瀏覽到。
好可憐啊,我差一點(diǎn),就是沒過. 上午倒是50多分,下午考差2分,論文才考了40分.
總結(jié)一下,下午按道理肯定能過的,也不知道是打字打多了,寫字手都在發(fā)抖,
很多字想不出來怎么寫,瀑布汗~~~~~,全還給小學(xué)語文老師了.
不過論文沒過也很正常,完全跟不上時(shí)代,還好是4選1,只能選迭代開發(fā)吹吹牛,
心里本來就沒覺得迭代開發(fā)有多么好,硬著寫了那3千字,一年的字還學(xué)那次寫的
多.
要被GF恥笑了,5555,沒事吹牛必過干嗎........
記得hibernate剛有點(diǎn)火的時(shí)候,04年吧,公司也希望能做C++版,愿望是美好,可惜最終是失敗的,作為最后一個(gè)接手的人,心中是不盡的失落啊。
現(xiàn)在在另外一個(gè)項(xiàng)目組,看到的是4,500張表結(jié)構(gòu),基本上每張表都寫了個(gè)管理類,來封裝一些方法吧。看著感覺是很幼稚啊,感覺象在填充代碼而已,光這些都能折騰幾W行。才覺得當(dāng)年的持久層如果還在的話是一件多么美好的事情。
總結(jié)最終失敗的原因不外乎兩點(diǎn):
(1)性能太差,既然用了C++肯定就喜歡獲得好的性能;
(2)面向?qū)ο蟛簧钊肴诵模驮圏c(diǎn)項(xiàng)目而言,別人能畫ER圖,但卻不能畫類圖去設(shè)計(jì),說是說OQL的方式符合人的思考習(xí)慣,但SQL多少年了習(xí)慣的人更多。
面向?qū)ο蟮臄?shù)據(jù)庫已經(jīng)提出好些年,但理論還是不如關(guān)系數(shù)據(jù)庫成熟啊。禮拜天晚上發(fā)發(fā)牢騷,偶爾想起,緬懷一下我那失敗可憐的項(xiàng)目。
摘要: 閱讀全文
最近上班真的是一點(diǎn)事情也沒有,下班回到家也一樣,發(fā)現(xiàn)人太閑了也很難受,于是就有了寫個(gè)加密軟件的沖動(dòng),主要想做成winrar的樣子,但突出加密和可編輯,沒有壓縮功能。準(zhǔn)備剩下的三個(gè)月完成第一個(gè)版本的開發(fā),好興奮,一定要完成。。。
今天完成了0.01版,真是粗糙啊,有興趣的同僚們破解下看看。。
/Files/merlinfang/encrypt_0.01.rar
加密后成為了"*.era"文件,但原文件目前沒有刪除,怕破壞了大家的文件。
=================================================
一個(gè)新的版本,使用AES加密的了.
/Files/merlinfang/encrypt_0.02.rar
不過離真正完成還差很遠(yuǎn).
界面上的差距:
修改密碼功能
完成進(jìn)度條
界面根據(jù)實(shí)際情況灰化
規(guī)劃程序目錄
摘要: 閱讀全文 摘要: 閱讀全文