??xml version="1.0" encoding="utf-8" standalone="yes"?>亚洲图片在区色,亚洲国产91,久久精品天堂http://www.shnenglu.com/inwind/category/528.htmlzh-cnSun, 25 May 2008 09:31:35 GMTSun, 25 May 2008 09:31:35 GMT60Google 招聘?1道题?/title><link>http://www.shnenglu.com/inwind/articles/1597.html</link><dc:creator>inwind</dc:creator><author>inwind</author><pubDate>Wed, 07 Dec 2005 05:41:00 GMT</pubDate><guid>http://www.shnenglu.com/inwind/articles/1597.html</guid><wfw:comment>http://www.shnenglu.com/inwind/comments/1597.html</wfw:comment><comments>http://www.shnenglu.com/inwind/articles/1597.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://www.shnenglu.com/inwind/comments/commentRss/1597.html</wfw:commentRss><trackback:ping>http://www.shnenglu.com/inwind/services/trackbacks/1597.html</trackback:ping><description><![CDATA[<P>q没看,什么时候看?jin),再写下答案?/P><A id=more></A> <P>1. Solve this cryptic equation, realizing of <BR>course that values for M and E could be <BR>interchanged. No leading zeros are allowed. <BR><BR>WWWDOT - GOOGLE = DOTCOM <BR><BR>2. Write a haiku describing possible methods <BR>for predicting search traffic seasonality. <BR><BR>3. <BR>1 <BR>1 1 <BR>2 1 <BR>1 2 1 1 <BR>1 1 1 2 2 1 <BR><BR>What is the next line? <BR><BR>4. You are in a maze of twisty little passages, <BR>all alike. There is a dusty laptop here with a <BR>weak wireless connection. There are dull, <BR>lifeless gnomes strolling about. What dost <BR>thou do? <BR><BR>A) Wander aimlessly, bumping into <BR>obstacles until you are eaten by a grue. <BR>until you are eaten by a grue. <BR>B) Use the laptop as a digging device to <BR>tunnel to the next level. <BR>C) Play MPoRPG until the battery dies <BR>along with your hopes. <BR>D) Use the computer to map the nodes <BR>of the maze and discover an exit path. <BR>E) Email your resume to Google, tell the <BR>lead gnome you quit and find yourself <BR>in whole different world. <BR><BR><BR>5. What's broken with Unix? <BR>How would you fix it? <BR><BR>6. On your first day at Google, you discover <BR>that your cubicle mate wrote the textbook <BR>you used as a primary resource in your first <BR>year of graduate school. Do you: <BR><BR>A) Fawn obsequiously and ask if you <BR>can have an autograph. <BR>B) Sit perfectly still and use only soft <BR>keystrokes to avoid disturbing her <BR>concentration. <BR>C) Leave her daily offerings of granola <BR>and English toffee from the food bins. <BR><BR>D) Quote your favorite formula from the <BR>textbook and explain how it's now <BR>your mantra. <BR>E) Show her how example 17b could <BR>have been solved with 34 fewer lines <BR>of code. <BR>7. Which of the following expresses Google?<BR>over-arching philosophy? <BR><BR>A) "I'm feeling lucky" <BR>B) "Don't be evil" <BR>C) "Oh, I already fixed that" <BR>D) "You should never be more than <BR>50 feet from food" <BR>E) All of the above <BR><BR>8. How many different ways can you color an <BR>icosahedron with one of three colors on <BR>each face? <BR><BR>What colors would you choose? <BR><BR>9. This space left intentionally blank. Please fill it <BR>with something that improves upon emptiness. <BR><BR>10.On an infinite, two-dimensional, rectangular <BR>lattice of 1-ohm resistors, what is the <BR>resistance between two nodes that are a <BR>knight's move away? <BR><BR>11.It's 2 PM on a sunny Sunday afternoon in the <BR>Bay Area. You're minutes from the Pacific <BR>Ocean, redwood forest hiking trails and world <BR>class cultural attractions. What do you do? <BR><BR>12.In your opinion, what is the most beautiful <BR>math equation ever derived? <BR><BR>13. Which of the following is NOT an actual <BR>interest group formed by Google employees? <BR><BR>A. Women's basketball <BR>B. Buffy fans <BR>C. Cricketeers <BR>D. Nobel winners <BR>E. Wine club <BR><BR>14.What will be the next great improvement in <BR>search technology? <BR><BR>15.What is the optimal size of a project team, <BR>above which additional members do not <BR>contribute productivity equivalent to the <BR>percentage increase in the staff size? <BR>A) 1 <BR>B) 3 <BR>C) 5 <BR>D) 11 <BR>E) 24 <BR><BR>16.Given a triangle ABC, how would you use only <BR>a compass and straight edge to find a point P <BR>such that triangles ABP, ACP and BCP have <BR>equal perimeters? (Assume that ABC is <BR>constructed so that a solution does exist.) <BR><BR>17.Consider a function which, for a given whole <BR>number n, returns the number of ones required <BR>when writing out all numbers between 0 and n. <BR>For example, f(13)=6. Notice that f(1)=1. What <BR>is the next largest n such that f(n)=n? <BR><BR>18.What's the coolest hack you've ever written? <BR><BR>19.'Tis known in refined company, that choosing <BR>K things out of N can be done in ways as <BR>many as choosing N minus K from N: I pick K, <BR>you the remaining. <BR><BR>Find though a cooler bijection, where you show <BR>a knack uncanny, of making your choices contain <BR>all K of mine. Oh, for pedantry: let K be no more <BR>than half N. <BR><BR>20.What number comes next in the sequence: <BR>10, 9, 60, 90, 70, 66,? <BR><BR>A)96 <BR>B) 1000000000000000000000000000000000 <BR>0000000000000000000000000000000000 <BR>000000000000000000000000000000000 <BR>C) Either of the above <BR>D) None of the above <BR><BR>21.In 29 words or fewer, describe what you <BR>would strive to accomplish if you worked <BR>at Google Labs. </P><img src ="http://www.shnenglu.com/inwind/aggbug/1597.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.shnenglu.com/inwind/" target="_blank">inwind</a> 2005-12-07 13:41 <a href="http://www.shnenglu.com/inwind/articles/1597.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item><item><title>Larbin 一U高效的搜烦(ch)引擎爬虫工具http://www.shnenglu.com/inwind/articles/1596.htmlinwindinwindWed, 07 Dec 2005 05:38:00 GMThttp://www.shnenglu.com/inwind/articles/1596.htmlhttp://www.shnenglu.com/inwind/comments/1596.htmlhttp://www.shnenglu.com/inwind/articles/1596.html#Feedback0http://www.shnenglu.com/inwind/comments/commentRss/1596.htmlhttp://www.shnenglu.com/inwind/services/trackbacks/1596.htmlhttp://larbin.sourceforge.net/index-eng.html
q是larbin的主,感情又是sourceforge上的开源项目啊?BR>开源就是好Q前辈们的代码,l验Q可以ؓ(f)后来者铺q道路,同时Q开源又是练手的最佳途径。这一D|间太忙了(jin)Q等IZ来,也要ȝ看sourceforg上面有没有合适的目Q参加参?BR>
Q]larbin的简?BR>larbin是一U开源的|络爬虫/|络蜘蛛Q由法国的年Mh Sébastien Ailleret独立开发。larbin目的是能够跟t页面的urlq行扩展的抓取,最后ؓ(f)搜烦(ch)引擎提供q泛的数据来源?/P>

Larbin只是一个爬虫,也就是说larbin只抓取网,至于如何parse的事情则q戯己完成。另外,如何存储到数据库以及(qing)建立索引的事?larbin也不提供?/P>

latbin最初的设计也是依据设计单但是高度可配置性的原则Q因此我们可以看刎ͼ一个简单的larbin的爬虫可以每天获取5Q0万的|页Q实在是非常高效?/P>

2] Larbin的性能特征
高效是我?larbin 的评仗?BR>今年四月份的时候我对larbin的性能做过一个测试,luliang.dhs.org是我自己常用的服务器QCPU ?GQ内?12Q其它的性能一般,因ؓ(f)是三q前购置的?/P>

我将我自q|页 六翼作ؓ(f)入口Q运行larbinq行Q层内的url的抓取?/P>

当时U录的一些数据:(x)
Internet IO: 500-700k/per second Q我惛_U我的网l下载的瓉?jin)吧Q?BR>CPU top: 5%-15%
disk consume: 1M/s Q基本上一个小时爬 3个G 的网c(din)差不多20万的面
url 解析: 200万-300万每时

3] larbin 的作?BR>很多人初?larbin 不知道从哪里下手Q那么我来简单介l一?larbin 的功能和实际应用?BR>1. larbin 获取单个、确定网站的所有联l,甚至可以镜像一个网站?BR>1. larbin 获取单个、确定网站的所有联l,甚至可以镜像一个网站?BR>2. larbin建立 url 列表,例如针对所有的|页q行 url retrive后,q行xml的联l的获取。或者是 mp3 ?BR>3. larbin 定制后可以作为搜索引擎的信息的来源(例如可以抓取下来的|页?000一l存攑֜一pd的目录结构里面)(j)?/P>

dQlarbin应当是一个被q大搜烦(ch)引擎爱好者应当引h意的一个品,虽然其功能逐渐?Nutch 所接受和替代,但是其在爬虫上的优美设计的确值得U道?

Posted at December 24, 2004 02:35 AM by Liang at 02



inwind 2005-12-07 13:38 发表评论
]]>
群效应Q搜索引擎暗规则之四 (zz)http://www.shnenglu.com/inwind/articles/1595.htmlinwindinwindWed, 07 Dec 2005 05:22:00 GMThttp://www.shnenglu.com/inwind/articles/1595.htmlhttp://www.shnenglu.com/inwind/comments/1595.htmlhttp://www.shnenglu.com/inwind/articles/1595.html#Feedback0http://www.shnenglu.com/inwind/comments/commentRss/1595.htmlhttp://www.shnenglu.com/inwind/services/trackbacks/1595.html“羊效应”是指管理学上一些企业的?jng)场行?f)的一U常见现象。例如一个羊(集体Q是一个很散ؕ的组l,qx(chng)大家在一L(fng)目地左冲x(chng)。如果一头羊发现?jin)一片肥沃的l草圎ͼq在那里吃到?jin)新鲜的青草Q后来的群׃(x)一哄而上Q争抢那里的青草Q全然不旁边虎视眈眈的|或者看不到其它q有更好的青草?

群效应的出C般在一个竞争非常激烈的行业上,而且q个行业上有一个领先者(领头)(j)占据?jin)主要的注意力,那么整个群׃?x)不断摹仿q个领头的一举一动,领头到哪里d草,其它的羊也去哪里淘金?/P>

搜烦(ch)引擎q个?jng)场上的竞争加剧的情况下Q搜索引擎的巨头之间对对手之间的动作非常的注意,一旦一个搜索引擎出现某一个新的功能,或者进入一个新的领域,众多的搜索引擎都?x)去试q个新的“水草地”是否真的肥,是否真得有利可图?/P>

在搜索引擎行业上Q?002q以来Google立?jin)领头羊的位|,因此q只的一举一动都成了(jin)大家摹仿的标本:(x)

1]
2003 Google 收购 blogger.com Q进入blog?jng)?BR>MSN 2004 q底发布 MSN Space q入blog?jng)?BR>Yahoo 2005 发布 Yahoo 360

2]
Google 收购 Picasa
Yahoo 收购 flickr

3]
Yahoo 拥有 Map
Google 发布 Map 服务

4]
几乎同时 Yahoo 推出 video search
Google 也立d布了(jin)video search

5]
2004 Google desksearch
2004 Msn Desksearch
2005 Baidu desksearch
2005 Yahoo Desksearch

6]
Gmail 提供 1 G 的空?BR>Yahoo 扩容
Msn 扩容?50M

7]
google ?adwords 赚了(jin)?BR>现在已经成ؓ(f)一U标准的模式

q样的例子D不胜据,q有例如API的公开{,那么群效应到底是好q是坏呢Q?/P>

正:(x)群效应是一U减研发和?jng)场调研的一U策略,现在被广泛的应用在各个行业上Q也叫做“Copy Strategy(复制原则)”。当一个公叔R过调研和开发而投攑ָ(jng)场的产品Q会(x)被对手轻易的复制而免d期的研发成本Q是加剧竞争的一个来源之一?/P>

反:(x)群效应更多带来的是盲目上马的项目和没有l过充分的市(jng)研而导致的模糊的前景,甚至?x)分散一个公司的_֊。正所谓,没有免费的午,把握好羊效应带来的利弊才能做成正确的决{,选择肥沃的草地?/P>

让我们随着群效应来预一下未来几个“必然”的事g吧:(x)

1] Google ?x)进入个人门?Personal Portal)
q个是跟?Msn Space ?Yahoo 360 后对blogger和现有的多种服务例如PicasaQgmail{整合在一P加强q方面的竞争?/P>

2] Msn ?x)?Desksearch 集成在新的OS里?现有的Windows的search不是Z搜烦(ch)引擎技术的Desksearch)

3] Baidu ?MSN 都会(x)推出cM Google Adsense |页相关q告的业务?/P>

4] Msn ?Yahoo ?x)提?音频和视频blog?/P>

怿q(sh)(x)有很多的事情?x)发生,群效应Q正是在培养q样一个趋同,却又Ȁ烈竞争的体?/P>

inwind 2005-12-07 13:22 发表评论
]]>
破窗理论Q搜索引擎暗规则之三 (zz)http://www.shnenglu.com/inwind/articles/1594.htmlinwindinwindWed, 07 Dec 2005 05:21:00 GMThttp://www.shnenglu.com/inwind/articles/1594.htmlhttp://www.shnenglu.com/inwind/comments/1594.htmlhttp://www.shnenglu.com/inwind/articles/1594.html#Feedback0http://www.shnenglu.com/inwind/comments/commentRss/1594.htmlhttp://www.shnenglu.com/inwind/services/trackbacks/1594.html首先解释一下什么是破窗理论Q?/P>

"破窗理论"体现的是l节对h的暗C效果,以及(qing)l节Ҏ(gu)体媄(jing)响的扩展?/P>

  国?j)理学家詹巴斗曾l做q一?偯R实验 "Q将两辆一模一L(fng)轿R分别攑֜一个环境很好的中阶C֌和环境比较脏q贫民区,l果发现贫民区的车很快被偯?jin),而另一辆几天后仍然完好无损Q如果将中阶C֌的那辆R的天H玻璃打_(d)几个时后,那辆车也被偷?jin)?/P>

  后来Q在此实验基上,国政治学家威尔逊和犯罪学家凯林提出?jin)有名?破窗理论"Q如果有人打坏了(jin)一栋徏{上的一块玻璃,又没有及(qing)时修好,别h可能受到某些暗C性的U容Q去打碎更多的玻璃?/P>

对于搜烦(ch)引擎来说Q前面chedong的例子已l非常明显,随着更多的h认识到搜索引擎可以获取更多的利益Q不法之徒当然回d试采用各U作弊手D进行扰乱正常的拍名和搜索结果,如果搜烦(ch)引擎不即时制止, q种情况׃(x)泛滥Q最好到严重的要影响到用户用的地步的时候再来处理也pȝ(ch)的多和面临更多的作弊者?BR>看这个搜索结?A >Google 里搜?天下无贼免费?sh)?jing)下蝲Q你完全可以惛_q样的结果是对Spam的一U变相的鼓励?/P>

破窗理论的推论就是注重细节,防微杜渐。一旦有W一个spam出现Q即时的制止Q那么后面的spam也许׃?x)那么轻易的L索引擎上试Q因为毕竟敢于做W一Q第一个打破窗P(j)的hq是数?/P>

看看Baidu和YahooQ在破窗上封늚比google快一些,因此基本上现在能够看到的spam基本上都来自google的结果?/P>

google adsense呢?我以前曾l写q几关?A >fraud click(点击ƺ骗)的文章,fraud click的破H随着googled把修斯顿的一家公司推上了(jin)法庭而I补好?jin)。可是另外一U更严峻的破H又出现?jin),直接危机到google adsense的存?sh)?x)q告内容作弊?/P>

我看到几乎一半的中国的小|站刊登google adsense的时候都在作弊,q种利用iframe 的嵌套的作弊Q然后调用另外的一Djs代码从而刊d与原文完全不相关的广告,例如房屋hQ信用卡甌{h(hun)D高的adsenseQ从我第一ơ注意到大约?个月前到现在已经泛滥成灾?/P>

破窗Q一个小的缺口,几滴渗漏的河_(d)也许?x)冲垮一个帝国?/P>

inwind 2005-12-07 13:21 发表评论
]]>
20 80 法则Q搜索引擎暗规则之二(zz)http://www.shnenglu.com/inwind/articles/1593.htmlinwindinwindWed, 07 Dec 2005 05:20:00 GMThttp://www.shnenglu.com/inwind/articles/1593.htmlhttp://www.shnenglu.com/inwind/comments/1593.htmlhttp://www.shnenglu.com/inwind/articles/1593.html#Feedback0http://www.shnenglu.com/inwind/comments/commentRss/1593.htmlhttp://www.shnenglu.com/inwind/services/trackbacks/1593.html20/80法则也叫二八定律Q即巴莱多定律。巴莱多定律?9世纪?0世纪初意大利l济学家巴莱多发明的。他认ؓ(f)Q在M一l东西中Q最重要的只占其中一部分,U?0%Q其?0%管是多敎ͼ却是ơ要的,因此又称二八定律?/P>

在搜索引擎的设计上,可以说大多数的搜索引擎在搜烦(ch)l果上第一|80%的结果是相同的,不同的只?0%。可是正是这20% make different.

q?0%的差别也是不同搜索引擎之间的差距Q能够完善这20%对一个搜索引擎来说是臛_重要的?/P>

在另外一斚wQ对于一个搜索引擎的完善Q例如你可以?0%的努力做?0%的效果,而要x(chng)高剩下的20%的效果也许要耗费80%的精力?/P>

一个简单的例子Q一个搜索引擎现在还比较初Q也许分词和搜烦(ch)相关的准率?0Q左叻I惌q一步提高,也许要调?0Q?0个参敎ͼ调整很多斚w的因子,考虑很多的算法,׃(jin)极大的精力后发现只提高(sh)(jin)一点,再调_(d)如此三番Q也许很久一D|间后发现?0Q了(jin)Q这?0Q就是大的突_(d)但是要花ȝ努力要比?Q到80Q大的多的多?/P>

搜烦(ch)引擎各项参数的差距也许只有几个百分点Q可是这几个癑ֈ点就是真正的差别Q就真得创造了(jin)胜者和p|者?/P>

从搜索的斚w看,20 80 法则有另外的意义Q?0%的搜索集中在20%的少量关键词上,也就是说?0%的搜索词汇占?0Q的M搜烦(ch)量。搜索的词频可以通过搜烦(ch)引擎的每天的l计得到Q在某一些特D的情况Q这些分布可以用来对搜烦(ch)引擎q行非常好的矫正工作?/P>

inwind 2005-12-07 13:20 发表评论
]]>
马太效应Q搜索引擎暗规则之一(zz)http://www.shnenglu.com/inwind/articles/1592.htmlinwindinwindWed, 07 Dec 2005 05:19:00 GMThttp://www.shnenglu.com/inwind/articles/1592.htmlhttp://www.shnenglu.com/inwind/comments/1592.htmlhttp://www.shnenglu.com/inwind/articles/1592.html#Feedback0http://www.shnenglu.com/inwind/comments/commentRss/1592.htmlhttp://www.shnenglu.com/inwind/services/trackbacks/1592.html搜烦(ch)引擎暗规则序

中国人有句古话叫做:(x)“学以至用”。若q年我一直对q句话封为神灵,因ؓ(f)只用致用才能看到学的效果Q了(jin)解到学的不Qn受到学的快乐?/P>

搜烦(ch)引擎在过Mq的发展q没有大H破Q但是却逐步走向成熟Q走向商业。正是这两年的时_(d)部分的业余时间都用来做一些开发和研究Q当我逐渐?jin)解的更多的时候,也是我结束单枪披马的时候。未来的兴趣也许?x){向分cL术,因此希望能够用这个系列ؓ(f)q段成长岁月化上句号?/P>

所谓暗规则Q其实就是一些生zM非常昄的规则,只不q在搜烦(ch)引擎q个领域表现的不是那么的H出Q之所以不够突出,原因最主要的是因ؓ(f)搜烦(ch)引擎q在发展Q市(jng)在进一步加剧竞争,q些暗规则或多或已l在反映在现在的搜烦(ch)引擎上了(jin)。相信有一天,q些规则?x)被看到的更清晰Q更深入?/P>


搜烦(ch)引擎暗规则之一

《新U•马太福韟뀋中有这样一个故事,一个国王远行前Q交l三个仆人每Z锭银子,吩咐他们Q?你们d生意Q等我回来时Q再来见我?国王回来ӞW一个仆Q?MhQ你交给我们的一锭银子,我已赚了(jin)10锭?于是国王奖励?0座城邑。第二个仆h报告_(d)(x)"MhQ你l我的一锭银子,我已赚了(jin)5锭?"于是国王例奖׃(jin)?座城邑。第三个仆h报告_(d)(x)"MhQ你l我的一锭银子,我一直包在手N存着Q我怕丢失,一直没有拿出来?于是国王命o(h)第三个仆h的一锭银子也赏给W一个仆人,q且_(d)(x)"凡是的Q就q他所有的也要来。凡是多的,q要l他Q叫他多多益善?

q就是马太效应?/P>

单的_(d)是让富有者更加富有,让I(g)更加I?/P>

对于搜烦(ch)引擎来说Q马太效应是一条暗规则?0q的发展期过后,google,yahoo{已l成为市(jng)场的l对LQ利润的分n向与这些超大型的搜索引擎,而不是中型的搜索引擎?/P>

例如Q你可以制作一个搜索引擎,量是google?/1000(q个数目q不大,每天的独立IP是大U?万,PageView?0万,大约?,4?booso.com 的规模大不了(jin)多少?Q但是你拿到的回报和q个搜烦(ch)引擎的h(hun)值绝Ҏ(gu)有google?/1000(q个大约?000万美金,或?亿h民币)?/P>

马太效应q能反应在市(jng)场們֐于分化,們֐于得市(jng)场的份额集中在一两个巨头的n上。因为市(jng)场对领头的投入?x)拿到比例更高的回报Q因此广告/合作{的Z(x)也会(x)遵从马太效应Q成为领头羊的东风?/P>

马太效应q表现在当搜索引擎成为领头羊的时候,能够聚合更多的资金h力扩展这个优势,例如启动一pd的其它的业务Mp3,Pic search,Vedio{,巩固和扩大优ѝ?/P>

那么对于中小型的搜烦(ch)引擎而言Qh(hun)值在哪里呢?

?jng)场是?hu)L(fng)Q可以预a现在大多数的中小型搜索引擎从l济的角度讲都要灭亡Q能够保留下来的一定不?x)是单纯的搜索引擎,也许是被某一个网站收购成为其附加|也许转向做企业内部搜索等现在?jng)场q没有显著分化的领域?/P>

inwind 2005-12-07 13:19 发表评论
]]>
Google的启C?/title><link>http://www.shnenglu.com/inwind/articles/1591.html</link><dc:creator>inwind</dc:creator><author>inwind</author><pubDate>Wed, 07 Dec 2005 05:16:00 GMT</pubDate><guid>http://www.shnenglu.com/inwind/articles/1591.html</guid><wfw:comment>http://www.shnenglu.com/inwind/comments/1591.html</wfw:comment><comments>http://www.shnenglu.com/inwind/articles/1591.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://www.shnenglu.com/inwind/comments/commentRss/1591.html</wfw:commentRss><trackback:ping>http://www.shnenglu.com/inwind/services/trackbacks/1591.html</trackback:ping><description><![CDATA[<p>google file system q篇文章我也看了(jin)Q作者的1Q?Q?点当旉注意C(jin)Q可惜没有及(qing)时的更新记录Q呵呵,q里把这位作者的留下来了(jin)Q)(j)<br></p><p><br></p><p>=======================================================================================<br></p><p>最q在对现有的搜烦(ch)引擎q行分布式的改进, 回顾以前阅读q的 google file system 的文章时发现google的思维和我们^时固守的思维很不一? 可以说很多在我们看来是有一?偏激"?可是正是׃q些偏激, 才导致google与其跟随者的不同.</p> <p>以下为几个例?</p> <p>1. google认ؓ(f), 所有的g都是Ҏ(gu)产生故障? 因此google认ؓ(f)故障是必然的, 不生故障才是偶然现? q个x(chng)和我们通常的意识是相反?</p> <p>2. Google认ؓ(f), 一旦写? 再也不删除和修改. q点上google认ؓ(f)修改和删除会(x)对系l造成潜在的伤? 例如文g的不q箋(hu)? 文g定位的困?.</p> <p>3. GoogleLinux?file system的block更改?64M , 也就是说, 写文件的最单元是64M, 而不是我们通常?12字节, 两者整整相差了(jin)128000?</p> <p>4. Google认ؓ(f)修复是没有必要的, 当一个服务器出现问题的时? 撤下? 换上另外一?google unit(google 单元)卛_, 因ؓ(f)l修的成本远q大于直接上U一个全新的服务单元的成? 说来Ҏ(gu), 其实只有当googlel构真正实现高冗余和分布式这L(fng)操作才可? 而这些正是google的核?</p> <p>当我们设计一个系l的时? 我们最单的做法通常是会(x)Ҏ(gu)需求对已有的一些经验进行匹? q个q程中我们通常走的是近?而且我们的经验常怼(x)束缚(x)我们的想? 没有抛开l验q行全新的分析和设计, 也自然就难以有所创新.<br></p><img src ="http://www.shnenglu.com/inwind/aggbug/1591.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.shnenglu.com/inwind/" target="_blank">inwind</a> 2005-12-07 13:16 <a href="http://www.shnenglu.com/inwind/articles/1591.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item><item><title>搜烦(ch)引擎的缓存机制zzhttp://www.shnenglu.com/inwind/articles/1590.htmlinwindinwindWed, 07 Dec 2005 05:14:00 GMThttp://www.shnenglu.com/inwind/articles/1590.htmlhttp://www.shnenglu.com/inwind/comments/1590.htmlhttp://www.shnenglu.com/inwind/articles/1590.html#Feedback0http://www.shnenglu.com/inwind/comments/commentRss/1590.htmlhttp://www.shnenglu.com/inwind/services/trackbacks/1590.html以前曄提到q搜索引擎的~存{略, Ҏ(gu)搜烦(ch)引擎搜烦(ch)的关键词的统计分? 可以优化设计搜烦(ch)引擎的缓存策? 普通的~存{略上讲, ~存是因为在一定的旉D内的搜索的关键词集中在一定的范围? q且q些搜烦(ch)相对E_. 例如每天搜烦(ch)"女"的hL10?20? 而结果在q段旉相对E_, 因此没有必要每次L索烦(ch)引文? 而将上一个h搜烦(ch)的结果直接返回便可以?

搜烦(ch)引擎~存{略也同搜烦(ch)引擎的算法密切相q? 除了(jin)搜烦(ch)~存, 索引~存?sh)是一个好Ҏ(gu). 独立或者分布一些权重较高的文档也是一U提高效率的Ҏ(gu). 例如我们?000万的|页的权?可以单的理解为pagerank)比较? 那么q些|页的排序相比另外一些权重较低的|页相对较ؓ(f)E_, ׃妨独立出来进行相对独立的索引~存.

关于~存的分? 一般的型搜烦(ch)引擎不会(x)用到, 但是如果每天处理上亿ơ的搜烦(ch), ~存的分布就应当有一定的分布规划, 例如Ҏ(gu)提交的关键词构成hash table, 然后对应于不同的搜烦(ch)服务? 实现~存的分?

让我们看看实际例子吧, 我们拿百? google, yisou, 中搜, tag.bokee.com q行单的试:

因ؓ(f)试, 要搜索一些在q去7天没有h搜烦(ch)q的关键? 或者组合词. Z(jin)保证没有人搜索过, 我选择在各个搜索引擎里搜烦(ch)"a s d f v g h" , q是我在键盘?sh)随机打出的一些组? 怿q世界上?天没有h相同搜烦(ch), q样保证我的W一ơ的搜烦(ch)?fresh search, 是一定需要搜索引擎去(g)索烦(ch)引文? 而不是通过~存{略.

以下是结?
癑ֺ: 0.279U?BR>google: 0.24 U?BR>一? 0.24 U?
中搜: 0.001U?无结?!!!)
博客搜烦(ch): 0.041 U?/P>

下面是第二次搜烦(ch)的结?
癑ֺ: 0.001U?BR>google: 0.05 U?BR>一? 0.09 U?
中搜: 0.002U?无结?!!!)
博客搜烦(ch): 0.019 U?/P>

l过单的试, 可以看出~存机制只有在Baidu和google搜烦(ch)引擎里都? 但是各自效率不一? 如下是简单的比例:

癑ֺ: 100
google: 5
一? 没有明显的缓?BR>中搜: 没有明显的缓?BR>博客搜烦(ch): 没有明显的缓?/P>

而在~存效率上百度要q远大于google, q点大概是因为google的gfs本n的分布效率已l相当不? 因此q行~存?sh)不会(x)有数量U的提升.

而百? Ҏ(gu)?hu)试可能是集中方式的数据存? 但是Ҏ(gu)搜烦(ch)q行hash分布, 因此才会(x)在缓存(sh)有显著的提升. (q个属于猜测)

搜烦(ch)记录在以下位|?
http://www.wespoke.com/archives/download/se-buffer/baidu1.png
http://www.wespoke.com/archives/download/se-buffer/baidu2.png
http://www.wespoke.com/archives/download/se-buffer/google1.png
http://www.wespoke.com/archives/download/se-buffer/google2.png
http://www.wespoke.com/archives/download/se-buffer/tag1.png
http://www.wespoke.com/archives/download/se-buffer/tag2.png
http://www.wespoke.com/archives/download/se-buffer/yisou1.png
http://www.wespoke.com/archives/download/se-buffer/yisou2.png
http://www.wespoke.com/archives/download/se-buffer/zhongsou1.png
http://www.wespoke.com/archives/download/se-buffer/zhongsou2.png



inwind 2005-12-07 13:14 发表评论
]]>
Google|页加速器的工作原?/title><link>http://www.shnenglu.com/inwind/articles/1589.html</link><dc:creator>inwind</dc:creator><author>inwind</author><pubDate>Wed, 07 Dec 2005 05:10:00 GMT</pubDate><guid>http://www.shnenglu.com/inwind/articles/1589.html</guid><wfw:comment>http://www.shnenglu.com/inwind/comments/1589.html</wfw:comment><comments>http://www.shnenglu.com/inwind/articles/1589.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://www.shnenglu.com/inwind/comments/commentRss/1589.html</wfw:commentRss><trackback:ping>http://www.shnenglu.com/inwind/services/trackbacks/1589.html</trackback:ping><description><![CDATA[Google|页加速器的工作原理,其实很简单:(x)Proxy + ~存? <P>1. 本地化的Proxy + ~存<BR>当运行了(jin) google 的网加速器Q本Z(x)启动一个httpd的服务,端口?100 :<BR>http://127.0.0.1:9100<BR>q个服务实际上是一个本地化的Proxy+~存Q就是所有的 http 的请求都是通过q里走的。那么ؓ(f)什么能够加速呢Q?/P> <P>~存。当你第一ơ访问一个网늚时候,相当多的囄Q静(rn)态文字全部的存储下来Q然后当你再ơ访问的时候,q接从~存里调出来Q因此大大加快了(jin)讉K速度?/P> <P>我这里做?jin)一个有的试验Q?/P> <P>讉K我自qblog一个日?http://blog.wespoke.com/archives/000907.html)的日志记录:(x)</P> <P>adsl-69-154-77-102.dsl.rcsntx.swbell.net - - [09/May/2005:12:34:38<BR>+0800] "GET /archives/000907.html HTTP/1.1" 304 -</P> <P>hq个|页QApache的记录仍然是 304。表明没有传输内容,紧紧验证?BR>expired的信息?/P> <P>touch archives/000907.html (改变q个文档的时间标?<BR>再次hQ这ơ不一样了(jin)Q?BR>adsl-69-154-77-102.dsl.rcsntx.swbell.net - - [09/May/2005:12:35:28<BR>+0800] "GET /archives/000907.html HTTP/1.1" 200 10319</P> <P>q次是返回了(jin)200Qƈ传输?0319个字节?/P> <P>q个是工作的原理,在第一U的情况下,节省?0319个字节的传输?/P> <P>当然Q这也是所有的~存proxy的设计原则?/P> <P>2. Google 的缓存+路由<BR>当我发现我访问的日志上记录的IP和我本地的IP不一L(fng)时候,看来Google 自己也还是有~存服务器的Q就是说当我们请求一个网|Q如果联接非常的慢,google?x)让q个h通过google的缓存服务器Q同时改变\由。这是Z么看到的IP不是自己机器的IP?jin)?/P> <P>由此看来QGoogle的网l加速器实际上是一个个人的型Proxy~存服务器+Google帝国的一个格点状的Proxy~存服务器系l构成ƈ有效的来理q些~存Qƈ非什么特别的技术,而是大家忽视了(jin)多年的一些基本的概念从新应用?jin)v来?/P> <P>3. 看看q里更加明白一些:(x)<A ><FONT color=#6f75ab>http://race.google/http://www.wespoke.com</FONT></A>Q注意,必须启动?jin)加速器后才能连接,因ؓ(f)google Web Accelerator讲这个域名解释ؓ(f)本机q用Iframe昄。?zhn)可以http://www.wespoke.com替换成?zhn)惌到达的网,看看有没有加速?</P> <P>关于加速的原理Q你应该?jin)解expired模块?/P> <P>http://httpd.apache.org/docs/mod/mod_expires.html</P><img src ="http://www.shnenglu.com/inwind/aggbug/1589.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.shnenglu.com/inwind/" target="_blank">inwind</a> 2005-12-07 13:10 <a href="http://www.shnenglu.com/inwind/articles/1589.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item><item><title>集中/分布式搜索引擎的4U设计方案zzhttp://www.shnenglu.com/inwind/articles/1588.htmlinwindinwindWed, 07 Dec 2005 05:07:00 GMThttp://www.shnenglu.com/inwind/articles/1588.htmlhttp://www.shnenglu.com/inwind/comments/1588.htmlhttp://www.shnenglu.com/inwind/articles/1588.html#Feedback0http://www.shnenglu.com/inwind/comments/commentRss/1588.htmlhttp://www.shnenglu.com/inwind/services/trackbacks/1588.html对于搜烦(ch)引擎, 在烦(ch)引量和搜索量大到一定程度的时? 索引更新的效率会(x)逐渐降低, 服务器的压力逐渐升高, 因此基本上整个搜索引擎的利用率可以说是越来越低了(jin), q且随着量数据存储带来的困? 设计一个良好的分布式搜索引擎将是一个搜索引擎能否面相未来发展的关键因素?

那么分布式搜索引擎的最主要的核?j)问题是哪些?

1. 分布的信息获取和计算以及(qing)Ҏ(gu)q行的数据统一
q里面包括爬?或者相应的数据获取机制的分? 对信息进行加工的l一理

2. 数据处理后的分布存储和管?BR>主要是文件的准确定位和更?增加,删除,Ud的机?/P>

3. 前端搜烦(ch)服务的分?BR>主要处理大规模ƈ发请求时的分发机?/P>

Z以上3个基本需? 基本上可以构造如?cȝ分布式搜索引?
1. 分布式元搜烦(ch)引擎
2. 散列分布搜烦(ch)引擎
3. P2P 分布搜烦(ch)引擎
4. 局部遍历型搜烦(ch)引擎

下面逐步介绍以上4cd扩展的搜索引?
1. 分布式元搜烦(ch):
拥有多个单个的搜索引? 中心(j)搜烦(ch)引擎是利用这些分布的单个的搜索引擎的l果q行撮合得到完整的结?
q样的设计方案要求各个单元的搜烦(ch)引擎拥有相同的排序算法和基本相同的数据输出结构,以便׃?j)搜索进行整理?BR>对于q类的搜索引擎,关键的设计是要求每一个单元所拥有的烦(ch)引不构成重复Q但是进行数据的采集Q爬虫)(j)时可以采取独立的pȝ获取后再按照规则分布到各个单元上?BR>优点Q设计简单,快速,q且M一个单元可以随时的摘掉但ƈ不媄(jing)响太大?BR>~点Q对于大规模的ƈ发ƈ非好的解军_?/P>

Q.散列分布搜烦(ch)引擎
Ҏ(gu)Query对烦(ch)引服务器和文档服务器q行散列Q做到对于Q何的索引词能够准的定位到具体的索引服务器ƈ从而定位到正确的文档服务器?/P>

优点Q抗压,设计?BR>~点Q对于单个烦(ch)引服务器或者文档服务器的容量等动态的调整较困?/P>

Q.Peer 2 peer 搜烦(ch)引擎
著名的Napster是q样的一U设计,利用集中方式的烦(ch)引,配合分布于世界各地的单个的计机形成的文件源Q构成了(jin)世界上最庞大的p2p搜烦(ch)引擎之一?BR>q种设计里的中心(j)索引服务器只记录一些相对关键的信息Q例如位|(IPQ序列号Q,歌曲的名字,作者等Q其它的信息一概可以从M在线q且拥有本条全面信息的计机上获取。同时p2p也可以根据搜索徏立一些中间\q~存Q即一些搜索结果存在单个或者相q的节点上,加快搜烦(ch)速度?/P>

优点Q可以超U大Q基本上不需要有l护成本
~点Q中?j)服务器的更新效率很低,信息源不E_

4. 局部遍历型搜烦(ch)引擎
q类的搜索引擎又可以采用多种设计Ҏ(gu)Q其中比较可行的是对信息q行聚类后徏立信息树(wi)Q搜索时只需要从?wi)的一个分支下去遍历便可以?jin)。局部遍历应当有一定的规则Qƈ且在设计初期需要对每一个加入的索引q行相对准确的位|安排,使得攄在合适的节点上,以保证搜索的效率?/P>

优点Q容易解x(chng)压,搜烦(ch)_ֺ高,搜烦(ch)效率?BR>~点Q设计复杂,调整索引所在节点的位置不易

M来说Q搜索引擎的设计Ҏ(gu)可以很多Q这里只是抛砖引玉,怿未来?x)有更多的y妙的设计Ҏ(gu)出现?/P>

inwind 2005-12-07 13:07 发表评论
]]>
þۺϾþԾ99ëƬ| aѹۿþav| ھƷ˾þþþavһ | ŷձþþƷ| ɫþþþۺ| þþŮ붯ȺëƬ| ھƷ99þ| ݺɫþۺ| 鶹˾þþƷ| ձƷþ| ŷ츾BBBþþ| Ʒþ| þþƷ| Ʒþþþ| þ99Ʒþþþþ | 99þùۺϾƷ| 99þùۺϾƷˮ| ŷ޷avþò| Ʒþ߹ۿ| ѾƷպȾþ| ҹƷþþþþ| ҹƷþ| avҹһƬѿþ| þþþþþ91Ʒѹۿ| þ99Ʒþþþþ| ɫۺϾþ| ĻƷѾþ| þþƷ| 츾þþ| þ޾Ʒa| 99þó18վ| ƷþþþþӰԺ | 91Ʒ91þþþþ| þֻоƷҳ| þþþƷ| þþþþavѿƬ| ҹƵþþþһ| պþëƬ| þü¶| Ӱһþҹײ | aѹۿþav|