欧美激情亚洲激情,国产综合网站,欧美日韩国产色站一区二区三区

inwind — Wed, 07 Dec 2005 05:41:00 GMT

�q�没看，什么时候看�?ji��n)，再写下答案�?/P>

1. Solve this cryptic equation, realizing of
course that values for M and E could be
interchanged. No leading zeros are allowed.

WWWDOT - GOOGLE = DOTCOM

2. Write a haiku describing possible methods
for predicting search traffic seasonality.

3.
1
1 1
2 1
1 2 1 1
1 1 1 2 2 1

What is the next line?

4. You are in a maze of twisty little passages,
all alike. There is a dusty laptop here with a
weak wireless connection. There are dull,
lifeless gnomes strolling about. What dost
thou do?

A) Wander aimlessly, bumping into
obstacles until you are eaten by a grue.
until you are eaten by a grue.
B) Use the laptop as a digging device to
tunnel to the next level.
C) Play MPoRPG until the battery dies
along with your hopes.
D) Use the computer to map the nodes
of the maze and discover an exit path.
E) Email your resume to Google, tell the
lead gnome you quit and find yourself
in whole different world.

5. What's broken with Unix?
How would you fix it?

6. On your first day at Google, you discover
that your cubicle mate wrote the textbook
you used as a primary resource in your first
year of graduate school. Do you:

A) Fawn obsequiously and ask if you
can have an autograph.
B) Sit perfectly still and use only soft
keystrokes to avoid disturbing her
concentration.
C) Leave her daily offerings of granola
and English toffee from the food bins.

D) Quote your favorite formula from the
textbook and explain how it's now
your mantra.
E) Show her how example 17b could
have been solved with 34 fewer lines
of code.
7. Which of the following expresses Google�?
over-arching philosophy?

A) "I'm feeling lucky"
B) "Don't be evil"
C) "Oh, I already fixed that"
D) "You should never be more than
50 feet from food"
E) All of the above

8. How many different ways can you color an
icosahedron with one of three colors on
each face?

What colors would you choose?

9. This space left intentionally blank. Please fill it
with something that improves upon emptiness.

10.On an infinite, two-dimensional, rectangular
lattice of 1-ohm resistors, what is the
resistance between two nodes that are a
knight's move away?

11.It's 2 PM on a sunny Sunday afternoon in the
Bay Area. You're minutes from the Pacific
Ocean, redwood forest hiking trails and world
class cultural attractions. What do you do?

12.In your opinion, what is the most beautiful
math equation ever derived?

13. Which of the following is NOT an actual
interest group formed by Google employees?

A. Women's basketball
B. Buffy fans
C. Cricketeers
D. Nobel winners
E. Wine club

14.What will be the next great improvement in
search technology?

15.What is the optimal size of a project team,
above which additional members do not
contribute productivity equivalent to the
percentage increase in the staff size?
A) 1
B) 3
C) 5
D) 11
E) 24

16.Given a triangle ABC, how would you use only
a compass and straight edge to find a point P
such that triangles ABP, ACP and BCP have
equal perimeters? (Assume that ABC is
constructed so that a solution does exist.)

17.Consider a function which, for a given whole
number n, returns the number of ones required
when writing out all numbers between 0 and n.
For example, f(13)=6. Notice that f(1)=1. What
is the next largest n such that f(n)=n?

18.What's the coolest hack you've ever written?

19.'Tis known in refined company, that choosing
K things out of N can be done in ways as
many as choosing N minus K from N: I pick K,
you the remaining.

Find though a cooler bijection, where you show
a knack uncanny, of making your choices contain
all K of mine. Oh, for pedantry: let K be no more
than half N.

20.What number comes next in the sequence:
10, 9, 60, 90, 70, 66,?

A)96
B) 1000000000000000000000000000000000
0000000000000000000000000000000000
000000000000000000000000000000000
C) Either of the above
D) None of the above

21.In 29 words or fewer, describe what you
would strive to accomplish if you worked
at Google Labs.

inwind 2005-12-07 13:41 发表评论

Larbin 一�U�高效的搜烦(ch��)引擎爬虫工具

inwind — Wed, 07 Dec 2005 05:38:00 GMT

http://larbin.sourceforge.net/index-eng.html
�q�是larbin的主��，感情又是sourceforge上的开源项目啊�?BR>开源就是好�Q�前辈们的代码，�l�验�Q�可以�ؓ(f��)后来者铺�q�道路，同时�Q�开源又是练手的最佳途径。这一�D�|��间太忙了(ji��n)�Q�等�I�Z��来，也要�ȝ��看sourceforg上面有没有合适的��目�Q�参加参�?BR>
�Q�］larbin的简�?BR>larbin是一�U�开源的�|�络爬虫/�|�络蜘蛛�Q�由法国的年��M�h Sébastien Ailleret独立开发。larbin目的是能够跟�t�页面的url�q�行扩展的抓取，最后�ؓ(f��)搜烦(ch��)引擎提供�q�泛的数据来源�?/P>

Larbin只是一个爬虫，也就是说larbin只抓取网��，至于如何parse的事情则��q��戯��己完成。另外，如何存储到数据库以及(qi��ng)建立索引的事�?larbin也不提供�?/P>

latbin最初的设计也是依据设计��单但是高度可配置性的原则�Q�因此我们可以看刎ͼ�一个简单的larbin的爬虫可以每天获取５�Q�０万的�|�页�Q�实在是非常高效�?/P>

2] Larbin的性能特征
高效是我�?larbin 的评仗��?BR>今年四月份的时候我对larbin的性能做过一个测试，luliang.dhs.org是我自己常用的服务器�Q�CPU �?G�Q�内�?12�Q�其它的性能一般，因�ؓ(f��)是三�q�前购置的�?/P>

我将我自��q��|�页六翼作�ؓ(f��)入口�Q�运行larbin�q�行�Q�层内的url的抓取�?/P>

当时�U�录的一些数据：(x��)
Internet IO: 500-700k/per second �Q�我惛_��U�我的网�l�下载的瓉��?ji��n)吧�Q?BR>CPU top: 5%-15%
disk consume: 1M/s �Q�基本上一个小时爬 3个G 的网��c(di��n)��差不多20万的��面
url 解析: 200万－300万每��时

3] larbin 的作�?BR>很多人初�?larbin 不知道从哪里下手�Q�那么我来简单介�l�一�?larbin 的功能和实际应用�?BR>1. larbin 获取单个、确定网站的所有联�l�，甚至可以镜像一个网站�?BR>1. larbin 获取单个、确定网站的所有联�l�，甚至可以镜像一个网站�?BR>2. larbin建立 url 列表��，例如针对所有的�|�页�q�行 url retrive后，�q�行xml的联�l�的获取。或者是 mp3 �?BR>3. larbin 定制后可以作为搜索引擎的信息的来源（例如可以��抓取下来的�|�页�?000一�l�存攑֜�一�p�d��的目录结构里面）(j��)�?/P>

��d��Q�larbin应当是一个被�q�大搜烦(ch��)引擎爱好者应当引��h��意的一个��品，虽然其功能逐渐�?Nutch 所接受和替代，但是其在爬虫上的优美设计的确值得�U�道�?

Posted at December 24, 2004 02:35 AM by Liang at 02

inwind 2005-12-07 13:38 发表评论

��群效应�Q�搜索引擎暗规则之四 (zz)

inwind — Wed, 07 Dec 2005 05:22:00 GMT

“羊��效应”是指管理学上一些企业的�?j��ng)场行��?f��)的一�U�常见现象。例如一个羊��（集体�Q�是一个很散�ؕ的组�l�，�q�x(ch��ng)��大家在一��L(f��ng)��目地左冲��x(ch��ng)��。如果一头羊发现�?ji��n)一片肥沃的�l�草圎ͼ��q�在那里吃到�?ji��n)新鲜的青草�Q�后来的��群��׃��(x��)一哄而上�Q�争抢那里的青草�Q�全然不��旁边虎视眈眈的��|��或者看不到其它�q�有更好的青草�?

��群效应的出��C��般在一个竞争非常激烈的行业上，而且�q�个行业上有一个领先者（领头��）(j��)占据�?ji��n)主要的注意力，那么整个��群��׃�?x��)不断摹仿�q�个领头��的一举一动，领头��到哪里��d��草，其它的羊也去哪里淘金�?/P>

搜烦(ch��)引擎�q�个�?j��ng)场上的竞争加剧的情况下�Q�搜索引擎的巨头之间对对手之间的动作非常的注意，一旦一个搜索引擎出现某一个新的功能，或者进入一个新的领域，众多的搜索引擎都�?x��)去��试�q�个新的“水草地”是否真的肥��，是否真得有利可图�?/P>

在搜索引擎行业上�Q?002�q�以来Google��立�?ji��n)领头羊的位�|�，因此�q�只��的一举一动都成了(ji��n)大家摹仿的标本：(x��)

1]
2003 Google 收购 blogger.com �Q�进入blog�?j��ng)�?BR>MSN 2004 �q�底发布 MSN Space �q�入blog�?j��ng)�?BR>Yahoo 2005 发布 Yahoo 360

2]
Google 收购 Picasa
Yahoo 收购 flickr

3]
Yahoo 拥有 Map
Google 发布 Map 服务

4]
几乎同时 Yahoo 推出 video search
Google 也立��d��布了(ji��n)video search

5]
2004 Google desksearch
2004 Msn Desksearch
2005 Baidu desksearch
2005 Yahoo Desksearch

6]
Gmail 提供 1 G 的空�?BR>Yahoo 扩容
Msn 扩容�?50M

7]
google �?adwords 赚了(ji��n)�?BR>现在已经成�ؓ(f��)一�U�标准的模式

�q�样的例子�D不胜据，�q�有例如API的公开�{�，那么��群效应到底是好�q�是坏呢�Q?/P>

正：(x��)��群效应是一�U�减��研发和�?j��ng)场调研的一�U�策略，现在被广泛的应用在各个行业上�Q�也叫做“Copy Strategy(复制原则)”。当一个公叔R��过调研和开发而投攑ָ�(j��ng)场的产品�Q�会(x��)被对手轻易的复制而免��d��期的研发成本�Q�是加剧竞争的一个来源之一�?/P>

反：(x��)��群效应更多带来的是盲目上马的项目和没有�l�过充分的市(j��ng)��研而导致的模糊的前景，甚至�?x��)分散一个公司的�_�֊�。正所谓，没有免费的午��，把握好羊��效应带来的利弊才能做成正确的决�{�，选择肥沃的草地�?/P>

让我们随着��群效应来预��一下未来几个“必然”的事�g吧：(x��)

1] Google �?x��)进入个人门�?Personal Portal)
�q�个是跟�?Msn Space �?Yahoo 360 后对blogger和现有的多种服务例如Picasa�Q�gmail�{�整合在一��P��加强�q�方面的竞争�?/P>

2] Msn �?x��)�?Desksearch 集成在新的OS里�?现有的Windows的search不是��Z��搜烦(ch��)引擎技术的Desksearch)

3] Baidu �?MSN 都会(x��)推出�c�M�� Google Adsense �|�页相关�q�告的业务�?/P>

4] Msn �?Yahoo �?x��)提�?音频和视频blog�?/P>

�怿��q��(sh��)��(x��)有很多的事情�?x��)发生，��群效应�Q�正是在培养�q�样一个趋同，却又�Ȁ烈竞争的��体�?/P>

inwind 2005-12-07 13:22 发表评论

破窗理论�Q�搜索引擎暗规则之三 (zz)

inwind — Wed, 07 Dec 2005 05:21:00 GMT

首先解释一下什么是破窗理论�Q?/P>

"破窗理论"体现的是�l�节对�h的暗�C�效果，以及(qi��ng)�l�节�Ҏ(gu��)��体媄(ji��ng)响的扩展�?/P>

　　��国�?j��)理学家詹巴斗曾�l�做�q�一�?偯��R实验 "�Q�将两辆一模一��L(f��ng)��轿�R分别攑֜�一个环境很好的中��阶��C�֌�和环境比较脏��q��贫民区，�l�果发现贫民区的车很快被偯��?ji��n)，而另一辆几天后仍然完好无损�Q�如果将中��阶��C�֌�的那辆�R的天�H�玻璃打��_(d��)��几个��时后，那辆车也被偷�?ji��n)�?/P>

　　后来�Q�在此实验基��上，��国政治学家威尔逊和犯罪学家凯林提出�?ji��n)有名�?破窗理论"�Q�如果有人打坏了(ji��n)一栋徏�{�上的一块玻璃，又没有及(qi��ng)时修好，别�h��可能受到某些暗�C�性的�U�容�Q�去打碎更多的玻璃�?/P>

对于搜烦(ch��)引擎来说�Q�前面chedong的例子已�l�非常明显，随着更多的�h认识到搜索引擎可以获取更多的利益�Q�不法之徒当然回��d��试采用各�U�作弊手�D�进行扰乱正常的拍名和搜索结果，如果搜烦(ch��)引擎不即时制止， �q�种情况��׃��(x��)泛滥�Q�最好到严重的要影响到用户��用的地步的时候再来处理也��p��ȝ��(ch��)的多和面临更多的作弊者�?BR>看这个搜索结�?A >Google 里搜�?天下无贼免费�?sh��)�?ji��ng)下蝲�Q�你完全可以惛_��q�样的结果是对Spam的一�U�变相的鼓励�?/P>

破窗理论的推论就是注重细节，防微杜渐。一旦有�W�一个spam出现�Q�即时的制止�Q�那么后面的spam也许��׃��?x��)那么轻易的��L��索引擎上��试�Q�因为毕竟敢于做�W�一�Q�第一个打破窗��P��(j��)的�h�q�是��数�?/P>

看看Baidu和Yahoo�Q�在破窗上封�늚��比google快一些，因此基本上现在能够看到的spam基本上都来自google的结果�?/P>

google adsense呢？我以前曾�l�写�q�几��关�?A >fraud click(点击�ƺ骗)的文章，fraud click的破�H�随着google��d��把修斯顿的一家公司推上了(ji��n)法庭而��I补好�?ji��n)。可是另外一�U�更严峻的破�H�又出现�?ji��n)，直接危机到google adsense的存?sh��)��?x��)�q�告内容作弊�?/P>

我看到几乎一半的中国的小�|�站刊登google adsense的时候都在作弊，�q�种利用iframe 的嵌套的作弊�Q�然后调用另外的一�D�js代码从而刊��d��与原文完全不相关的广告，例如房屋��h��Q�信用卡甌��{��h(hu��n)��D��高的adsense�Q�从我第一�ơ注意到大约�?个月前到现在已经泛滥成灾�?/P>

破窗�Q�一个小的缺口，几滴渗漏的河��_(d��)��也许�?x��)冲垮一个帝国�?/P>

inwind 2005-12-07 13:21 发表评论

20 80 法则�Q�搜索引擎暗规则之二(zz)

inwind — Wed, 07 Dec 2005 05:20:00 GMT

20/80法则也叫二八定律�Q�即巴莱多定律。巴莱多定律�?9世纪�?0世纪初意大利�l�济学家巴莱多发明的。他认�ؓ(f��)�Q�在��M��一�l�东西中�Q�最重要的只占其中一��部分，�U?0%�Q�其�?0%��管是多敎ͼ�却是�ơ要的，因此又称二八定律�?/P>

在搜索引擎的设计上，可以说大多数的搜索引擎在搜烦(ch��)�l�果上第一��|��80%的结果是相同的，不同的只�?0%。可是正是这20% make different.

�q?0%的差别也是不同搜索引擎之间的差距�Q�能够完善这20%��对一个搜索引擎来说是臛_��重要的�?/P>

在另外一斚w��Q�对于一个搜索引擎的完善�Q�例如你可以�?0%的努力做�?0%的效果，而要��x(ch��ng)��高剩下的20%的效果也许要耗费80%的精力�?/P>

一个简单的例子�Q�一个搜索引擎现在还比较初��Q�也许分词和搜烦(ch��)相关的准��率�?0�Q�左叻I��惌��q�一步提高，也许要调�?0�Q?0个参敎ͼ�调整很多斚w��的因子，考虑很多的算法，�׃��(ji��n)极大的精力后发现只提高�(sh��)��(ji��n)一点，再调��_(d��)��如此三番�Q�也许很久一�D�|��间后发现�?0�Q�了(ji��n)�Q�这�?0�Q�就是大的突��_(d��)��但是要花�ȝ��努力要比�?�Q�到80�Q�大的多的多�?/P>

搜烦(ch��)引擎各项参数的差距也许只有几个百分点�Q�可是这几个癑ֈ�点就是真正的差别�Q�就真得创造了(ji��n)胜者和��p�|者�?/P>

从搜索的斚w��看，20 80 法则有另外的意义�Q?0%的搜索集中在20%的少量关键词上，也就是说�?0%的搜索词汇占�?0�Q�的��M��搜烦(ch��)��量。搜索的词频可以通过搜烦(ch��)引擎的每天的�l�计得到�Q�在某一些特�D�的情况�Q�这些分布可以用来对搜烦(ch��)引擎�q�行非常好的矫正工作�?/P>

inwind 2005-12-07 13:20 发表评论

马太效应�Q�搜索引擎暗规则之一(zz)

inwind — Wed, 07 Dec 2005 05:19:00 GMT

搜烦(ch��)引擎暗规则序

中国人有句古话叫做：(x��)“学以至用”。若�q�年我一直对�q�句话封为神灵，因�ؓ(f��)只用致用才能看到学的效果�Q�了(ji��n)解到学的不��Q��n受到学的快乐�?/P>

搜烦(ch��)引擎在过��M��q�的发展�q�没有大�H�破�Q�但是却逐步走向成熟�Q�走向商业。正是这两年的时��_(d��)��部分的业余时间都用来做一些开发和研究�Q�当我逐渐�?ji��n)解的更多的时候，也是我结束单枪披马的时候。未来的兴趣也许�?x��)�{向分�c�L��术，因此希望能够用这个系列�ؓ(f��)�q�段成长岁月化上句号�?/P>

所谓暗规则�Q�其实就是一些生�z�M��非常昄��的规则，只不�q�在搜烦(ch��)引擎�q�个领域表现的不是那么的�H�出�Q�之所以不够突出，原因最主要的是因�ؓ(f��)搜烦(ch��)引擎�q�在发展�Q�市(j��ng)��在进一步加剧竞争，�q�些暗规则或多或��已�l�在反映在现在的搜烦(ch��)引擎上了(ji��n)。相信有一天，�q�些规则�?x��)被看到的更清晰�Q�更深入�?/P>

搜烦(ch��)引擎暗规则之一

《新�U�•马太福韟뀋中有这样一个故事，一个国王远行前�Q�交�l�三个仆人每��Z��锭银子，吩咐他们�Q?你们��d��生意�Q�等我回来时�Q�再来见我�?国王回来�Ӟ��W�一个仆��Q?��M�h�Q�你交给我们的一锭银子，我已赚了(ji��n)10锭�?于是国王奖励�?0座城邑。第二个仆�h报告��_(d��)��(x��)"��M�h�Q�你�l�我的一锭银子，我已赚了(ji��n)5锭�?"于是国王例奖�׃��(ji��n)�?座城邑。第三个仆�h报告��_(d��)��(x��)"��M�h�Q�你�l�我的一锭银子，我一直包在手��N��存着�Q�我怕丢失，一直没有拿出来�?于是国王命��o(h��)��第三个仆�h的一锭银子也赏给�W�一个仆人，�q�且��_(d��)��(x��)"凡是��的�Q�就�q�他所有的也要��来。凡是多的，�q�要�l�他�Q�叫他多多益善�?

�q�就是马太效应�?/P>

��单的��_(d��)��是让富有者更加富有，让��I��(g��)�更加��I��?/P>

对于搜烦(ch��)引擎来说�Q�马太效应是一条暗规则�?0�q�的发展期过后，google,yahoo�{�已�l�成为市(j��ng)场的�l�对��L��Q�利润的分��n��向与这些超大型的搜索引擎，而不是中��型的搜索引擎�?/P>

例如�Q�你可以制作一个搜索引擎，��量是google�?/1000(�q�个数目�q�不大，每天的独立IP是大�U?万，PageView�?0万，大约�?,4�?booso.com 的规模大不了(ji��n)多少�?�Q�但是你拿到的回报和�q�个搜烦(ch��)引擎的�h(hu��n)值绝�Ҏ(gu��)��有google�?/1000(�q�个大约�?000万美金，或�?亿�h民币)�?/P>

马太效应�q�能反应在市(j��ng)场們֐�于分化，們֐�于��得市(j��ng)场的份额集中在一两个巨头的��n上。因为市(j��ng)场对领头��的投入�?x��)拿到比例更高的回报�Q�因此广告／合作�{�的��Z��(x��)也会(x��)遵从马太效应�Q�成为领头羊的东风�?/P>

马太效应�q�表现在当搜索引擎成为领头羊的时候，能够聚合更多的资金�h力扩展这个优势，例如启动一�p�d��的其它的业务Mp3,Pic search,Vedio�{�，巩固和扩大优�ѝ�?/P>

那么对于中小型的搜烦(ch��)引擎而言�Q��h(hu��n)值在哪里呢？

�?j��ng)场是�?hu��)��L(f��ng)��Q�可以预�a�现在大多数的中小型搜索引擎从�l�济的角度讲都要灭亡�Q�能够保留下来的一定不�?x��)是单纯的搜索引擎，也许是被某一个网站收购成为其附加��|��也许转向做企业内部搜索等现在�?j��ng)场�q�没有显著分化的领域�?/P>

inwind 2005-12-07 13:19 发表评论

inwind — Wed, 07 Dec 2005 05:16:00 GMT

google file system �q�篇文章我也看了(ji��n)�Q�作者的1�Q?�Q?点当旉��注意��C��(ji��n)�Q�可惜没有及(qi��ng)时的更新记录�Q�呵呵，�q�里把这位作者的留下来了(ji��n)�Q�）(j��)

=======================================================================================

最�q�在对现有的搜烦(ch��)引擎�q�行分布式的改进, 回顾以前阅读�q�的 google file system 的文章时发现google的思维和我们��^时固守的思维很不一�? 可以说很多在我们看来是有一�?偏激"�?可是正是�׃��q�些偏激, 才导致google与其跟随者的不同.

以下为几个例�?

1. google认�ؓ(f��), 所有的��g都是�Ҏ(gu��)��产生故障�? 因此google认�ؓ(f��)故障是必然的, 不��生故障才是偶然现�? �q�个��x(ch��ng)��和我们通常的意识是相反�?

2. Google认�ؓ(f��), 一旦写�? 再也不删除和修改. �q�点上google认�ؓ(f��)修改和删除会(x��)对系�l�造成潜在的伤�? 例如文�g的不�q�箋(hu��)�? 文�g定位的困�?.

3. Google��Linux�?file system的block更改�?64M , 也就是说, 写文件的最��单元是64M, 而不是我们通常�?12字节, 两者整整相差了(ji��n)128000�?

4. Google认�ؓ(f��)修复是没有必要的, 当一个服务器出现问题的时�? 撤下�? 换上另外一�?google unit(google 单元)卛_��, 因�ؓ(f��)�l�修的成本远�q�大于直接上�U�一个全新的服务单元的成�? 说来�Ҏ(gu��)��, 其实只有当google�l�构真正实现高冗余和分布式这��L(f��ng)��操作才可�? 而这些正是google的核�?

当我们设计一个系�l�的时�? 我们最��单的做法通常是会(x��)�Ҏ(gu��)��需求对已有的一些经验进行匹�? �q�个�q�程中我们通常走的是近�?而且我们的经验常�怼�(x��)束缚(x��)我们的想�? 没有抛开�l�验�q�行全新的分析和设计, 也自然就难以有所创新.

inwind 2005-12-07 13:16 发表评论

搜烦(ch��)引擎的缓存机制zz

inwind — Wed, 07 Dec 2005 05:14:00 GMT

以前曄��提到�q�搜索引擎的�~�存�{�略, �Ҏ(gu��)��搜烦(ch��)引擎搜烦(ch��)的关键词的统计分�? 可以优化设计搜烦(ch��)引擎的缓存策�? ��普通的�~�存�{�略上讲, �~�存是因为在一定的旉��D�内的搜索的关键词集中在一定的范围�? �q�且�q�些搜烦(ch��)相对�E�_��. 例如每天搜烦(ch��)"��女"的�h��L��10�?20�? 而结果在�q�段旉��相对�E�_��, 因此没有必要每次��L��索烦(ch��)引文�? 而将上一个�h搜烦(ch��)的结果直接返回便可以�?

搜烦(ch��)引擎�~�存�{�略也同搜烦(ch��)引擎的算法密切相�q? 除了(ji��n)搜烦(ch��)�~�存, 索引�~�存?sh��)��是一个好�Ҏ(gu��)��. 独立或者分布一些权重较高的文档也是一�U�提高效率的�Ҏ(gu��)��. 例如我们�?000万的�|�页的权�?可以��单的理解为pagerank)比较�? 那么�q�些�|�页的排序相比另外一些权重较低的�|�页相对较�ؓ(f��)�E�_��, ��׃��妨独立出来进行相对独立的索引�~�存.

关于�~�存的分�? 一般的��型搜烦(ch��)引擎不会(x��)用到, 但是如果每天处理上亿�ơ的搜烦(ch��), �~�存的分布就应当有一定的分布规划, 例如�Ҏ(gu��)��提交的关键词构成hash table, 然后对应于不同的搜烦(ch��)服务�? 实现�~�存的分�?

让我们看看实际例子吧, 我们拿百�? google, yisou, 中搜, tag.bokee.com �q�行��单的��试:

因�ؓ(f��)��试, 要搜索一些在�q�去7天没有�h搜烦(ch��)�q�的关键�? 或者组合词. ��Z��(ji��n)保证没有人搜索过, 我选择在各个搜索引擎里搜烦(ch��)"a s d f v g h" , �q�是我在键盘?sh��)��随机打出的一些组�? �怿��q�世界上�?天没有�h相同搜烦(ch��), �q�样保证我的�W�一�ơ的搜烦(ch��)�?fresh search, ��是一定需要搜索引擎去��(g��)索烦(ch��)引文�? 而不是通过�~�存�{�略.

以下是结�?
癑ֺ�: 0.279�U?BR>google: 0.24 �U?BR>一�? 0.24 �U?
中搜: 0.001�U?无结�?!!!)
博客搜烦(ch��): 0.041 �U?/P>

下面是第二次搜烦(ch��)的结�?
癑ֺ�: 0.001�U?BR>google: 0.05 �U?BR>一�? 0.09 �U?
中搜: 0.002�U?无结�?!!!)
博客搜烦(ch��): 0.019 �U?/P>

�l�过��单的��试, 可以看出�~�存机制只有在Baidu和google搜烦(ch��)引擎里都�? 但是各自效率不一�? 如下是简单的比例:

癑ֺ�: 100
google: 5
一�? 没有明显的缓�?BR>中搜: 没有明显的缓�?BR>博客搜烦(ch��): 没有明显的缓�?/P>

而在�~�存效率上百度要�q�远大于google, �q�点大概是因为google的gfs本��n的分布效率已�l�相当不�? 因此�q�行�~�存?sh��)��不会(x��)有数量�U�的提升.

而百�? �Ҏ(gu��)��?hu��)��试可能是集中方式的数据存�? 但是�Ҏ(gu��)��搜烦(ch��)�q�行hash分布, 因此才会(x��)在缓存�(sh��)��有显著的提升. (�q�个属于猜测)

搜烦(ch��)记录在以下位�|?
http://www.wespoke.com/archives/download/se-buffer/baidu1.png
http://www.wespoke.com/archives/download/se-buffer/baidu2.png
http://www.wespoke.com/archives/download/se-buffer/google1.png
http://www.wespoke.com/archives/download/se-buffer/google2.png
http://www.wespoke.com/archives/download/se-buffer/tag1.png
http://www.wespoke.com/archives/download/se-buffer/tag2.png
http://www.wespoke.com/archives/download/se-buffer/yisou1.png
http://www.wespoke.com/archives/download/se-buffer/yisou2.png
http://www.wespoke.com/archives/download/se-buffer/zhongsou1.png
http://www.wespoke.com/archives/download/se-buffer/zhongsou2.png

inwind 2005-12-07 13:14 发表评论

inwind — Wed, 07 Dec 2005 05:10:00 GMT

Google�|�页加速器的工作原理，其实很简单：(x��)Proxy + �~�存�?

1. 本地化的Proxy + �~�存
当运行了(ji��n) google 的网��加速器�Q�本��Z��(x��)启动一个httpd的服务，端口�?100 :
http://127.0.0.1:9100
�q�个服务实际上是一个本地化的Proxy+�~�存�Q�就是所有的 http 的请求都是通过�q�里走的。那么�ؓ(f��)什么能够加速呢�Q?/P>

�~�存。当你第一�ơ访问一个网��늚�时候，相当多的囄��Q�静(r��n)态文字全部的存储下来�Q�然后当你再�ơ访问的时候，��q��接从�~�存里调出来�Q�因此大大加快了(ji��n)讉K��速度�?/P>

我这里做�?ji��n)一个有��的试验�Q?/P>

讉K��我自��q��blog一个日�?http://blog.wespoke.com/archives/000907.html)的日志记录：(x��)

adsl-69-154-77-102.dsl.rcsntx.swbell.net - - [09/May/2005:12:34:38
+0800] "GET /archives/000907.html HTTP/1.1" 304 -

��h��q�个�|�页�Q�Apache的记录仍然是 304。表明没有传输内容，紧紧验证�?BR>expired的信息�?/P>

touch archives/000907.html (改变�q�个文档的时间标�?
再次��h��Q�这�ơ不一样了(ji��n)�Q?BR>adsl-69-154-77-102.dsl.rcsntx.swbell.net - - [09/May/2005:12:35:28
+0800] "GET /archives/000907.html HTTP/1.1" 200 10319

�q�次是返回了(ji��n)200�Q��ƈ传输�?0319个字节�?/P>

�q�个��是工作的原理，在第一�U�的情况下，节省�?0319个字节的传输�?/P>

当然�Q�这也是所有的�~�存proxy的设计原则�?/P>

2. Google 的缓存＋路由
当我发现我访问的日志上记录的IP和我本地的IP不一��L(f��ng)��时候，看来Google 自己也还是有�~�存服务器的�Q�就是说当我们请求一个网��|��Q�如果联接非常的慢，google�?x��)让�q�个��h��通过google的缓存服务器�Q�同时改变�\由。这��是��Z��么看到的IP不是自己机器的IP�?ji��n)�?/P>

由此看来�Q�Google的网�l�加速器实际上是一个个人的��型Proxy�~�存服务器＋Google帝国的一个格点状的Proxy�~�存服务器系�l�构成�ƈ有效的来��理�q�些�~�存�Q��ƈ非什么特别的技术，而是��大家忽视了(ji��n)多年的一些基本的概念从新应用�?ji��n)�v来�?/P>

3. 看看�q�里��更加明白一些：(x��)http://race.google/http://www.wespoke.com�Q�注意，必须启动�?ji��n)加速器后才能连接，因�ؓ(f��)google Web Accelerator讲这个域名解释�ؓ(f��)本机�q��用Iframe昄��。�?zh��n)�可以��http://www.wespoke.com替换成�?zh��n)�惌��到达的网��，看看有没有加速？

关于加速的原理�Q�你应该�?ji��n)解expired模块�?/P>

http://httpd.apache.org/docs/mod/mod_expires.html

inwind 2005-12-07 13:10 发表评论

集中/分布式搜索引擎的4�U�设计方案zz

inwind — Wed, 07 Dec 2005 05:07:00 GMT

对于搜烦(ch��)引擎, 在烦(ch��)引量和搜索量大到一定程度的时�? 索引更新的效率会(x��)逐渐降低, 服务器的压力逐渐升高, 因此基本上整个搜索引擎的利用率可以说是越来越低了(ji��n), �q�且随着��量数据存储带来的困�? 设计一个良好的分布式搜索引擎将是一个搜索引擎能否面相未来发展的关键因素�?

那么分布式搜索引擎的最主要的核�?j��)问题是哪些�?

1. 分布的信息获取和计算以及(qi��ng)�Ҏ(gu��)��q�行的数据统一
�q�里面包括爬�?或者相应的数据获取机制的分�? 对信息进行加工的�l�一��理

2. 数据处理后的分布存储和管�?BR>主要是文件的准确定位和更�?增加,删除,�U�d��的机�?/P>

3. 前端搜烦(ch��)服务的分�?BR>主要处理大规模�ƈ发请求时的分发机�?/P>

��Z��以上3个基本需�? 基本上可以构造如�?�cȝ��分布式搜索引�?
1. 分布式元搜烦(ch��)引擎
2. 散列分布搜烦(ch��)引擎
3. P2P 分布搜烦(ch��)引擎
4. 局部遍历型搜烦(ch��)引擎

下面逐步介绍以上4�c�d��扩展的搜索引�?
1. 分布式元搜烦(ch��):
拥有多个单个的搜索引�? 中心(j��)搜烦(ch��)引擎是利用这些分布的单个的搜索引擎的�l�果�q�行撮合得到完整的结�?
�q�样的设计方案要求各个单元的搜烦(ch��)引擎拥有相同的排序算法和基本相同的数据输出结构，以便�׃��?j��)搜索进行整理�?BR>对于�q�类的搜索引擎，关键的设计是要求每一个单元所拥有的烦(ch��)引不构成重复�Q�但是进行数据的采集�Q�爬虫）(j��)时可以采取独立的�pȝ��获取后再按照规则分布到各个单元上�?BR>优点�Q�设计简单，快速，�q�且��M��一个单元可以随时的摘掉但�ƈ不媄(ji��ng)响太大�?BR>�~�点�Q�对于大规模的�ƈ发�ƈ非好的解军_��?/P>

�Q�．散列分布搜烦(ch��)引擎
�Ҏ(gu��)��Query对烦(ch��)引服务器和文档服务器�q�行散列�Q�做到对于�Q何的索引词能够准��的定位到具体的索引服务器�ƈ从而定位到正确的文档服务器�?/P>

优点�Q�抗压，设计��?BR>�~�点�Q�对于单个烦(ch��)引服务器或者文档服务器的容量等动态的调整较困�?/P>

�Q�．Peer 2 peer 搜烦(ch��)引擎
著名的Napster��是�q�样的一�U�设计，利用集中方式的烦(ch��)引，配合分布于世界各地的单个的计��机形成的文件源�Q�构成了(ji��n)世界上最庞大的p2p搜烦(ch��)引擎之一�?BR>�q�种设计里的中心(j��)索引服务器只记录一些相对关键的信息�Q�例如位�|�（IP�Q�序列号�Q�，歌曲的名字，作者等�Q�其它的信息一概可以从��M��在线�q�且拥有本条全面信息的计��机上获取。同时p2p也可以根据搜索徏立一些中间�\��q��~�存�Q�即��一些搜索结果存在单个或者相�q�的节点上，加快搜烦(ch��)速度�?/P>

优点�Q�可以超�U�大�Q�基本上不需要有�l�护成本
�~�点�Q�中�?j��)服务器的更新效率很低，信息源不�E�_��

4. 局部遍历型搜烦(ch��)引擎
�q�类的搜索引擎又可以采用多种设计�Ҏ(gu��)��Q�其中比较可行的是对信息�q�行聚类后徏立信息树(w��i)�Q�搜索时只需要从�?w��i)的一个分支下去遍历便可以�?ji��n)。局部遍历应当有一定的规则�Q��ƈ且在设计初期��需要对每一个加入的索引�q�行相对准确的位�|�安排，使得攄��在合适的节点上，以保证搜索的效率�?/P>

优点�Q�容易解��x(ch��ng)��压，搜烦(ch��)�_�ֺ�高，搜烦(ch��)效率�?BR>�~�点�Q�设计复杂，调整索引所在节点的位置不易

��M��来说�Q�搜索引擎的设计�Ҏ(gu��)��可以很多�Q�这里只是抛砖引玉，�怿�未来�?x��)有更多的��y妙的设计�Ҏ(gu��)��出现�?/P>

inwind 2005-12-07 13:07 发表评论