亚洲欧美日韩区,国产精品一二三,国产精品自在欧美一区

��h��技术“三宝”之一的Google文�g�pȝ��和Kosmos 文�g�pȝ��

��王 — Fri, 26 Feb 2010 09:17:00 GMT

转：http://blog.csdn.net/boyplayee/archive/2010/02/22/5318092.aspx

��h��技�?#8220;三宝”之一的Google文�g�pȝ��和Kosmos 文�g�pȝ�� 收藏
虽然针对大规模分布式存储�pȝ��Q�Google��推陈出斎ͼ�推新的理由有很多�Q�如"single-master design,…… but it was certainly unacceptable for latency-sensitive applications, such as video serving."。参考《Google File System II: Dawn of the Multiplying Master Nodes》和《GFS:Evolution on Fast-forward》。但是GFS毕竟为其服务�?0�q�时��_��q�李开复博士也宣称每个计算机学生都有必要学学这套系�l��?/p>

本篇也一赯��谈Kosmos文�g�pȝ��Q�传闻Google的两个共同创始�h佩奇和布林有两个大学同窗�Q�是两个印度�?名叫Anand Rajaraman和Venky Harinarayan�Q�看到Google获得巨大成功之后�Q�就动手做了个一个新的搜索引擎CloudStore (原先一直叫Kosmos filesystem�Q�现在搭上了云计��的��风车改了头�?。在做这个搜索引擎的�q�程中，他们实现了一个类似GFS的文件系�l�KFS(很多理念都从GFS那里搬过来，比如constant monitoring, error detection, fault tolerance, and automatic recovery)。因为GFS的论文只是设计，而KFS是开源的�Q�两者结合看效果可能比较好�?/p>

首先�Q�看�q�谷歌工�E�师写地�q�篇《The Google File System》的能不能做下面�q�道证明题：考虑一个拥�?000个节点的GFS集群�Q�定�?不定�?证明�Q�在�?00个节点失效的情况下，剩下�?00个节点仍然能够完成工作，即performance下降的情况下�Q�scalability,reliability,availability�{�保持良好�?/p>

本文想阐释谷歌文件系�l�的一些设计理��c�?/p>

一架构�Q?/p>

下图��歌文件系�l�的�l�构图，一个GFS集群包含一个主服务器和多个块服务器, �q�是一个单一��L��务器模型�Q?/p>

概括一下块(chunk)的一些信息：块尺寸是64MB�Q�文件被分割成固定尺寸的块，在每个块创徏的时候，服务器分配给它一个不变的、唯一�?4位的块句柄对它进行标识；每个块都会复制到多个块服务器上�?/p>

��L��务器保存三种主要�c�d��的metadata�Q�文件和块的命名�I�间�Q�文件到块的映射�Q�以及每个块副本的位�|�，它通过全局的信息精��确定块的位�|�以及进行复制决定。主服务器的主要工作有：��L��务器在后台周期扫猫自��q��整个状态，用来在块服务器间实现块的垃圾攉��的功能，用来实现块服务器失效的时复制新副本的功能�Q�用来实现负载均衡的块移动的功能�Q�以及用来实现统计硬盘��用情�늚�功能�{��?/p>

块服务器保存着块，�q�根据指定的块句柄和字节区间来读写块数据�?/p>

客户端不通过��L��务器��d��数据。反之，客户端向��L��务器询问它应该联�pȝ��块服务器。客��L��短期�~�存�q�些信息�Q�后�l�的操作直接跟块服务器进行�?/p>

��d��程:首先�Q�利用固定的块尺寸，客户端把文�g名和�E�序指定的字节偏�U��{换成文�g的块索引。然后，它把文�g名和块烦引发送给��L��务器。主服务器回�{�相应的块句柄和副本们的位置。客��L��用文件名和块索引作�ؓ键值缓存这些信息�?/p>

此系�l�可靠性方面相关的一些设计，下面概要叙述一下，后面会有详细描述�Q?/p>

1��L��务器不持久化保存块的位置信息。主服务器在自己启动以及块服务器加入集群的时候，询问块服务器它所包含的块的信息，然后定期的心跳信息监控块服务器的状态�?/p>

2 名称�I�间和文件块映射的metadata�Q�会用log的方式保存在��L��务器的硬盘上的操作日志内�Q��ƈ在远�E�的机器内复制一个副本。��用log�Q�可以更��C��服务器的状态，而且不用担心服务器崩溃带来的数据不一致的风险�?/p>

3. ��L��务器通过重放operation log恢复其文件系�l�。operation log是metadata唯一的持久化存储记录�Q��v��C��定义同步操作��序的逻辑旉��U�的作用。文件和块及其版本都是唯一和持久地�׃��们创建时的逻辑旉��标识的。进行恢复仅需要最新的checkpoint和相应的日志文�g。日志增长到一个特定尺寸的时候，��L��务器汇�ȝ��状态�ؓ一个checkpoint�?/p>

4文�g命名�I�间的修改（例如�Q�文件创建）是原子性的。他们仅受主服务器的控制�Q�命名空间锁定保证了原子性和正确性；��L��务器的操作日志定义了�q�些操作的全局总顺序。在修改操作成功后，部�g故障仍可以��数据受到破坏。GFS通过master和chunkserver间定期的handshake�Q�借助校验和来��对数据的破坏。一旦检��到�Q�就从一个有效的副本��快重新存储。只有在GFS��前�Q�所有的副本都失效，�q�个块才会丢失�?/p>

5…………….

�?�pȝ��交互

�q�一节讨论客��h��Q�服务器和块服务器三者如何交互以实现数据操作�Q�原子化的记录追加及快照�?/p>

2.1 leases and mutation order

Mutations是一个会改变块内�Ҏ��者元数据的操作，例如写入或者记录追加。每个变更执行在块的所有副本上。��用leases来保持多个副本间变更��序的一致性，leases机制的设计是��Z��最��化��L��务器的管理负载。由于Master首先grants一个主块（卛_��本中的一个块lease�Q�，所以全局的mutation order��Ş成了�Q�首先由��L��务器选择的lease生成��序军_��Q�然后由lease中主块分配的序列号决定。再用图来说明写入操作的控制��程�Q?/p>

1客户机向��L��务器询问哪一个块服务器保存了当前的lease�Q�以及其它副本的位置。如果没有一个块服务器有lease�Q�主服务器就选择一个副本给它一个lease�Q�没有被昄��出来�Q��?/p>

2��L��务器回复��d��的标识符以及其他副本的位�|�。客��h��Z��后箋的操作缓存这个数据。只有主块不可用�Q�或者主块回复说它已�l�不再拥有lease的时候，客户机才需要重新跟��L��务器联络�?/p>

3客户机把数据推送到所有的副本上。客��h��可以用�Q意的��序推送。每个块服务器会把这些数据保存在它的内部LRU�~�冲内，直到数据被��用或者过期。通过把数据流和控制流分离�Q�我们可以基于网�l�负载状况对昂贵的数据流�q�行规划�Q�以提高性能�Q�而不用去��哪个块服务器是��d��?/p>

4所有的副本都被��认已经得到数据后，客户机发送写��h��C��块。这个请求标识了早前推送到所有副本的数据。主块�ؓ收到的所有操作分配连�l�的序列��P��q�些可能来自不同的客��h��。它依照序列��L��序把这些操作应用到它自��q��本地状态中�?/p>

5��d��把写��h��传递到所有的二��副本。每个二�U�副本依照主块分配的序列��L��序应用�q�些操作�?/p>

6所有二�U�副本回复主块说明他们已�l�完成操作�?/p>

7��d��回复客户机。�Q何副本��生的错误都会报告�l�客��h��。错误的情况下，��d��和一些二�U�副本可能成功的写入了数据。（如果��d��写入��p�|�Q�操作就不会被分配序列号�Q�也不会被传递。）客户端请求被��认为失败，已经修改的区域保持不一致的状态。我们的客户��Z��码通过重复��p�|的操作来处理�q�样的错误。在完全从头开始写入之前，可能会先从步�?到步�?�q�行几次��试�?/p>

2.2 数据��?/p>

数据��和控制��分开。控制流从客��h��C��块然后再到所有二�U�副本的同时�Q�数据顺序推送到一个精心选择的管道�Ş式的块服务器链。特点：用IP地址��可以计��出节点的远�q�；用在TCP�q�接上管道化数据传输来最��化延迟�?/p>

2.3 原子性的记录�q�加

GFS提供了一个原子性的��d��操作�Q�record append。在传统的写操作中，client指定被写数据的偏�U�M��|�，向同一个区间的�q�发的写操作是不�q�箋的：区间有可能包含来自多个client的数据碎片。在record append中， client只是指定数据。GFS在其选定的偏�U�d��数据至��原子性的加入文�g一�ơ，�q�将偏移�q�回�l�client�?/p>

在分布式的应用中�Q�不同机器上的许多client可能会同时向一个文件执行添加操作，��d��操作被频�J��用。如果用传统的write操作�Q�可能需要额外的、复杂的、开销较大的同步，例如通过分布式锁��理。在我们的工作量中，�q�些文�g通常以多个生产者单个消费者队列的方式或包含从多个不同 client的综合结果�?/p>

Record append和前面讲的write操作的控制流差不多，只是在primary上多了一些逻辑判断。首先，client��数据发送到文�g最后一块的所有副本上。然后向primary发送请求。Primary��查添加操作是否会��D��该块��过最大的规模�Q?4M�Q�。如果这��P��它将该块扩充到最大规模，�q�告诉其它副本做同样的事�Q�同旉��知client该操作需要在下一个块上重新尝试。如果记录满��x��大规模的要求�Q�primary��׃��数据添加到它的副本上，�q�告诉其它的副本在同��L��偏移处写数据�Q�最后primary向client报告写操作成功。如果在��M��一个副本上record append操作��p�|�Q�client��重新尝试该操作。这时候，同一个块的副本可能包含不同的数据�Q�因为有的可能复制了全部的数据，有的可能只复制了部分。GFS不能保证所有的副本每个字节都是一��L��。它只保证每个数据作��Z��个原子单元被写过臛_��一�ơ。这个是�q�样得出的：操作要是成功�Q�数据必��d��所有的副本上的同样的偏�U�d��被写�q�。进一步，从这以后�Q�所有的副本臛_��和记录一样长�Q�所以后�l�的记录��被指定到更高的偏移处或者一个不同的块上�Q�即使另一个副本成了primary。根据一致性保证，成功的record append操作的区间是已定义的。而受到干扰的区间是不一致的�?/p>

2.4快照

快照操作几乎在瞬间构造一个文件和目录树的副本�Q�同时将正在�q�行的其他修�Ҏ��作对它的影响减至最��?/p>

我们使用copy-on-write技术来实现snapshot。当master受到一个snapshot��h��Ӟ��它首先要撤消��要snapshot的文件上块上的lease。这使得��M��一个向�q�些块写数据的操作都必须和master交互以找到拥有lease的副本。这��q��master一个创��个块的副本的��Z��?/p>

副本被撤销或终止后�Q�master在磁盘上登记执行的操作，然后复制源文件或目录树的metadata以对它的内存状态实施登记的操作。这个新创徏的snapshot文�g和源文�g�Q�其metadata�Q�指向相同的块（chunk�Q��?/p>

Snapshot之后�Q�客��L��一�ơ向chunk c写的时候，它发一个请求给master以找到拥有lease的副本。Master注意到chunk c的引用记数比1大，它�g�q�对用户的响应，选择一个chunk handle C’,然后要求每一有chunk c的副本的chunkserver创徏一个块C’。每个chunkserver在本地创建chunk C’避免了网�l�开销。从�q�以后和对别的块的操作没有什么区别�?/p>

3.Mast操作

MASTER执行所有名字空间的操作�Q�除此之外，他还在系�l�范围管理数据块的复�Ӟ��军_��数据块的攄��Ҏ��Q��生新数据块�ƈ��其备䆾�Q�和其他�pȝ��范围的操作协同来��保数据备䆾的完整性，在所有的数据块服务器之间�q��负蝲�q�收回没有��用的存储�I�间�?/p>

3.1 名字�I�间��理和加�?/p>

与传�l�文件系�l�不同的是，GFS没有与每个目录相关的能列出其所有文件的数据�l�构�Q�它也不支持别名�Q�unix中的��连接或�W�号�q�接�Q�，不管是对文�g或是目录。GFS的名字空间逻辑上是从文件元数据到�\径名映射的一个查用表�?/p>

MASTER在执行某个操作前都要获得一�p�d��锁，例如�Q�它要对/d1/d2…/dn/leaf执行操作�Q�则它必��获�?d1�Q?d1/d2�Q?#8230;�Q?/d1/d2/…/dn的读锁，/d1/d2…/dn/leaf的读锁或写锁�Q�其中leaf可以使文件也可以是目录）。MASTER操作的�ƈ行性和数据的一致性就是通过�q�些锁来实现的�?/p>

3.2 备䆾存储攄��{�略

一个GFS集群文�g�pȝ��可能是多层分布的。一般情况下是成千上万个文�g块服务器分布于不同的机架上，而这些文件块服务器又被分布于不同机架上的客户来访问。因此，不同机架上的两台机器之间的通信可能通过一个或多个交换机。数据块冗余配置�{�略要达到多个目的：最大的数据可靠性和可用性，最大的�|�络带宽利用率。因此，如果仅仅把数据的拯��|�于不同的机器上很难满��q�两个要求，必须在不同的机架上进行数据备份。这样即使整个机架被毁或是掉�U�，也能��保数据的正�怋�用。这也��数据传输�Q�尤其是��L��据，可以充分利用带宽�Q�访问到多个机架�Q�而写操作�Q�则不得不涉及到更多的机架�?/p>

3.3 产生、重复制、重�q��数据�?/p>

当MASTER产生新的数据块时�Q�如何放�|�新数据块，要考虑如下几个因素�Q�（1�Q�尽量放�|�在��盘利用率低的数据块服务器上�Q�这��P��慢慢地各服务器的��盘利用率就会达到��^衡。（2�Q�尽量控制在一个服务器上的“新创�?#8221;的次数。（3�Q�由于上一��节讨论的原因，我们需要把数据块放�|�于不同的机架上�?/p>

MASTER在可用的数据块备份低于用戯��定的数目旉��要进行重复制。这�U�情冉|��于多�U�原因：服务器不可用�Q�数据被破坏�Q�磁盘被破坏�Q�或者备份数目被修改。每个被需要重复制的数据块的优先��Ҏ��以下几项��定�Q�第一是现在的数目距目标的距离�Q�对于能��d��用户�E�序的数据块�Q�我们也提高它的优先�U�。最后， MASTER按照产生数据块的原则复制数据块，�q�把它们攑ֈ�不同的机架内的服务器上�?/p>

MASTER周期性的�q��各服务器上的负蝲�Q�它��查chunk分布和负载��^衡，通过�q�种方式来填充一个新的服务器而不是把其他的内容统�l�放�|�到它上面带来大量的写数据。数据块攄��的原则与上面讨论的相同，此外�Q�MASTER�q�决定哪些数据块要被�U�除�Q�原则上它会清除那些�I�闲�I�间低于�q�_��值的那些服务器�?/p>

3.4 垃圾攉��

在一个文件被删除之后�Q�GFS�q�不立即收回��盘�I�间�Q�而是�{�到垃圾攉��E�序在文件和数据块��的的��查中收回�?/p>

当一个文件被应用�E�序删除之后�Q�MASTER会立卌��录下�q�些变化�Q�但文�g所占用的资源却不会被立��x��回，而是重新�l�文件命了一个隐藏的名字�Q��ƈ附上了删除的旉��戟뀂在MASTER定期��查名字空间时�Q�它删除��过三天�Q�可以设定）的隐藏的文�g。在此之前，可以以一个新的名字来��L��Ӟ��q�可以以前的名字恢复。当隐藏的文件在名字�I�间中被删除以后�Q�它在内存中的元数据卌��擦除�Q�这��有效地切断了他和所有数据块的联�p�R�?/p>

在一个相似的定期的名字空间检查中�Q�MASTER��认孤儿数据块（不属于�Q何文�Ӟ��q�擦除它的元数据�Q�在和MASTER的心跳信息交换中�Q�每个服务器报告他所拥有的数据块�Q�MASTER�q�回元数据不在内存的数据块，服务器即可以删除�q�些数据块�?/p>

3.5 �q�时数据的探��?/p>

在数据更新时如果服务器停��Z��Q�那么他所保存的数据备份就会过时。对每个数据块，MASTER讄��了一个版本号来区别更新过的数据块和过时的数据块�?/p>

当MASTER授权一个新的lease�Ӟ��他会增加数据块的版本号�ƈ会通知更新数据备䆾。MASTER和备份都会记录下当前的版本号�Q�如果一个备份当时不可用�Q�那么他的版本号不可能提高，当ChunkServer重新启动�q�向MASTER报告他的数据块集�Ӟ��MASTER��׃��发现�q�时的数据�?/p>

MASTER在定期的垃圾攉��E�序中清除过时的备䆾�Q�在此以前，处于效率考虑�Q�在各客户及英大使，他会认�ؓ�Ҏ��不存在过时的数据。作为另一个安全措施， MASTER在给客户及关于数据块的应�{�或是另外一个读取数据的服务器数据是都会带上版本信息�Q�在操作前客��h��和服务器会验证版本信息以��保得到的是最新的数据�?/p>

4、容错和诊断

4.1 高可靠�?

4.1.1 快速恢�?

不管如何�l�止服务�Q�MASTER和数据块服务器都会在几秒钟内恢复状态和�q�行。实际上�Q�我们不�Ҏ��常终止和不正常终止进行区分，服务器进�E�都会被切断而终止。客��h��和其他的服务器会�l�历一个小��的中断�Q�然后它们的特定��h��时�Q�重新连接重启的服务器，重新��h��?

4.1.2 数据块备�?

如上文所讨论的，每个数据块都会被备䆾到放��C��同机架上的不同服务器上。对不同的名字空��_��用户可以讄��不同的备份��别。在数据块服务器掉线或是数据被破坏时�Q�MASTER会按照需要来复制数据块�?

4.1.3 MASTER备䆾

为确保可靠性，MASTER的状态、操作记录和��查点都在多台机器上进行了备䆾。一个操作只有在数据块服务器��盘上刷新�ƈ被记录在MASTER和其备䆾的上之后才算是成功的。如果MASTER或是��盘��p�|�Q�系�l�监视器会发现�ƈ通过改变域名启动它的一个备份机�Q�而客��h��则仅仅是使用规范的名�U�来讉K��Q��ƈ不会发现MASTER的改变�?

4.2 数据完整�?

每个数据块服务器都利用校验和来检验存储数据的完整性。原因：每个服务器随旉��有发生崩溃的可能性，�q�且在两个服务器间比较数据块也是不现实的�Q�同�Ӟ��在两台服务器间拷贝数据�ƈ不能保证数据的一致性�?

每个Chunk�?4kB的大��分成块�Q�每个块�?2位的校验和，校验和和日志存储在一��P��和用��h��据分开�?

在读数据�Ӟ��服务器首先检查与被读内容相关部分的校验和�Q�因此，服务器不会传播错误的数据。如果所��查的内容和校验和不符�Q�服务器��׃��l�数据请求者返回一个错误的信息�Q��ƈ把这个情冉|��告给MASTER。客��h��׃��d��他的服务器来获取数据�Q�而MASTER则会从其他的拯��来复制数据，�{�到一个新的拷贝完成时�Q�MASTER��׃��通知报告错误的服务器删除出错的数据块�?

附加写数据时的校验和计算优化了，因�ؓ�q�是主要的写操作。我们只是更新增加部分的校验和，即��末尾部分的校验和数据已被损坏而我们没有检查出来，新的校验和与数据会不相符�Q�这�U�冲�H�在下次使用时将会被��查出来�?

相反�Q�如果是覆盖现有数据的写�Q�在写以前，我们必须��查第一和最后一个数据块�Q�然后才能执行写操作�Q�最后计��和记录校验和。如果我们在覆盖以前不先��查首位数据块�Q�计��出的校验和则会因�ؓ没被覆盖的数据而��生错误�?

在空闲时��_��服务器会��查不�z�跃的数据块的校验和�Q�这样可以检查出不经常读的数据的错误。一旦错误被��查出来，服务器会拯��一个正��的数据块来代替错误的�?

4.3 诊断工具

�q�泛而细致的诊断日志以微��的代�h换取了在问题隔离、诊断、性能分析斚w��起到了重大的作用。GFS服务器用日志来记录显著的事�g�Q�例如服务器停机和启动）和远�E�的应答。远�E�日志记录机器之间的��h��和应�{�，通过攉��不同机器上的日志记录�Q��ƈ对它们进行分析恢复，我们可以完整地重现活动的场景�Q��ƈ用此来进行错误分析�?/p>

以下是Kosmos filesystem的一些特性：

自动存储扩充�Q�添加新的chunckserver,�pȝ��自动感知�Q?/p>

有效性（复制机制保证文�g有效性，一般文件会被以三种方式存储�Q�当其中一个chunkserver出现错误的时候，不会影响数据的读取）

文�g复制�_�度�Q�可以配�|�文件复制的�_�度�Q�最大可以被复制64�?/p>

�q�原复制�Q�当其中一个Chunckserver出现故障的时候，Metaserver会强制��用其他的chunckserver

负蝲�q��Q�系�l�周期地��查chunkservers的磁盘利用，�q��新��^衡chunkservers的磁盘利用，HDFS现在�q�没有支持）

数据完整性（当要��d��数据时检查数据的完整性，如果��验出错��用另外的备䆾覆盖当前的数据）

文�g写入�Q�当一个应用程序创��Z��一个文�Ӟ��q�个文�g名会被立��d��入文件系�l�，但�ؓ了性能�Q�写入的数据会被�~�存在kfs客户�?�q�且周期性的从缓存中把数据更新到chunkserver中。当�Ӟ��应用�E�序也可以强制把数据更新到服务器上。一旦数据被更新到服务器�Q�就可以被有效的��d��了�?/p>

契约�Q��用契�U�来保证Client�~�存的数据和文�g�pȝ��中的文�g保持一致性）

支持FUSE�Q�在linux�pȝ��下，可以通过Fuse 映射一个文件夹�Q�从而可以很方便的读取kfs的文�Ӟ��

支持C++,Java,Python方式的调�?/p>

提供了丰富的工具�E�序�Q�如kfsshell,cp2kfs�{?/p>

提供了启动和停止服务的脚�?/p>

本文来自CSDN博客�Q��{载请标明出处�Q?a >http://blog.csdn.net/boyplayee/archive/2010/02/22/5318092.aspx

��王 2010-02-26 17:17 发表评论

分布式文件系�l�MFS(moosefs)实现存储�׃�n

��王 — Mon, 08 Feb 2010 01:11:00 GMT

分布式文件系�l�MFS(moosefs)实现存储�׃�n

作�?田�?sery@163.com) from: [url]http://net.it168.com/a2009/0403/270/000000270867.shtml[/url]

�׃��用户数量的不断攀�?我对讉K��量大的应用实��C��可扩展、高可靠的集��部�|Ԍ��即lvs+keepalived的方式）�Q�但仍然有用户反馈访问慢的问题。通过排查个服务器的情况，发现问题的根源在于共享存储服务器NFS。在我这个网�l�环境里�Q�N个服务器通过nfs方式�׃�n一个服务器的存储空��_��使得NFS服务器不堪重负。察看系�l�日志，全是nfs服务��时之类的报错。一般情况下�Q�当nfs客户端数目较��的时候，NFS性能不会出现问题�Q�一旦NFS服务器数目过多，�q�且是那�U�读写都比较频繁的操作，所得到的结果就不是我们所期待的。下面是某个集群使用nfs�׃�n的示意图�Q?img onclick='window.open("http://blog.51cto.com/viewpic.php?refimg=" + this.src)' border=0 alt="" src="http://img1.51cto.com/attachment/200904/200904091239248490014.jpg">

�q�种架构除了性能问题而外�Q�还存在单点故障�Q�一旦这个NFS服务器发生故障，所有靠�׃�n提供数据的应用就不再可用�Q�尽��用rsync方式同步数据到另外一个服务器上做nfs服务的备份，但这�Ҏ��高整个系�l�的性能毫无帮助。基于这样一�U�需求，我们需要对nfs服务器进行优化或采取别的解决�Ҏ��Q�然而优化�ƈ不能对应�Ҏ��益增多的客户端的性能要求�Q�因此唯一的选择只能是采取别的解��x��案了�Q�通过调研�Q�分布式文�g�pȝ��是一个比较合适的选择。采用分布式文�g�pȝ��后，服务器之间的数据讉K��不再是一对多的关�p�（1个NFS服务器，多个NFS客户端）�Q�而是多对多的关系�Q�这样一来，性能大幅提升毫无问题�?/div>

到目前�ؓ止，有数十种以上的分布式文�g�pȝ��解决�Ҏ��可供选择�Q�如lustre,hadoop,Pnfs�{�等。我��试了PVFS,hadoop,moosefs�q�三�U�应用，参看了lustre、KFS�{�诸多技术实施方法，最后我选择了moosefs�Q�以下简�U�MFS�Q�这�U�分布式文�g�pȝ��来作为我的共享存储服务器。�ؓ什么要选它呢？我来说说我的一些看法：

1�?nbsp; 实施��h��单。MFS的安装、部�|�Ӏ�配�|�相对于其他几种工具来说�Q�要��单和�Ҏ��得多。看看lustre 700多页的pdf文档�Q�让人头昏吧�?/div>

2�?nbsp; 不停服务扩容。MFS框架做好后，随时增加服务器扩充容量；扩充和减��容量皆不会影响现有的服务。注�Q�hadoop也实��C��q�个功能�?/div>

3�?nbsp; 恢复服务�Ҏ��。除了MFS本��n具备高可用特性外�Q�手动恢复服务也是非常快��L��Q�原因参照第1条�?/div>

4�?nbsp; 我在实验�q�程中得��C��者的帮助�Q�这让我很是感激�?/div>

MFS文�g�pȝ��的组�?/div>

1�?nbsp;元数据服务器。在整个体系中负责管理管理文件系�l�，目前MFS只支持一个元数据服务器master�Q�这是一个单�Ҏ��障，需要一个性能�E�_��的服务器来充当。希望今后MFS能支持多个master服务器，�q�一步提高系�l�的可靠性�?/div>

2�?nbsp;数据存储服务器chunkserver。真正存储用��h��据的服务器。存储文件时�Q�首先把文�g分成块，然后�q�些块在数据服务器chunkserver之间复制�Q�复制䆾数可以手工指定，��讄��副本��Cؓ3�Q�。数据服务器可以是多个，�q�且数量��多�Q�可使用�?#8220;��盘�I�间”��大�Q�可靠性也��高�?/div>

3�?nbsp;客户端。��用MFS文�g�pȝ��来存储和讉K��的主机称为MFS的客��L��Q�成功挂接MFS文�g�pȝ��以后�Q�就可以像以前��用NFS一样共享这个虚拟性的存储了�?/div>

元数据服务器安装和配�|?/div>

元数据服务器可以是linux,也可以是unix,你可以根据自��q��使用习惯选择操作�pȝ��,在我的环境里,我是用freebsd做�ؓMFS元数据的�q�行�q�_��。GNU源码�Q�在各种�c�unix�q�_��的安装都基本一致�?/div>

�Q�一�Q?nbsp; 安装元数据服�?/div>

1、下载GNU源码 wget [url]http://www.moosefs.com/files/mfs-1.5.12.tar.gz[/url]

2、解�?tar zxvf mfs-1.5.12.tar.gz

3、切换目�?cd mfs-1.5.12

4、创建用�?useradd mfs –s /sbin/nologin

5、配�|?./configure --prefix=/usr/local/mfs --with-default-user=mfs --with-default-group=mfs

6、编译安�?make ; make install

�Q�二�Q?nbsp; 配置元数据服�?/div>

元数据服务器的配�|�文件是mfsmaster.cfg,我在安装MFS时指定了前缀�Q�因此这个文件的位置�?usr/local/mfs/etc/mfsmaster.cfg.我们打开�q�个配置文�g�Q�看看都有哪些内容：

��管每行都被注释掉了�Q�但它们却是配置文�g的默认��|��要改变这些��|��需要取消注释，然后明确指定其取倹{��接下来说明一下其中一些项目的含义�?/div>

�?nbsp; LOCK_FILE = /var/run/mfs/mfsmaster.pid 文�g锁所在的位置�Q�它的功能是避免启动多次启动同一个守护进�E�。由于系�l�中本来不存在目�?/var/run/mfs�Q�因此需要手动创�?mkdir /var/run/mfs�Q�然后更改其属主 chown –R mfs:mfs /var/run/mfs �q�样MFS 服务��p��对这个目录有创徏/写入 mfsmaster.pid 文�g的权限了�?/div>

�?nbsp; DATA_PATH = /usr/local/mfs/var/mfs 数据存放路径�Q�只元数据的存放路径。那么这些数据都包括哪些呢？�q�目录看看，大致�?�U�类型的文�g�Q?/div>

�q�些文�g也同栯��存储在其他数据存储服务器的相关目录�?/div>

�?nbsp; MATOCS_LISTEN_PORT = 9420 MATOCS--master to chunkserver�Q�即元数据服务器使用9420�q�个监听端口来接受数据存储服务器chunkserver端的�q�接�?/div>

�?nbsp; MATOCU_LISTEN_PORT = 9421 元数据服务器�?421端口监听�Q�用以接受客��L��对MFS�q�行�q�程挂接�Q�客��L��以mfsmount挂接MFS�Q?/div>

�?nbsp; 其他部分看字面意思都不难理解。还有几个与旉��有关的数��|��其单位是�U��?/div>

�q�个配置文�g�Q�不必做修改��p��工作了�?/div>

�Q�一�Q?nbsp; 元数据服务器master启动

元数据服务器可以单独启动�Q�即使没有�Q何数据存储服务器�Q�chunkserver�Q�也是能正常工作的，因此当我们安装配�|�完MFS后，卛_��启动它。执行命�?/usr/local/mfs/sbin/mfsmaster start �Q�如果没有意外，元数据库服务器就应该作�ؓ一个守护进�E�运行�v来。现在我们可以通过3个方面来��查一下MFS master的运行状况：

�Q�四�Q�、关闭元数据服务�?/div>

关闭元数据服务器�Q�务必��?/usr/local/mfs/sbin/mfsmaster –s �q�种方式�Q�如果直接��用kill杀死进�E�，��导致下�ơ启动时出现找不到相��x��Ӟ��而不能正常启动服务器。这个一定要谨慎。当�Ӟ��如果发生了这个事情，�q�是可以通过 mfsmetastore 来恢复的�?/div>

数据存储chunkserver服务器的安装配置

数据存储服务器chunkserver也是可以�q�行在各�U�类unix�q�_��的，因此不再多说。一个MFS环境到底能集��多��服务器�Q�作者的说法是上PB定w��Q�个人徏议，最�?��C��上；�q�且专门用来做存储，不要把它跟master搞到一个机器（理论上没问题�Q�实��C��是可以的�Q�但�q�不是一个好�{�略�Q�。因为每个数据存储服务器的安装和配置都是相同的，所以只需按照一个服务器的操作就可以了�?/div>

�Q�一�Q�、安装数据存储服务器 chunkserver

1、下载GNU源码 wget [url]http://www.moosefs.com/files/mfs-1.5.12.tar.gz[/url]

2、解�?tar zxvf mfs-1.5.12.tar.gz

3、切换目�?cd mfs-1.5.12

4、创建用�?useradd mfs –s /sbin/nologin

5、配�|?./configure --prefix=/usr/local/mfs --with-default-user=mfs --with-default-group=mfs

6、编译安�?make ; make install

�Q�二�Q�配�|�数据存储服务器chunkserver

数据存储服务器有2个配�|�服务器需要修改，一个是主配�|�文�?mfschunkserver.cfg ,另一个配�|�文件是 mfshdd.cfg。每个服务器用来分配�l?MFS使用的空间最好是一个单独的��盘或者一个raid��P��最低要求是一个分区。作者�D的例子是创徏一个大文�g�Q�然后挂接在本地�Q�这不好�Q�只能用来做实验了�?/div>

1、修攚w��|�文�?/usr/local/mfs/etc/mfschunkserver.cfg。下面是修改了的配置文�g�Q?

�q�个配置文�g里，没有注释�W�号“#”��是被修改过的项了，接下来是里面某些��的含义说明�Q?/div>

�?nbsp; MASTER_HOST = 192.168.0.19 元数据服务器的名�U�或地址�Q�可以是��L��名，也可以是ip地址�Q�只要数据存储服务器能访问到元数据服务器��p��?/div>

�?nbsp; LOCK_FILE = /var/run/mfs/mfschunkserver.pid 与元数据服务器master的处理完全相�?

�?nbsp; CSSERV_LISTEN_PORT = 9422 CSSERV—chunkserver,�q�个监听端口用于与其它数据存储服务器间的�q�接�Q�通常是数据复制�?/div>

�?nbsp; HDD_CONF_FILENAME = /usr/local/mfs/etc/mfshdd.cfg 分配�l�MFS使用的磁盘空间配�|�文件的位置�?/div>

2、修攚w��|�文�?usr/local/mfs/etc/mfshdd.cfg。在我的服务器上�Q�只有一�?T的SATA��盘�Q�分了一�?st1:chmetcnv w:st="on" TCSC="0" NumberType="1" Negative="False" HasSpace="False" SourceValue="800" UnitName="g">800G定w��的分区来做�ؓMFS存储服务的组成部分。�ؓ了��mfs拥有写目录的权限�Q�需要修改目录的属主。我的服务器的分区挂接点�?/data , �?chown –R mfs:mfs /data 把属��L��变。因为我的每个服务器只需贡献一个分区做为MFS,因此配置文�g只需要如下一行内容就可以了：

�Q�四�Q?nbsp; 关闭数据存储服务�?/div>

跟元数据服务器master�怼��Q�执行命�?/usr/local/mfs/sbin/mfschunkserver –s , chunkserver服务��停下来了。�ؓ了�ɾpȝ��重启�q�程能自动启动chunkserver 服务�Q�可以通过�?etc/rc.local文�g�q�加�? /usr/local/mfs/sbin/mfschunkserver start 来达到这个目的（master的自动重启处理也可同样处理）�?/div>

本文�� “sery” 博客�Q�请务必保留此出�?a >http://sery.blog.51cto.com/10037/147756

��王 2010-02-08 09:11 发表评论

��王 — Thu, 28 Jan 2010 05:50:00 GMT

原帖�Q?a >http://www.cnblogs.com/phinecos/

Hadoop 是一个实��C�� MapReduce 计算模型的开源分布式�q�行�~�程框架�Q�借助�?/span> Hadoop, �E�序员可以轻村֜��~�写分布式�ƈ行程序，��其�q�行于计��机集群上，完成��量数据的计��。本文将介绍 MapReduce 计算模型�Q�分布式�q�行计算�{�基本概念，以及 Hadoop 的安装部�|�和基本�q�行�Ҏ��?/span>

Hadoop ��?/span>

Hadoop 是一个开源的可运行于大规模集��上的分布式�q�行�~�程框架�Q�由于分布式存储对于分布式编�E�来说是必不可少的，�q�个框架中还包含了一个分布式文�g�pȝ�� HDFS( Hadoop Distributed File System )。也许到目前为止�Q?/span>Hadoop �q�不是那么广��Z�h知，其最新的版本号也仅仅�?/span> 0.16�Q�距��?/span> 1.0 ��g��都还有很长的一�D�距��，但提�?/span> Hadoop 一脉相承的另外两个开源项�?/span> Nutch �?/span> Lucene ( 三者的创始人都�?/span> Doug Cutting ),那绝�Ҏ��大名鼎鼎�?/span>Lucene 是一个用 Java 开发的开源高性能全文��索工具包�Q�它不是一个完整的应用�E�序�Q�而是一套简单易用的 API 。在全世界范围内�Q�已有无数的软�g�pȝ��Q?/span>Web �|�站��Z�� Lucene 实现了全文检索功能，后来 Doug Cutting 又开创了�W�一个开源的 Web 搜烦引擎(http://www.nutch.org/) Nutch, 它在 Lucene 的基��上增加了�|�络爬虫和一些和 Web 相关的功能，一些解析各�c�L��档格式的插�g�{�，此外�Q?/span>Nutch 中还包含了一个分布式文�g�pȝ��用于存储数据。从 Nutch 0.8.0 版本之后�Q?/span>Doug Cutting �?/span> Nutch 中的分布式文件系�l�以及实�?/span> MapReduce ��法的代码独立出来�Ş成了一个新的开源项 Hadoop�?/span>Nutch 也演化�ؓ��Z�� Lucene 全文��索以�?/span> Hadoop 分布式计��^台的一个开源搜索引擎�?/span>

��Z�� Hadoop,你可以轻村֜��~�写可处理�v量数据的分布式�ƈ行程序，�q�将其运行于由成百上千个�l�点�l�成的大规模计算机集��上。从目前的情冉|�� 看，Hadoop 注定会有一个辉煌的未来�Q?/span>"云计��?/span>"是目前灸手可热的技术名词，全球各大 IT 公司都在投资和推�q�这�U�新一代的计算模式�Q��?/span> Hadoop 又被其中几家主要的公司用作其"云计��?/span>"环境中的重要基础软�g�Q�如:雅虎正在借助 Hadoop 开源��^台的力量�Ҏ�� Google, 除了资助 Hadoop 开发团队外�Q�还在开发基�?/span> Hadoop 的开源项�?/span> Pig, �q�是一个专注于��量数据集分析的分布式计��程序�?/span>Amazon 公司��Z�� Hadoop 推出�?/span> Amazon S3 ( Amazon Simple Storage Service )�Q�提供可靠，快速，可扩展的�|�络存储服务�Q�以及一个商用的云计��^�?/span> Amazon EC2 ( Amazon Elastic Compute Cloud )。在 IBM 公司的云计算��目--"蓝云计划"中，Hadoop 也是其中重要的基��软�g�?/span>Google 正在�?/span>IBM合作�Q�共同推�q�基�?/span> Hadoop 的云计算�?/span>

�q�接�~�程方式的变�?/span>

在摩��定律的作用下，以前�E�序员根本不用考虑计算机的性能会跟不上软�g的发展，因�ؓ�U�每�?/span> 18 个月�Q?/span>CPU 的主频就会增加一倍，性能也将提升一倍，软�g�Ҏ��不用做�Q何改变，��可以��n受免费的性能提升。然而，�׃��晶体��电路已�l�逐渐接近其物理上的性能极限�Q�摩��?/span> 定律�?/span> 2005 �q�左叛_��始失效了�Q��h�c�d��也不能期待单�?/span> CPU 的速度每隔 18 个月��q��一倍，为我们提供越来越快的计算性能�?/span>Intel, AMD, IBM �{�芯片厂商开始从多核�q�个角度来挖�?/span> CPU 的性能潜力�Q�多核时代以及互联网时代的到来，��软�g�~�程方式发生重大变革�Q�基于多核的多线�E��ƈ发编�E�以及基于大规模计算机集��的分布式�ƈ行编�E�是��来�?/span> 件性能提升的主要途径�?/span>

许多��U�编�E�方式的重大变化��带来一�ơ��Y件的�q�发危机�Q�因为我们传�l�的软�g方式基本上是单指令单数据��的��序执行�Q�这�U�顺序执行十分符合�h�cȝ��思�?/span> 习惯�Q�却与�ƈ发�ƈ行编�E�格��g��入。基于集��的分布式�ƈ行编�E�能够让软�g与数据同时运行在�q�成一个网�l�的许多台计��机�?/span>,�q�里的每一台计��机均可以是一台普通的 PC 机。这��L��分布式�ƈ行环境的最大优�Ҏ��可以很容易的通过增加计算机来扩充新的计算�l�点�Q��ƈ由此获得不可思议的�v量计��能�?/span>, 同时又具有相当强的容错能力，一批计��结点失效也不会影响计算的正常进行以及结果的正确性�?/span>Google ��是�q�么做的�Q�他们��用了叫做 MapReduce 的�ƈ行编�E�模型进行分布式�q�行�~�程�Q�运行在叫做 GFS ( Google File System )的分布式文�g�pȝ��上，为全球亿万用��h��供搜索服务�?/span>

Hadoop 实现�?/span> Google �?/span> MapReduce �~�程模型�Q�提供了��单易用的�~�程接口�Q�也提供了它自己的分布式文�g�pȝ�� HDFS,�?/span> Google 不同的是�Q?/span>Hadoop 是开源的�Q��Q何�h都可以��用这个框架来�q�行�q�行�~�程。如果说分布式�ƈ行编�E�的隑ֺ��以让普通程序员望而生畏的话，开源的 Hadoop 的出现极大的降低了它的门槛，��d��本文�Q�你会发现基�?/span> Hadoop �~�程非常��单，无须��M��q�行开发经验，你也可以��L��的开发出分布式的�q�行�E�序�Q��ƈ让其令�h难以�|�信地同时运行在数百台机器上�Q�然后在短时间内完成��量数据的计��。你可能会觉得你不可能会拥有数百台机器来�q�行你的�q�行�E�序�Q�而事实上�Q�随着"云计��?/span>"的普及，��M��人都可以��L��获得�q�样的�v量计��能力�?/span> 例如现在 Amazon 公司的云计算�q�_�� Amazon EC2 已经提供了这�U�按需计算的租用服务，有兴��的读者可以去了解一下，�q�篇�p�d��文章的第三部分将有所介绍�?/span>

掌握一点分布式�q�行�~�程的知识对��来的程序员是必不可��的�Q?/span>Hadoop 是如此的��便好用，何不��试一下呢�Q�也�怽�已经急不可耐的惌��一下基�?/span> Hadoop 的编�E�是怎么回事了，但毕竟这�U�编�E�模型与传统的顺序程序大不相同，掌握一点基��知识才能更好地理解基�?/span> Hadoop 的分布式�q�行�E�序是如何编写和�q�行的。因此本文会先介�l�一�?/span> MapReduce 的计��模型，Hadoop 中的分布式文件系�l?/span> HDFS, Hadoop 是如何实现�ƈ行计��的�Q�然后才介绍如何安装和部�|?/span> Hadoop 框架�Q�以及如何运�?/span> Hadoop �E�序�?/span>

MapReduce 计算模型

MapReduce �?/span> Google 公司的核心计��模型，它将复杂的运行于大规模集��上的�ƈ行计��过�E�高度的抽象��C��两个函数�Q?/span>Map �?/span> Reduce, �q�是一个��o人惊讶的��单却又威力巨大的模型。适合�?/span> MapReduce 来处理的数据�?/span>(或�Q�?/span>)有一个基本要�?/span>: 待处理的数据集可以分解成许多��的数据集，而且每一个小数据集都可以完全�q�行地进行处理�?/span>
�?/span> 1. MapReduce 计算��程

图一说明了用 MapReduce 来处理大数据集的�q�程, �q�个 MapReduce 的计��过�E�简而言之，��是��大数据集分解�ؓ成百上千的小数据集，每个(或若�q�个)数据集分别由集群中的一个结�?/span>(一般就是一台普通的计算�?/span>)�q�行处理�q�生成中间结果，然后�q�些中间�l�果又由大量的结点进行合�q?/span>, 形成最�l�结果�?/span>

计算模型的核心是 Map �?/span> Reduce 两个函数�Q�这两个函数��q��戯��责实玎ͼ�功能是按一定的映射规则��输入的对�{换成另一个或一�?/span> 对输出�?/span>
表一 Map �?/span> Reduce 函数

函数	输入	输出	说明
Map		List()	1. ��小数据集进一步解析成一�?/span> 对，输入 Map 函数中进行处理�?/span> 2. 每一个输入的会输��Z��?/span> �?/span> 是计��的中间�l�果�?/span>
Reduce			输入的中间结�?/span> 中的 List(v2) 表示是一批属于同一�?/span> k2 �?/span> value

以一个计��文本文件中每个单词出现的次数的�E�序��Z��Q?/span> 可以�?/span> <行在文�g中的偏移位置, 文�g中的一�?/span>>�Q�经 Map 函数映射之后�Q��Ş成一批中间结�?/span> <单词�Q�出现次�?/span>>, �?/span> Reduce 函数则可以对中间�l�果�q�行处理�Q�将相同单词的出现次数进行篏加，得到每个单词的�ȝ��出现�ơ数�?/span>

��Z�� MapReduce 计算模型�~�写分布式�ƈ行程序非常简单，�E�序员的主要�~�码工作��是实现 Map �?/span> Reduce 函数�Q�其它的�q�行�~�程中的�U�种复杂问题�Q�如分布式存储，工作调度�Q�负载��^衡，定w��处理�Q�网�l�通信�{�，均由 MapReduce 框架(比如 Hadoop )负责处理�Q�程序员完全不用操心�?/span>

�?/span> 集群上的�q�行计算

MapReduce 计算模型非常适合在大量计��机�l�成的大规模集群上�ƈ行运行。图一中的每一�?/span> Map ��d��和每一�?/span> Reduce ��d��均可以同时运行于一个单独的计算�l�点上，可想而知其运��效率是很高的，那么�q�样的�ƈ行计��是如何做到的呢�Q?/span>

数据分布存储

Hadoop 中的分布式文件系�l?/span> HDFS �׃��个管理结�?/span> ( NameNode )�?/span>N个数据结�?/span> ( DataNode )�l�成�Q�每个结点均是一台普通的计算机。在使用上同我们熟悉的单��Z��的文件系�l�非常类��|��一样可以徏目录�Q�创建，复制�Q�删除文�Ӟ��查看文�g内容�{�。但其底层实��C��是把文�g切割�?/span> Block�Q�然后这�?/span> Block 分散地存储于不同�?/span> DataNode 上，每个 Block �q�可以复制数份存储于不同�?/span> DataNode 上，辑ֈ�定w��容灾之目的�?/span>NameNode 则是整个 HDFS 的核心，它通过�l�护一些数据结构，记录了每一个文件被切割成了多少�?/span> Block�Q�这�?/span> Block 可以从哪�?/span> DataNode 中获得，各个 DataNode 的状态等重要信息。如果你想了解更多的关于 HDFS 的信息，可进一步阅��d��考资料： The Hadoop Distributed File System:Architecture and Design

分布式�ƈ行计��?/span>

Hadoop 中有一个作��Z��控的 JobTracker�Q�用于调度和��理其它�?/span> TaskTracker, JobTracker 可以�q�行于集��中��M��台计��机上�?/span>TaskTracker 负责执行��d��Q�必��运行于 DataNode 上，�?/span> DataNode 既是数据存储�l�点�Q�也是计��结炏V�?/span> JobTracker ��?/span> Map ��d��?/span> Reduce ��d��分发�l�空闲的 TaskTracker, 让这些�Q务�ƈ行运行，�q�负责监控�Q务的�q�行情况。如果某一�?/span> TaskTracker 出故障了�Q?/span>JobTracker 会将其负责的��d��转交�l�另一个空闲的 TaskTracker 重新�q�行�?/span>

本地计算

数据存储在哪一台计��机上，��q��q�台计算��行这部分数据的计��，�q�样可以减少数据在网�l�上的传输，降低对网�l�带宽的需求。在 Hadoop �q�样的基于集��的分布式�ƈ行系�l�中�Q�计��结点可以很方便地扩充，而因它所能够提供的计��能力近乎是无限的，但是由是数据需要在不同的计��机之间��动�Q�故�|?/span> �l�带宽变成了瓉��Q�是非常宝贵的，“本地计算”是最有效的一�U�节�U�网�l�带宽的手段�Q�业界把�q��Ş容�ؓ“�U�d��计算比移动数据更�l�济”�?/span>
�?/span> 2. 分布存储与�ƈ行计��?/span>

��d��_�度

把原始大数据集切割成��数据集�Ӟ��通常让小数据集小于或�{�于 HDFS 中一�?/span> Block 的大��?/span>(�~�省�?/span> 64M)�Q�这栯��够保证一个小数据集位于一台计��机上，便于本地计算。有 M 个小数据集待处理�Q�就启动 M �?/span> Map ��d��Q�注意这 M �?/span> Map ��d��分布�?/span> N 台计��机上�ƈ行运行，Reduce ��d��的数�?/span> R 则可��q��h��定�?/span>

Partition

�?/span>Map ��d��输出的中间结果按 key 的范围划分成 R �?/span>( R 是预先定义的 Reduce ��d��的个�?/span>)�Q�划分时通常使用 hash 函数�?/span>: hash(key) mod R�Q�这样可以保证某一�D�范围内�?/span> key�Q�一定是�׃��?/span> Reduce ��d��来处理，可以��?/span> Reduce 的过�E��?/span>

Combine

�?/span>partition 之前�Q�还可以对中间结果先�?/span> combine�Q�即��中间结果中有相�?/span> key�?/span> 对合�q�成一寏V�?/span>combine 的过�E�与 Reduce 的过�E�类��|��很多情况下就可以直接使用 Reduce 函数�Q�但 combine 是作�?/span> Map ��d��的一部分�Q�在执行�?/span> Map 函数后紧接着执行的�?/span>Combine 能够减少中间�l�果�?/span> 对的数目�Q�从而减��网�l�流量�?/span>

Reduce ��d��?/span> Map ��d��l�点取中间结�?/span>

Map��d��的中间结果在做完 Combine �?/span> Partition 之后�Q�以文�g形式存于本地��盘。中间结果文件的位置会通知��L�� JobTracker, JobTracker 再通知 Reduce ��d��到哪一�?/span> DataNode 上去取中间结果。注意所有的 Map ��d��产生中间�l�果均按�?/span> Key 用同一�?/span> Hash 函数划分成了 R 份，R �?/span> Reduce ��d��各自负责一�D?/span> Key 区间。每�?/span> Reduce 需要向许多�?/span> Map ��d��l�点取得落在其负责的 Key 区间内的中间�l�果�Q�然后执�?/span> Reduce 函数�Q��Ş成一个最�l�的�l�果文�g�?/span>

��d��道

�?/span> R �?/span> Reduce ��d��Q�就会有 R 个最�l�结果，很多情况下这 R 个最�l�结果�ƈ不需要合�q�成一个最�l�结果。因�� R 个最�l�结果又可以做�ؓ另一个计��Q务的输入�Q�开始另一个�ƈ行计��Q务�?/span>

�?/span> Hadoop 初体�?/span>

Hadoop 支持 Linux �?/span> Windows 操作�pȝ��, 但其官方�|�站声明 Hadoop 的分布式操作�?/span> Windows 上未做严格测试，��只把 Windows 作�ؓ Hadoop 的开发��^台。在 Windows 环境上的安装步骤如下( Linux �q�_��c�M��Q�且更简单一�?/span>):

(1)�?/span> Windows 下，需要先安装 Cgywin, 安装 Cgywin 时注意一定要选择安装 openssh (�?/span> Net category )。安装完成之后，�?/span> Cgywin 的安装目录如 c:"cygwin"bin 加到�pȝ��环境变量 PATH 中，�q�是因�ؓ�q�行 Hadoop 要执行一�?/span> linux 环境下的脚本和命令�?/span>

(2)安装 Java 1.5.x�Q��ƈ��?/span> JAVA_HOME 环境变量讄��?/span> Java 的安装根目录�?/span> C:"Program Files"Java"jdk1.5.0_01�?/span>

(3)�?/span> Hadoop 官方�|�站 http://hadoop.apache.org/下蝲Hadoop Core, 最新的�E�_��版本�?/span> 0.16.0. ��下载后的安装包解压��C��个目录，本文假定解压�?/span> c:"hadoop-0.16.0�?/span>

4)修改 conf/hadoop-env.sh 文�g�Q�在其中讄�� JAVA_HOME 环境变量�Q?/span> export JAVA_HOME="C:"Program Files"Java"jdk1.5.0_01” (因�ؓ路径�?/span> Program Files 中间有空��|��一定要用双引号��\径引��h��)

��x��Q�一切就�l�，可以�q�行 Hadoop 了。以下的�q�行�q�程�Q�需要启�?/span> cygwin, �q�入模拟 Linux 环境。在下蝲�?/span> Hadoop Core 包中�Q�带有几个示例程序�ƈ且已�l�打包成�?/span> hadoop-0.16.0-examples.jar。其中有一�?/span> WordCount �E�序�Q�功能是�l�计一�Ҏ��本文件中各个单词出现的次敎ͼ�我们先来看看怎么�q�行�q�个�E�序�?/span>Hadoop 共有三种�q�行模式: 单机(非分布式)模式�Q�伪分布式运行模式，分布式运行模式，其中前两�U�运行模式体��C��?/span> Hadoop 分布式计��的优势�Q��ƈ没有什么实际意义，但对�E�序的测试及调试很有帮助�Q�我们先从这两种模式入手�Q�了解基�?/span> Hadoop 的分布式�q�行�E�序是如何编写和�q�行的�?/span>

单机(非分布式)模式

�q�种模式在一台单��Z��q�行�Q�没有分布式文�g�pȝ��Q�而是直接��d��本地操作�pȝ��的文件系�l��?/span>
代码清单1

$ cd /cygdrive/c/hadoop-0.16.0
$ mkdir test-in
$ cd test-in
#�?nbsp;test-in 目录下创��Z��个文本文�?/span>, WordCount �E�序��统计其中各个单词出现次�?br>$ echo "hello world bye world" >file1.txt
$ echo "hello hadoop goodbye hadoop" >file2.txt
$ cd ..
$ bin/hadoop jar hadoop-0.16.0-examples.jar wordcount test-in test-out
#执行完毕�Q�下面查看执行结果：
$ cd test-out
$ cat part-00000
bye     1
goodbye  1
hadoop  2
hello    2
world   2

注意事项�Q�运�?/span> bin/hadoop jar hadoop-0.16.0-examples.jar wordcount test-in test-out �Ӟ��务必注意�W�一个参数是 jar, 不是 -jar, 当你�?/span> -jar �Ӟ��不会告诉你是参数错了�Q�报告出来的错误信息是：Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/util/ProgramDriver, �W�者当时以为是 classpath 的设�|�问题，��费了不��时间。通过分析 bin/hadoop 脚本可知�Q?/span>-jar �q�不�?/span> bin/hadoop 脚本定义的参敎ͼ�此脚本会�?/span> -jar 作�ؓ Java 的参敎ͼ�Java �?/span>-jar 参数表示执行一�?/span> Jar 文�g(�q�个 Jar 文�g必须是一个可执行�?/span> Jar,卛_�� MANIFEST 中定义了�ȝ��), 此时外部定义�?/span> classpath 是不起作用的�Q�因而会抛出 java.lang.NoClassDefFoundError 异常。�?/span> jar �?/span> bin/hadoop 脚本定义的参敎ͼ�会调�?/span> Hadoop 自己的一个工��L�� RunJar�Q�这个工��L��也能够执行一�?/span> Jar 文�g�Q��ƈ且外部定义的 classpath 有效�?/span>

伪分布式�q�行模式

�q�种模式也是在一台单��Z��q�行�Q�但用不同的 Java �q�程模仿分布式运行中的各�cȝ��?/span> ( NameNode, DataNode, JobTracker, TaskTracker, Secondary NameNode )�Q�请注意分布式运行中的这几个�l�点的区别：

从分布式存储的角度来��_��集群中的�l�点�׃��?/span> NameNode 和若�q�个 DataNode �l�成, 另有一�?/span> Secondary NameNode 作�ؓ NameNode 的备份�?/span> 从分布式应用的角度来��_��集群中的�l�点�׃��?/span> JobTracker 和若�q�个 TaskTracker �l�成�Q?/span>JobTracker 负责��d��的调度，TaskTracker 负责�q�行执行��d��?/span>TaskTracker 必须�q�行�?/span> DataNode 上，�q�样便于数据的本地计��?/span>JobTracker �?/span> NameNode 则无��d��同一台机器上�?/span>

(1) 按代码清�?/span>2修改 conf/hadoop-site.xml。注�?/span> conf/hadoop-default.xml 中是 Hadoop �~�省的参敎ͼ�你可以通过��L��文�g了解 Hadoop 中有哪些参数可供配置�Q�但不要修改此文件。可通过修改 conf/hadoop-site.xml 改变�~�省参数��|��此文件中讄��的参数��g��覆盖 conf/hadoop-default.xml 的同名参数�?/span>
代码清单 2

<configuration>
  <property>
    <name>fs.default.namename>
    <value>localhost:9000value>
  property>
  <property>
    <name>mapred.job.trackername>
    <value>localhost:9001value>
  property>
  <property>
    <name>dfs.replicationname>
    <value>1value>
  property>
configuration>

参数 fs.default.name 指定 NameNode �?/span> IP 地址和端口号。缺省值是 file:///, 表示使用本地文�g�pȝ��, 用于单机非分布式模式。此处我们指定��用运行于本机 localhost 上的 NameNode�?/span>

参数 mapred.job.tracker 指定 JobTracker �?/span> IP 地址和端口号。缺省值是 local, 表示在本地同一 Java �q�程内执�?/span> JobTracker �?/span> TaskTracker, 用于单机非分布式模式。此处我们指定��用运行于本机 localhost 上的 JobTracker ( 用一个单独的 Java �q�程�?/span> JobTracker )�?/span>

参数 dfs.replication 指定 HDFS 中每�?/span> Block 被复制的�ơ数�Q��v数据冗余备䆾的作用�?/span> 在典型的生��pȝ��中，�q�个数常常设�|��ؓ3�?/span>

(2)配置 SSH,如代码清�?/span>3所�C?/span>:
代码清单 3

$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

配置完后�Q�执行一�?/span> ssh localhost, ��认你的机器可以�?/span> SSH �q�接�Q��ƈ且连接时不需要手工输入密码�?/span>

(3)格式化一个新的分布式文�g�pȝ��, 如代码清�?/span>4所�C?/span>:

$ cd /cygdrive/c/hadoop-0.16.0
$ bin/hadoop namenode –format

(4) 启动 hadoop �q�程, 如代码清�?/span>5所�C�。控制台上的输出信息应该昄��启动�?/span> namenode, datanode, secondary namenode, jobtracker, tasktracker。启动完成之后，通过 ps –ef 应该可以看到启动�?/span>5个新�?/span> java �q�程�?/span>
代码清单 5

$ bin/start-all.sh
$ ps –ef

(5) �q�行 wordcount 应用, 如代码清�?/span>6所�C?/span>:

$ bin/hadoop dfs -put ./test-in input
#��本地文件系�l�上�?nbsp;./test-in 目录拷到 HDFS 的根目录上，目录名改�?nbsp;input
#执行 bin/hadoop dfs –help 可以学习各种 HDFS 命��o的��用�?br>$ bin/hadoop jar hadoop-0.16.0-examples.jar wordcount input output
#查看执行�l�果:
#��文件从 HDFS 拷到本地文�g�pȝ��中再查看�Q?br>$ bin/hadoop dfs -get output output
$ cat output/*
#也可以直接查�?br>$ bin/hadoop dfs -cat output/*
$ bin/stop-all.sh #停止 hadoop �q�程

故障诊断

(1) 执行 $ bin/start-all.sh 启动 Hadoop �q�程后，会启�?/span>5�?/span> java �q�程, 同时会在 /tmp 目录下创��Z��?/span> pid 文�g记录�q�些�q�程 ID 受��通过�q�五个文�Ӟ��可以得知 namenode, datanode, secondary namenode, jobtracker, tasktracker 分别对应于哪一�?/span> Java �q�程。当你觉�?/span> Hadoop 工作不正常时�Q�可以首先查看这5�?/span> java �q�程是否在正常运行�?/span>

(2) 使用 web 接口。访�?/span> http://localhost:50030 可以查看 JobTracker 的运行状态。访�?/span> http://localhost:50060 可以查看 TaskTracker 的运行状态。访�?/span> http://localhost:50070 可以查看 NameNode 以及整个分布式文件系�l�的状态，��览分布式文件系�l�中的文件以�?/span> log �{��?/span>

(3) 查看 ${HADOOP_HOME}/logs 目录下的 log 文�g�Q?/span>namenode, datanode, secondary namenode, jobtracker, tasktracker 各有一个对应的 log 文�g�Q�每一�ơ运行的计算��d��也有对应�?/span> log 文�g。分析这�?/span> log 文�g有助于找到故障原因�?/span>

�l�束�?/span>

现在�Q�你已经了解�?/span> MapReduce 计算模型�Q�分布式文�g�pȝ�� HDFS�Q�分布式�q�行计算�{�的基本原理, �q�且有了一个可以运行的 Hadoop 环境�Q�运行了一个基�?/span> Hadoop 的�ƈ行程序。在下一��文章中�Q�你��了解到如何针对一个具体的计算��d��Q�基�?/span> Hadoop �~�写自己的分布式�q�行�E�序�q�将光��|�运行等内容�?/span>

参考资�?/span>

学习

讉K�� Hadoop 官方�|�站,了解 Hadoop 及其子项�?/span> HBase 的信息�?/span>
Hadoop wiki �?/span>, 有许�?/span> Hadoop 的用��h��?/span>,开发文�?/span>,�C�Z��E�序�{��?/span>
阅读 Google Mapreduce 论文�Q?/span> MapReduce: Simplified Data Processing on Large Clusters, 深入了解 Mapreduce 计算模型�?/span>
学习 Hadoop 分布式文件系�l?/span> HDFS�Q?/span> The Hadoop Distributed File System:Architecture and Design
学习 Google 文�g�pȝ�� GFS: The Google File System, Hadoop HDFS 实现了与 GFS �c�M��的功能�?/span>

��王 2010-01-28 13:50 发表评论