久久婷婷av,欧美日韩综合,国色天香一区二区

koson — Mon, 19 Jul 2010 06:50:00 GMT

http://caibinbupt.javaeye.com/ 蔡斌�Q�hadoop源码分析
http://www.oschina.net/p/hive/recomm HIVE的详�l�教�E?br>http://www.tbdata.org/archives/category/hive 淘宝数据�q�_��团队
http://www.cnblogs.com/spork/archive/2010/01/11/1644342.html Map/Reduce数据��?br>

koson 2010-07-19 14:50 发表评论

koson — Mon, 19 Jul 2010 06:42:00 GMT

Hadoop分布式文件系�l�：架构和设计要�?/span>
原文�Q�http://hadoop.apache.org/core/docs/current/hdfs_design.html
一、前提和设计目标
1、硬仉��误是常态，而非异常情况�Q?/span>HDFS可能是有成百上千�?/span>server�l�成�Q��Q何一个组仉��有可能一直失效，因此错误��和快速、自动的恢复�?/span>HDFS的核心架构目标�?/span>
2、跑�?/span>HDFS上的应用与一般的应用不同�Q�它们主要是以流式读��Z��Q�做扚w��处理�Q�比之关注数据访问的低�g�q�问题，更关键的在于数据讉K��的高吞吐量�?/span>
3�?/span>HDFS以支持大数据集合为目标，一个存储在上面的典型文件大��一般都在千兆至T字节�Q�一个单一HDFS实例应该能支撑数以千万计的文件�?/span>
4�?HDFS应用�Ҏ��件要求的�?/span>write-one-read-many讉K��模型。一个文件经�q�创建、写�Q�关闭之后就不需要改变。这一假设��化了数据一致性问题，佉K��吞吐量的数据讉K��成�ؓ可能。典型的�?/span>MapReduce框架�Q�或者一�?/span>web crawler应用都很适合�q�个模型�?/span>
5、移动计��的代�h比之�U�d��数据的代价低。一个应用请求的计算�Q�离它操作的数据��近��p��高效�Q�这在数据达到�v量��别的时候更是如此。将计算�U�d��到数据附�q�，比之��数据移动到应用所在显然更好，HDFS提供�l�应用这��L��接口�?/span>
6、在异构的��Y��g�q�_��间的可移植性�?/span>

二�?/span>Namenode�?/span>Datanode
    HDFS采用master/slave架构。一�?/span>HDFS集群是有一�?/span>Namenode和一定数目的Datanode�l�成�?/span>Namenode是一个中心服务器�Q�负责管理文件系�l�的namespace和客��L��Ҏ��件的讉K��?/span>Datanode在集��中一般是一个节点一个，负责��理节点上它们附带的存储。在内部�Q�一个文件其实分成一个或多个block�Q�这�?/span>block存储�?/span>Datanode集合里�?/span>Namenode执行文�g�pȝ��?/span>namespace操作�Q�例如打开、关闭、重命名文�g和目录，同时军_��block到具�?/span>Datanode节点的映��?/span>Datanode�?/span>Namenode的指挥下�q�行block的创建、删除和复制�?/span>Namenode�?/span>Datanode都是设计成可以跑在普通的廉�h的运�?/span>linux的机器上�?/span>HDFS采用java语言开发，因此可以部��v在很大范围的机器上。一个典型的部��v场景是一台机器跑一个单独的Namenode节点�Q�集��中的其他机器各跑一�?/span>Datanode实例。这个架构�ƈ不排除一台机器上跑多�?/span>Datanode�Q�不�q�这比较��见�?/span>

单一节点�?/span>Namenode大大��化了�pȝ��的架构�?/span>Namenode负责保管和管理所有的HDFS元数据，因而用��h��据就不需要通过Namenode�Q�也��是说文件数据的��d��是直接在Datanode上）�?/span>

三、文件系�l�的namespace
   HDFS支持传统的层�ơ型文�g�l�织�Q�与大多数其他文件系�l�类��|��用户可以创徏目录�Q��ƈ在其间创建、删除、移动和重命名文件�?/span>HDFS不支�?/span>user quotas和访问权限，也不支持链接�Q?/span>link)�Q�不�q�当前的架构�q�不排除实现�q�些�Ҏ��?/span>Namenode�l�护文�g�pȝ��?/span>namespace�Q��Q何对文�g�pȝ��namespace和文件属性的修改都将�?/span>Namenode记录下来。应用可以设�|?/span>HDFS保存的文件的副本数目�Q�文件副本的数目�U�Cؓ文�g�?replication因子�Q�这个信息也是由Namenode保存�?/span>

四、数据复�?/span>
    HDFS被设计成在一个大集群中可以跨机器地可靠地存储��量的文件。它��每个文件存储成block序列�Q�除了最后一�?/span>block�Q�所有的block都是同样的大��。文件的所�?/span>block��Z��定w��都会被复制。每个文件的block大小�?/span>replication因子都是可配�|�的�?/span>Replication因子可以在文件创建的时候配�|�，以后也可以改变�?/span>HDFS中的文�g�?/span>write-one�Q��ƈ且严��D��求在��M��时候只有一�?/span>writer�?/span>Namenode全权��理block的复�Ӟ��它周期性地从集��中的每�?/span>Datanode接收心蟩包和一�?/span>Blockreport。心跛_��的接收表�C��Datanode节点正常工作�Q��?/span>Blockreport包括了该Datanode上所有的block�l�成的列表�?/span>

1、副本的存放�Q�副本的存放�?/span>HDFS可靠性和性能的关键�?/span>HDFS采用一�U�称�?/span>rack-aware的策略来改进数据的可靠性、有效性和�|�络带宽的利用。这个策略实现的短期目标是验证在生��环境下的表现�Q�观察它的行为，构徏��试和研�I�的基础�Q�以便实现更先进的策略。庞大的HDFS实例一般运行在多个机架的计��机形成的集��上�Q�不同机枉��的两台机器的通讯需要通过交换机，昄��通常情况下，同一个机架内的两个节炚w��的带宽会比不同机枉��的两台机器的带宽大�?/span>
    通过一个称�?/span>Rack Awareness的过�E�，Namenode军_��了每�?/span>Datanode所属的rack id。一个简单但没有优化的策略就是将副本存放在单独的机架上。这样可以防止整个机�Ӟ��非副本存放）失效的情况，�q�且允许��L��据的时候可以从多个机架��d��。这个简单策略设�|�可以将副本分布在集��中�Q�有利于�l��g��p�|情况下的负蝲均衡。但是，�q�个��单策略加大了写的代�h�Q�因��Z��个写操作需要传�?/span>block到多个机架�?/span>
    在大多数情况下，replication因子�?/span>3�Q?/span>HDFS的存攄��略是��一个副本存攑֜�本地机架上的节点�Q�一个副本放在同一机架上的另一个节点，最后一个副本放在不同机架上的一个节炏V��机架的错误�q�远比节点的错误��，�q�个�{�略不会影响到数据的可靠性和有效性。三分之一的副本在一个节点上�Q�三分之二在一个机架上�Q�其他保存在剩下的机架中�Q�这一�{�略改进了写的性能�?/span>

2、副本的选择�Q��ؓ了降低整体的带宽消耗和��d�g�Ӟ��HDFS会尽量让reader��L��q�的副本。如果在reader的同一个机架上有一个副本，那么��p��该副本。如果一�?/span>HDFS集群跨越多个数据中心�Q�那�?/span>reader也将首先��试��L��地数据中心的副本�?/span>

3�?/span>SafeMode
    Namenode启动后会�q�入一个称�?/span>SafeMode的特�D�状态，处在�q�个状态的Namenode是不会进行数据块的复制的�?/span>Namenode从所有的 Datanode接收心蟩包和Blockreport�?/span>Blockreport包括了某�?/span>Datanode所有的数据块列表。每�?/span>block都有指定的最��数目的副本。当Namenode��确认某�?/span>Datanode的数据块副本的最��数目，那么�?/span>Datanode��׃��被认为是安全的；如果一定百分比�Q�这个参数可配置�Q�的数据块检��确认是安全的，那么Namenode��退�?/span>SafeMode状态，接下来它会确定还有哪些数据块的副本没有达到指定数目，�q�将�q�些block复制到其�?/span>Datanode�?/span>

五、文件系�l�元数据的持久化
    Namenode存储HDFS的元数据。对于�Q何对文�g元数据��生修改的操作�Q?/span>Namenode都��用一个称�?/span>Editlog的事务日志记录下来。例如，�?/span>HDFS中创��Z��个文�Ӟ��Namenode��׃��?/span>Editlog中插入一条记录来表示�Q�同��P��修改文�g�?/span>replication因子也将往 Editlog插入一条记录�?/span>Namenode在本�?/span>OS的文件系�l�中存储�q�个Editlog。整个文件系�l�的namespace�Q�包�?/span>block到文件的映射、文件的属性，都存储在�U�CؓFsImage的文件中�Q�这个文件也是放�?/span>Namenode所在系�l�的文�g�pȝ��上�?/span>
    Namenode在内存中保存着整个文�g�pȝ��namespace和文�?/span>Blockmap的映像。这个关键的元数据设计得很紧凑，因而一个带�?/span>4G内存�?Namenode��_��支撑��量的文件和目录。当Namenode启动�Ӟ��它从��盘中读�?/span>Editlog�?/span>FsImage�Q�将所�?/span>Editlog中的事务作用�Q?/span>apply)在内存中�?/span>FsImage �Q��ƈ��这个新版本�?/span>FsImage从内存中flush到硬盘上,然后�?/span>truncate�q�个旧的Editlog�Q�因��个旧�?/span>Editlog的事务都已经作用�?/span>FsImage上了。这个过�E�称�?/span>checkpoint。在当前实现中，checkpoint只发生在Namenode启动�Ӟ��在不久的��来我们��实现支持周期性的checkpoint�?/span>
    Datanode�q�不知道关于文�g的�Q何东西，除了��文件中的数据保存在本地的文件系�l�上。它把每�?/span>HDFS数据块存储在本地文�g�pȝ��上隔��ȝ��文�g中�?Datanode�q�不在同一个目录创建所有的文�g�Q�相反，它用启发式地�Ҏ��来确定每个目录的最��x��件数目，�q�且在适当的时候创建子目录。在同一个目录创建所有的文�g不是最优的选择�Q�因为本地文件系�l�可能无法高效地在单一目录中支持大量的文�g。当一�?/span>Datanode启动�Ӟ��它扫描本地文件系�l�，对这些本地文件��生相应的一个所�?/span>HDFS数据块的列表�Q�然后发送报告到Namenode�Q�这个报告就�?/span>Blockreport�?/span>

六、通讯协议
    所有的HDFS通讯协议都是构徏�?/span>TCP/IP协议上。客��L��通过一个可配置的端口连接到Namenode�Q�通过ClientProtocol�?Namenode交互。�?/span>Datanode是��?/span>DatanodeProtocol�?/span>Namenode交互。从ClientProtocol�?Datanodeprotocol抽象��Z��个远�E�调�?/span>(RPC�Q�，在设计上�Q?/span>Namenode不会��d��发�vRPC�Q�而是是响应来自客��L��?Datanode �?/span>RPC��h��?/span>

七、健壮�?/span>
    HDFS的主要目标就是实现在��p�|情况下的数据存储可靠性。常见的三种��p�|�Q?/span>Namenode failures, Datanode failures和网�l�分�Ԍ��network partitions)�?/span>
1、硬盘数据错误、心��x��和重新复制
    每个Datanode节点都向Namenode周期性地发送心跛_��。网�l�切割可能导致一部分Datanode�?/span>Namenode失去联系�?Namenode通过心蟩包的�~�失��到�q�一情况�Q��ƈ��这�?/span>Datanode标记�?/span>dead�Q�不会将新的IO��h��发给它们。寄存在dead Datanode上的��M��数据��不再有效�?/span>Datanode的死亡可能引起一�?/span>block的副本数目低于指定��|��Namenode不断地跟�t�需要复制的 block�Q�在��M��需要的情况下启动复制。在下列情况可能需要重新复�Ӟ��某个Datanode节点失效�Q�某个副本遭到损坏，Datanode上的��盘错误�Q�或者文件的replication因子增大�?/span>

2、集��均�?/span>
   HDFS支持数据的均衡计划，如果某个Datanode节点上的�I�闲�I�间低于特定的��界点�Q�那么就会启动一个计划自动地��数据从一�?/span>Datanode搬移到空闲的Datanode。当�Ҏ��个文件的��h��H�然增加�Q�那么也可能启动一个计划创��文�g新的副本�Q��ƈ分布到集��中以满��_��用的要求。这些均衡计划目前还没有实现�?/span>

3、数据完整�?/span>
从某�?/span>Datanode获取的数据块有可能是损坏的，�q�个损坏可能是由�?/span>Datanode的存储设备错误、网�l�错误或者��Y�?/span>bug造成的�?/span>HDFS客户端��Y件实��C��HDFS文�g内容的校验和。当某个客户端创��Z��个新�?/span>HDFS文�g�Q�会计算�q�个文�g每个block的校验和�Q��ƈ作�ؓ一个单独的隐藏文�g保存�q�些校验和在同一�?/span>HDFS namespace下。当客户端检索文件内容，它会��认�?/span>Datanode获取的数据跟相应的校验和文�g中的校验和是否匹配，如果不匹配，客户端可以选择从其�?/span>Datanode获取�?/span>block的副本�?/span>

4、元数据��盘错误
    FsImage�?/span>Editlog�?/span>HDFS的核心数据结构。这些文件如果损坏了�Q�整�?/span>HDFS实例都将失效。因而，Namenode可以配置成支持维护多�?/span>FsImage�?/span>Editlog的拷贝。�Q何对FsImage或�?/span>Editlog的修改，都将同步到它们的副本上。这个同步操作可能会降低 Namenode每秒能支持处理的namespace事务。这个代��h��可以接受的，因�ؓHDFS是数据密集的�Q�而非元数据密集。当Namenode重启的时候，它��L��选取最�q�的一致的FsImage�?/span>Editlog使用�?/span>
   Namenode�?/span>HDFS是单点存在，如果Namenode所在的机器错误�Q�手工的�q�预是必��ȝ��。目前，在另一台机器上重启因故障而停止服务的Namenode�q�个功能�q�没实现�?/span>

5、快�?/span>
   快照支持某个旉��的数据拷贝，�?/span>HDFS数据损坏的时候，可以恢复到过��M��个已知正��的旉��炏V�?/span>HDFS目前�q�不支持快照功能�?/span>

八、数据组�l?/span>
1、数据块
    兼容HDFS的应用都是处理大数据集合的。这些应用都是写数据一�ơ，��d��是一�ơ到多次�Q��ƈ且读的速度要满��x��式读�?/span>HDFS支持文�g�?/span>write- once-read-many语义。一个典型的block大小�?/span>64MB�Q�因而，文�g��L��按照64M切分�?/span>chunk�Q�每�?/span>chunk存储于不同的 Datanode
2、步�?/span>
    某个客户端创建文件的��h��其实�q�没有立卛_��l?/span>Namenode�Q�事实上�Q?/span>HDFS客户端会��文件数据缓存到本地的一个��时文件。应用的写被透明地重定向到这个��时文件。当�q�个临时文�g累积的数据超�q�一�?/span>block的大��（默认64M)�Q�客��L��才会联系Namenode�?/span>Namenode��文件名插入文�g�pȝ��的层�ơ结构中�Q��ƈ且分配一个数据块�l�它�Q�然后返�?/span>Datanode的标识符和目标数据块�l�客��L��。客��L��本��C��时文�?/span>flush到指定的 Datanode上。当文�g关闭�Ӟ��在��时文件中剩余的没�?/span>flush的数据也会传输到指定�?/span>Datanode�Q�然后客��L��告诉Namenode文�g已经关闭。此�?/span>Namenode才将文�g创徏操作提交到持久存储。如�?/span>Namenode在文件关闭前挂了�Q�该文�g��丢失�?/span>
   上述�Ҏ��是对通过�?/span>HDFS上运行的目标应用认真考虑的结果。如果不采用客户端缓存，�׃��|�络速度和网�l�堵塞会对吞估量造成比较大的影响�?/span>

3、流水线复制
    当某个客��L��?/span>HDFS文�g写数据的时候，一开始是写入本地临时文�g�Q�假设该文�g�?/span>replication因子讄��?/span>3�Q�那么客��L��会从Namenode 获取一�?/span>Datanode列表来存攑։�本。然后客��L��开始向�W�一�?/span>Datanode传输数据�Q�第一�?/span>Datanode一��部分一��部分（4kb)地接收数据，��每个部分写入本��C��库，�q�且同时传输该部分到�W�二�?/span>Datanode节点。第二个Datanode也是�q�样�Q�边收边传，一��部分一��部分地�Ӟ��存储在本��C��库，同时传给�W�三�?/span>Datanode�Q�第三个Datanode��׃��仅是接收�q�存储了。这��是��水�U�式的复制�?/span>

九、可讉K��?/span>
    HDFS�l�应用提供了多种讉K��方式�Q�可以通过DFSShell通过命��o行与HDFS数据�q�行交互�Q�可以通过java API调用�Q�也可以通过C语言的封�?/span>API讉K��Q��ƈ且提供了��览器访问的方式。正在开发通过WebDav协议讉K��的方式。具体��用参考文档�?/span>
十、空间的回收
1、文件的删除和恢�?/span>
    用户或者应用删除某个文�Ӟ��q�个文�g�q�没有立��M��HDFS中删除。相反，HDFS��这个文仉��命名�Q��ƈ转移�?/span>/trash目录。当文�g�q�在/trash目录�Ӟ��该文件可以被�q�速地恢复。文件在/trash中保存的旉��是可配置的，当超�q�这个时��_��Namenode��׃��该文�g�?/span>namespace中删除。文件的删除�Q�也��释攑օ�联该文�g的数据块。注意到�Q�在文�g被用户删除和HDFS�I�闲�I�间的增加之间会有一个等待时间�g�q��?/span>
    当被删除的文件还保留�?/span>/trash目录中的时候，如果用户��x��复这个文�Ӟ��可以��索浏�?/span>/trash目录�q�检索该文�g�?/span>/trash目录仅仅保存被删除文件的最�q�一�ơ拷贝�?/span>/trash目录与其他文件目录没有什么不同，除了一点：HDFS在该目录上应用了一个特�D�的�{�略来自动删除文�Ӟ��目前的默认策略是删除保留��过6��时的文�Ӟ��q�个�{�略以后会定义成可配�|�的接口�?/span>

2�?/span>Replication因子的减��?/span>
    当某个文件的replication因子减小�Q?/span>Namenode会选择要删除的�q�剩的副本。下�ơ心��x��就��该信息传递给Datanode�Q?Datanode��׃��U�除相应�?/span>block�q��攄��_��同样�Q�在调用setReplication�Ҏ��和集��中的空闲空间增加之间会有一个时间�g�q��?/span>

参考资料：
HDFS Java API: http://hadoop.apache.org/core/docs/current/api/
HDFS source code: http://hadoop.apache.org/core/version_control.html

koson 2010-07-19 14:42 发表评论

Hadoop Map/Reduce教程

koson — Mon, 19 Jul 2010 06:40:00 GMT

目的
�q�篇教程从用��L��角度出发�Q�全面地介绍了Hadoop Map/Reduce框架的各个方面�?/p>

先决条�g
请先��认Hadoop被正��安装、配�|�和正常�q�行中。更多信息见�Q?/p>

Hadoop快速入门对初次使用者�?
Hadoop集群搭徏对大规模分布式集��?
概述
Hadoop Map/Reduce是一个��用简易的软�g框架�Q�基于它写出来的应用�E�序能够�q�行在由上千个商用机器组成的大型集群上，�q�以一�U�可靠容错的方式�q�行处理上T�U�别的数据集�?/p>

一个Map/Reduce 作业�Q�job�Q?通常会把输入的数据集切分��q�独立的数据块，�?map��d��Q�task�Q�以完全�q�行的方式处理它们。框架会对map的输出先�q�行排序�Q?然后把结果输入给reduce��d��。通常作业的输入和输出都会被存储在文�g�pȝ��中�?整个框架负责��d��的调度和监控�Q�以及重新执行已�l�失败的��d��?/p>

通常�Q�Map/Reduce框架和分布式文�g�pȝ��是运行在一�l�相同的节点上的�Q�也��是��_��计算节点和存储节炚w��常在一赗��这�U�配�|�允许框架在那些已经存好数据的节点上高效地调度�Q务，�q�可以��整个集群的网�l�带宽被非常高效地利用�?/p>

Map/Reduce框架�׃��个单独的master JobTracker 和每个集��节点一个slave TaskTracker共同�l�成。master负责调度构成一个作业的所有�Q务，�q�些��d��分布在不同的slave上，master监控它们的执行，重新执行已经��p�|的�Q务。而slave仅负责执行由master指派的�Q务�?/p>

应用�E�序臛_��应该指明输入/输出的位�|�（路径�Q�，�q��过实现合适的接口或抽象类提供map和reduce函数。再加上其他作业的参敎ͼ��构成了作业配置�Q�job configuration�Q�。然后，Hadoop�?job client提交作业�Q�jar�?可执行程序等�Q�和配置信息�l�JobTracker�Q�后者负责分发这些��Y件和配置信息�l�slave、调度�Q务�ƈ监控它们的执行，同时提供状态和诊断信息�l�job-client�?/p>

虽然Hadoop框架是用JavaTM实现的，但Map/Reduce应用�E�序则不一定要�?Java来写 �?/p>

Hadoop Streaming是一�U�运行作业的实用工具�Q�它允许用户创徏和运行�Q何可执行�E�序 �Q�例如：Shell工具�Q�来做�ؓmapper和reducer�?
Hadoop Pipes是一个与SWIG兼容的C++ API �Q�没有基于JNITM技术）�Q�它也可用于实现Map/Reduce应用�E�序�?
输入与输�?br>Map/Reduce框架�q��{�?lt;key, value> 键值对上，也就是说�Q?框架把作业的输入看�ؓ是一�l?lt;key, value> 键值对�Q�同样也产出一�l? 键值对做�ؓ作业的输出，�q�两�l�键值对的类型可能不同�?/p>

框架需要对key和value的类(classes)�q�行序列化操作，因此�Q�这些类需要实�?Writable接口�?另外�Q��ؓ了方便框架执行排序操作，key�c�d��d��?WritableComparable接口�?/p>

一个Map/Reduce 作业的输入和输出�c�d��如下所�C�：

(input) -> map -> -> combine -> -> reduce -> (output)

例子�Q�WordCount v1.0
在深入细节之前，让我们先看一个Map/Reduce的应用示例，以便对它们的工作方式有一个初步的认识�?/p>

WordCount是一个简单的应用�Q�它可以计算出指定数据集中每一个单词出现的�ơ数�?/p>

�q�个应用适用�?单机模式�Q?伪分布式模式 �?完全分布式模�?三种Hadoop安装方式�?/p>

源代�?br> WordCount.java
1. package org.myorg;
2.
3. import java.io.IOException;
4. import java.util.*;
5.
6. import org.apache.hadoop.fs.Path;
7. import org.apache.hadoop.conf.*;
8. import org.apache.hadoop.io.*;
9. import org.apache.hadoop.mapred.*;
10. import org.apache.hadoop.util.*;
11.
12. public class WordCount {
13.
14.    public static class Map extends MapReduceBase implements Mapper {
15.      private final static IntWritable one = new IntWritable(1);
16.      private Text word = new Text();
17.
18.      public void map(LongWritable key, Text value, OutputCollector output, Reporter reporter) throws IOException {
19.        String line = value.toString();
20.        StringTokenizer tokenizer = new StringTokenizer(line);
21.        while (tokenizer.hasMoreTokens()) {
22.          word.set(tokenizer.nextToken());
23.          output.collect(word, one);
24.        }
25.      }
26.    }
27.
28.    public static class Reduce extends MapReduceBase implements Reducer {
29.      public void reduce(Text key, Iterator values, OutputCollector output, Reporter reporter) throws IOException {
30.        int sum = 0;
31.        while (values.hasNext()) {
32.          sum += values.next().get();
33.        }
34.        output.collect(key, new IntWritable(sum));
35.      }
36.    }
37.
38.    public static void main(String[] args) throws Exception {
39.      JobConf conf = new JobConf(WordCount.class);
40.      conf.setJobName("wordcount");
41.
42.      conf.setOutputKeyClass(Text.class);
43.      conf.setOutputValueClass(IntWritable.class);
44.
45.      conf.setMapperClass(Map.class);
46.      conf.setCombinerClass(Reduce.class);
47.      conf.setReducerClass(Reduce.class);
48.
49.      conf.setInputFormat(TextInputFormat.class);
50.      conf.setOutputFormat(TextOutputFormat.class);
51.
52.      FileInputFormat.setInputPaths(conf, new Path(args[0]));
53.      FileOutputFormat.setOutputPath(conf, new Path(args[1]));
54.
55.      JobClient.runJob(conf);
57.    }
58. }
59.

用法
假设环境变量HADOOP_HOME对应安装时的根目录，HADOOP_VERSION对应Hadoop的当前安装版本，�~�译WordCount.java来创建jar包，可如下操作：

$ mkdir wordcount_classes
$ javac -classpath ${HADOOP_HOME}/hadoop-${HADOOP_VERSION}-core.jar -d wordcount_classes WordCount.java
$ jar -cvf /usr/joe/wordcount.jar -C wordcount_classes/ .

假设�Q?/p>

/usr/joe/wordcount/input - 是HDFS中的输入路径
/usr/joe/wordcount/output - 是HDFS中的输出路径
用示例文本文件做��入：

$ bin/hadoop dfs -ls /usr/joe/wordcount/input/
/usr/joe/wordcount/input/file01
/usr/joe/wordcount/input/file02

$ bin/hadoop dfs -cat /usr/joe/wordcount/input/file01
Hello World Bye World

$ bin/hadoop dfs -cat /usr/joe/wordcount/input/file02
Hello Hadoop Goodbye Hadoop

�q�行应用�E�序�Q?/p>

$ bin/hadoop jar /usr/joe/wordcount.jar org.myorg.WordCount /usr/joe/wordcount/input /usr/joe/wordcount/output

输出是：

$ bin/hadoop dfs -cat /usr/joe/wordcount/output/part-00000
Bye 1
Goodbye 1
Hadoop 2
Hello 2
World 2

应用�E�序能够使用-files选项来指定一个由逗号分隔的�\径列表，�q�些路径是task的当前工作目录。��用选项-libjars可以向map和reduce的classpath中添加jar包。��?archives选项�E�序可以传递档案文件做为参敎ͼ��q�些档案文�g会被解压�q�且在task的当前工作目录下会创��Z��个指向解压生成的目录的符号链接（以压�~�包的名字命名）�?有关命��o行选项的更多细节请参�?Commands manual�?/p>

使用-libjars�?files�q�行wordcount例子�Q?br>hadoop jar hadoop-examples.jar wordcount -files cachefile.txt -libjars mylib.jar input output

解释
WordCount应用�E�序非常直截了当�?/p>

Mapper(14-26�?中的map�Ҏ��(18-25�?通过指定�?TextInputFormat(49�?一�ơ处理一行。然后，它通过StringTokenizer 以空��gؓ分隔�W�将一行切分�ؓ若干tokens�Q�之后，输出< , 1> 形式的键值对�?/p>

对于�C�Z��中的�W�一个输入，map输出是：
< Hello, 1>
< World, 1>
< Bye, 1>
< World, 1>

�W�二个输入，map输出是：
< Hello, 1>
< Hadoop, 1>
< Goodbye, 1>
< Hadoop, 1>

关于�l�成一个指定作业的map数目的确定，以及如何以更�_��的方式去控制�q�些map�Q�我们将在教�E�的后箋部分学习到更多的内容�?/p>

WordCount�q�指定了一个combiner (46�?。因此，每次map�q�行之后�Q�会对输出按照key�q�行排序�Q�然后把输出传递给本地的combiner�Q�按照作业的配置与Reducer一��P��Q�进行本地聚合�?/p>

�W�一个map的输出是�Q?br>< Bye, 1>
< Hello, 1>
< World, 2>

�W�二个map的输出是�Q?br>< Goodbye, 1>
< Hadoop, 2>
< Hello, 1>

Reducer(28-36�?中的reduce�Ҏ��(29-35�? 仅是��每个key�Q�本例中��是单词�Q�出现的�ơ数求和�?/p>

因此�q�个作业的输出就是：
< Bye, 1>
< Goodbye, 1>
< Hadoop, 2>
< Hello, 2>
< World, 2>

代码中的run�Ҏ��中指定了作业的几个方面，例如�Q�通过命��o行传递过来的输入/输出路径、key/value的类型、输�?输出的格式等�{�JobConf中的配置信息。随后程序调用了JobClient.runJob(55�?来提交作业�ƈ且监控它的执行�?/p>

我们��在本教�E�的后箋部分学习更多的关于JobConf�Q?JobClient�Q?Tool和其他接口及�c?class)�?/p>

Map/Reduce - 用户界面
�q�部分文档�ؓ用户��会面��的Map/Reduce框架中的各个环节提供了适当的细节。这应该会帮助用��h��l�粒度地��d��现、配�|�和调优作业。然而，��h��意每个类/接口的javadoc文档提供最全面的文档；本文只是惌��v到指南的作用�?/p>

我们会先看看Mapper和Reducer接口。应用程序通常会通过提供map和reduce�Ҏ��来实现它们�?/p>

然后�Q�我们会讨论其他的核心接口，其中包括�Q?JobConf�Q�JobClient�Q�Partitioner�Q?OutputCollector�Q�Reporter�Q?InputFormat�Q�OutputFormat�{�等�?/p>

最后，我们��通过讨论框架中一些有用的功能点（例如�Q�DistributedCache�Q?IsolationRunner�{�等�Q�来收尾�?/p>

核心功能描述
应用�E�序通常会通过提供map和reduce来实�?Mapper和Reducer接口�Q�它们组成作业的核心�?/p>

Mapper
Mapper��输入键值对(key/value pair)映射��C��l�中间格式的键值对集合�?/p>

Map是一�c�d��输入记录集�{换�ؓ中间格式记录集的独立��d��?�q�种转换的中间格式记录集不需要与输入记录集的�c�d��一致。一个给定的输入键值对可以映射�?个或多个输出键值对�?/p>

Hadoop Map/Reduce框架为每一个InputSplit产生一个map��d��Q�而每个InputSplit是由该作业的InputFormat产生的�?/p>

概括地说�Q�对Mapper的实现者需要重�?JobConfigurable.configure(JobConf)�Ҏ��Q�这个方法需要传递一个JobConf参数�Q�目的是完成Mapper的初始化工作。然后，框架��个�Q务的InputSplit中每个键值对调用一��?map(WritableComparable, Writable, OutputCollector, Reporter)操作。应用程序可以通过重写Closeable.close()�Ҏ��来执行相应的清理工作�?/p>

输出键值对不需要与输入键值对的类型一致。一个给定的输入键值对可以映射�?个或多个输出键值对。通过调用 OutputCollector.collect(WritableComparable,Writable)可以攉��输出的键值对�?/p>

应用�E�序可以使用Reporter报告�q�度�Q�设定应用��别的状态消息，更新Counters�Q�计数器�Q�，或者仅是表明自��p��行正常�?/p>

框架随后会把与一个特定key兌��的所有中间过�E�的��|��value�Q�分成组�Q�然后把它们传给Reducer以��出最�l�的�l�果。用户可以通过 JobConf.setOutputKeyComparatorClass(Class)来指定具体负责分�l�的 Comparator�?/p>

Mapper的输��排序后，��p��划分�l�每个Reducer。分块的��L��目和一个作业的reduce��d��的数目是一��L��。用户可以通过实现自定义的 Partitioner来控制哪个key被分配给哪个 Reducer�?/p>

用户可选择通过 JobConf.setCombinerClass(Class)指定一个combiner�Q�它负责对中间过�E�的输出�q�行本地的聚集，�q�会有助于降低从Mapper�?Reducer数据传输量�?/p>

�q�些被排好序的中间过�E�的输出�l�果保存的格式是(key-len, key, value-len, value)�Q�应用程序可以通过JobConf控制对这些中间结果是否进行压�~�以及怎么压羃�Q��用哪�U?CompressionCodec�?/p>

需要多��个Map�Q?br>Map的数目通常是由输入数据的大��决定的�Q�一般就是所有输入文件的��d��Q�block�Q�数�?/p>

Map正常的�ƈ行规模大致是每个节点�Q�node�Q�大�U?0�?00个map�Q�对于CPU 消耗较��的map��d��可以讑ֈ�300个左叟뀂由于每个�Q务初始化需要一定的旉��Q�因此，比较合理的情冉|��map执行的时间至��超�q?分钟�?/p>

�q�样�Q�如果你输入10TB的数据，每个块（block�Q�的大小�?28MB�Q�你��需要大�U?2,000个map来完成�Q务，除非使用 setNumMapTasks(int)�Q�注意：�q�里仅仅是对框架�q�行了一个提�C?hint)�Q�实际决定因素见�q�里�Q�将�q�个数��D��|�得更高�?/p>

Reducer
Reducer��与一个key兌��的一�l�中间数值集归约�Q�reduce�Q��ؓ一个更��的数值集�?/p>

用户可以通过 JobConf.setNumReduceTasks(int)讑֮�一个作业中reduce��d��的数目�?/p>

概括地说�Q�对Reducer的实现者需要重�?JobConfigurable.configure(JobConf)�Ҏ��Q�这个方法需要传递一个JobConf参数�Q�目的是完成Reducer的初始化工作。然后，框架为成�l�的输入数据中的每个对调用一��?reduce(WritableComparable, Iterator, OutputCollector, Reporter)�Ҏ��。之后，应用�E�序可以通过重写Closeable.close()来执行相应的清理工作�?/p>

Reducer�?个主要阶�D�：shuffle、sort和reduce�?/p>

Shuffle
Reducer的输入就是Mapper已经排好序的输出。在�q�个阶段�Q�框枉��过HTTP为每个Reducer获得所有Mapper输出中与之相关的分块�?/p>

Sort
�q�个阶段�Q�框架将按照key的值对Reducer的输入进行分�l?�Q�因��Z��同mapper的输��Z��可能会有相同的key�Q��?/p>

Shuffle和Sort两个阶段是同时进行的�Q�map的输��Z��是一边被取回一边被合�ƈ的�?/p>

Secondary Sort
如果需要中间过�E�对key的分�l�规则和reduce前对key的分�l�规则不同，那么可以通过 JobConf.setOutputValueGroupingComparator(Class)来指定一个Comparator。再加上 JobConf.setOutputKeyComparatorClass(Class)可用于控制中间过�E�的key如何被分�l�，所以结合两者可以实现按值的二次排序�?/p>

Reduce
在这个阶�D�，框架为已分组的输入数据中的每�?对调用一��?reduce(WritableComparable, Iterator, OutputCollector, Reporter)�Ҏ��?/p>

Reduce��d��的输出通常是通过调用 OutputCollector.collect(WritableComparable, Writable)写入文�g�pȝ��的�?/p>

应用�E�序可以使用Reporter报告�q�度�Q�设定应用程序��别的状态消息，更新Counters�Q�计数器�Q�，或者仅是表明自��p��行正常�?/p>

Reducer的输出是没有排序的�?/p>

需要多��个Reduce�Q?br>Reduce的数目徏议是0.95�?.75乘以 ( * mapred.tasktracker.reduce.tasks.maximum)�?/p>

�?.95�Q�所有reduce可以在maps一完成时就立刻启动�Q�开始传输map的输出结果。用1.75�Q�速度快的节点可以在完成第一轮reduce��d��后，可以开始第二轮�Q�这样可以得到比较好的负载均衡的效果�?/p>

增加reduce的数目会增加整个框架的开销�Q�但可以改善负蝲均衡�Q�降低由于执行失败带来的负面影响�?/p>

上述比例因子比整体数目稍��一些是��Z��l�框架中的推��性�Q务（speculative-tasks�Q?或失败的��d��预留一些reduce的资源�?/p>

无Reducer
如果没有归约要进行，那么讄��reduce��d��的数目�ؓ零是合法的�?/p>

�q�种情况下，map��d��的输��Z��直接被写入由 setOutputPath(Path)指定的输��\径。框架在把它们写入FileSystem之前没有对它们进行排序�?/p>

Partitioner
Partitioner用于划分键值空��_��key space�Q��?/p>

Partitioner负责控制map输出�l�果key的分剌Ӏ�Key�Q�或者一个key子集�Q�被用于产生分区�Q�通常使用的是Hash函数。分区的数目与一个作业的reduce��d��的数目是一��L��。因此，它控制将中间�q�程的key�Q�也��是�q�条记录�Q�应该发送给m个reduce��d��中的哪一个来�q�行reduce操作�?/p>

HashPartitioner是默认的 Partitioner�?/p>

Reporter
Reporter是用于Map/Reduce应用�E�序报告�q�度�Q�设定应用��别的状态消息，更新Counters�Q�计数器�Q�的机制�?/p>

Mapper和Reducer的实现可以利用Reporter 来报告进度，或者仅是表明自��p��行正常。在那种应用�E�序需要花很长旉��处理个别键值对的场景中�Q�这�U�机制是很关键的�Q�因为框架可能会以�ؓ�q�个��d��时了，从而将它强行杀歅R��另一个避免这�U�情况发生的方式是，��配�|�参数mapred.task.timeout讄��Z��个��够高的��|��或者干脆设�|��ؓ�Ӟ��则没有超旉��制了�Q��?/p>

应用�E�序可以用Reporter来更新Counter�Q�计数器�Q��?/p>

OutputCollector
OutputCollector是一个Map/Reduce框架提供的用于收�?Mapper或Reducer输出数据的通用机制 �Q�包括中间输出结果和作业的输出结果）�?/p>

Hadoop Map/Reduce框架附带了一个包含许多实用型的mapper、reducer和partitioner 的类库�?/p>

作业配置
JobConf代表一个Map/Reduce作业的配�|��?/p>

JobConf是用户向Hadoop框架描述一个Map/Reduce作业如何执行的主要接口。框架会按照JobConf描述的信息忠实地��d��试完成这个作业，然而：

一些参数可能会被管理者标��Cؓ final�Q�这意味它们不能被更攏V�?
一些作业的参数可以被直截了当地�q�行讄��Q�例如： setNumReduceTasks(int)�Q�，而另一些参数则与框架或者作业的其他参数之间微妙地相互媄响，�q�且讄��h��比较复杂�Q�例如： setNumMapTasks(int)�Q��?
通常�Q�JobConf会指明Mapper、Combiner(如果有的�?�?Partitioner、Reducer、InputFormat�?OutputFormat的具体实现。JobConf�q�能指定一�l�输入文�?(setInputPaths(JobConf, Path...) /addInputPath(JobConf, Path)) �?setInputPaths(JobConf, String) /addInputPaths(JobConf, String)) 以及输出文�g应该写在哪儿 (setOutputPath(Path))�?/p>

JobConf可选择地对作业讄��一些高�U�选项�Q�例如：讄��Comparator�Q?攑ֈ�DistributedCache上的文�g�Q�中间结果或者作业输出结果是否需要压�~�以及怎么压羃�Q?利用用户提供的脚�?setMapDebugScript(String)/setReduceDebugScript(String)) �q�行调试�Q�作业是否允讔R��防性（speculative�Q��Q务的执行 (setMapSpeculativeExecution(boolean))/(setReduceSpeculativeExecution(boolean)) �Q�每个�Q务最大的��试�ơ数 (setMaxMapAttempts(int)/setMaxReduceAttempts(int)) �Q�一个作业能容忍的�Q务失败的癑ֈ��?(setMaxMapTaskFailuresPercent(int)/setMaxReduceTaskFailuresPercent(int)) �Q�等�{��?/p>

当然�Q�用戯��使用 set(String, String)/get(String, String) 来设�|�或者取得应用程序需要的��L��参数。然而，DistributedCache的��用是面向大规模只��L��据的�?/p>

��d��的执行和环境
TaskTracker是在一个单独的jvm上以子进�E�的形式执行 Mapper/Reducer��d��Q�Task�Q�的�?/p>

子�Q务会�l�承父TaskTracker的环境。用户可以通过JobConf中的 mapred.child.java.opts配置参数来设定子jvm上的附加选项�Q�例如：通过-Djava.library.path=<> ��一个非标准路径设�ؓ�q�行时的链接用以搜烦�׃�n库，�{�等。如果mapred.child.java.opts包含一个符号@taskid@�Q?它会被替换成map/reduce的taskid的倹{�?/p>

下面是一个包含多个参数和替换的例子，其中包括�Q�记录jvm GC日志�Q?JVM JMX代理�E�序以无密码的方式启动，�q�样它就能连接到jconsole上，从而可以查看子�q�程的内存和�U�程�Q�得到线�E�的dump�Q�还把子jvm的最大堆��寸讄��?12MB�Q?�q��ؓ子jvm的java.library.path��d��了一个附加�\径�?/p>

mapred.child.java.opts

-Xmx512M -Djava.library.path=/home/mycompany/lib -verbose:gc -Xloggc:/tmp/@taskid@.gc
-Dcom.sun.management.jmxremote.authenticate=false -Dcom.sun.management.jmxremote.ssl=false

用户或管理员也可以��用mapred.child.ulimit讑֮��q�行的子��d��的最大虚拟内存。mapred.child.ulimit的��g��Q�KB)为单位，�q�且必须大于或等�?Xmx参数传给JavaVM的��|��否则VM会无法启动�?/p>

注意�Q�mapred.child.java.opts只用于设�|�task tracker启动的子��d��。�ؓ守护�q�程讄��内存选项��h��?cluster_setup.html

${mapred.local.dir}/taskTracker/是task tracker的本地目录，用于创徏本地�~�存和job。它可以指定多个目录�Q�跨��多个磁盘）�Q�文件会半随机的保存到本地�\径下的某个目录。当job启动�Ӟ��task tracker�Ҏ��配置文档创徏本地job目录�Q�目录结构如以下所�C�：

${mapred.local.dir}/taskTracker/archive/ :分布式缓存。这个目录保存本地的分布式缓存。因此本地分布式�~�存是在所有task和job间共享的�?
${mapred.local.dir}/taskTracker/jobcache/$jobid/ : 本地job目录�?
${mapred.local.dir}/taskTracker/jobcache/$jobid/work/: job指定的共享目录。各个�Q务可以��用这个空间做为暂存空��_��用于它们之间�׃�n文�g。这个目录通过job.local.dir 参数暴露�l�用戗��这个�\径可以通过API JobConf.getJobLocalDir()来访问。它也可以被做�ؓ�pȝ��属性获得。因此，用户�Q�比如运行streaming�Q�可以调用System.getProperty("job.local.dir")获得该目录�?
${mapred.local.dir}/taskTracker/jobcache/$jobid/jars/: 存放jar包的路径�Q�用于存放作业的jar文�g和展开的jar。job.jar是应用程序的jar文�g�Q�它会被自动分发到各台机器，在task启动前会被自动展开。��用api JobConf.getJar() 函数可以得到job.jar的位�|�。��用JobConf.getJar().getParent()可以讉K��存放展开的jar包的目录�?
${mapred.local.dir}/taskTracker/jobcache/$jobid/job.xml�Q?一个job.xml文�g�Q�本地的通用的作业配�|�文件�?
${mapred.local.dir}/taskTracker/jobcache/$jobid/$taskid�Q?每个��d��有一个目录task-id�Q�它里面有如下的目录�l�构�Q?
${mapred.local.dir}/taskTracker/jobcache/$jobid/$taskid/job.xml�Q?一个job.xml文�g�Q�本地化的�Q务作业配�|�文件。�Q务本地化是指��task讑֮�特定的属性倹{��这些��g��在下面具体说明�?
${mapred.local.dir}/taskTracker/jobcache/$jobid/$taskid/output 一个存放中间过�E�的输出文�g的目录。它保存了由framwork产生的��时map reduce数据�Q�比如map的输出文件等�?
${mapred.local.dir}/taskTracker/jobcache/$jobid/$taskid/work�Q?task的当前工作目录�?
${mapred.local.dir}/taskTracker/jobcache/$jobid/$taskid/work/tmp�Q?task的��时目录。（用户可以讑֮�属性mapred.child.tmp 来�ؓmap和reduce task讑֮�临时目录。缺省值是./tmp。如果这个��g��是绝对�\径，它会把task的工作�\径加到该路径前面作�ؓtask的��时文件�\径。如果这个值是�l�对路径则直接��用这个倹{�?如果指定的目录不存在�Q�会自动创徏该目录。之后，按照选项 -Djava.io.tmpdir='临时文�g的绝对�\�?执行java子�Q务�?pipes和streaming的��时文件�\径是通过环境变量TMPDIR='the absolute path of the tmp dir'讑֮�的）�?如果mapred.child.tmp�?/tmp��|��q�个目录会被创徏�?
下面的属性是为每个task执行时��用的本地参数�Q�它们保存在本地化的��d��作业配置文�g里：

名称 �c�d�� 描述
mapred.job.id String job id
mapred.jar String job目录下job.jar的位�|?
job.local.dir String job指定的共享存储空�?
mapred.tip.id String task id
mapred.task.id String task��试id
mapred.task.is.map boolean 是否是map task
mapred.task.partition int task在job中的id
map.input.file String map��d��的文件名
map.input.start long map输入的数据块的�v始位�|�偏�U?
map.input.length long map输入的数据块的字节数
mapred.work.output.dir String task临时输出目录

task的标准输出和错误输出��会被读到TaskTracker中，�q�且记录�?${HADOOP_LOG_DIR}/userlogs

DistributedCache 可用于map或reduce task中分发jar包和本地库。子jvm��L��?当前工作目录加到 java.library.path �?LD_LIBRARY_PATH�?因此�Q�可以通过 System.loadLibrary�?System.load装蝲�~�存的库。有关��用分布式�~�存加蝲�׃�n库的�l�节请参�?native_libraries.html

作业的提交与监控
JobClient是用��h��交的作业与JobTracker交互的主要接口�?/p>

JobClient 提供提交作业�Q�追�t�进�E�，讉K��子�Q务的日志记录�Q�获得Map/Reduce集群状态信息等功能�?/p>

作业提交�q�程包括�Q?/p>

��查作业输入输出样式细�?
��Z��业计��InputSplit倹{�?
如果需要的话，��Z��业的DistributedCache建立必须的统计信息�?
拯��作业的jar包和配置文�g到FileSystem上的Map/Reduce�pȝ��目录下�?
提交作业到JobTracker�q�且监控它的状态�?
作业的历史文件记录到指定目录�?_logs/history/"子目录下。这个指定目录由hadoop.job.history.user.location讑֮��Q�默认是作业输出的目录。因此默认情况下�Q�文件会存放在mapred.output.dir/_logs/history目录下。用户可以设�|�hadoop.job.history.user.location为none来停止日志记录�?/p>

用户使用下面的命令可以看到在指定目录下的历史日志记录的摘要�?
$ bin/hadoop job -history output-dir
�q�个命��o会打印出作业的细节，以及��p�|的和被杀�ȝ��d��l�节�?br>要查看有关作业的更多�l�节例如成功的�Q务、每个�Q务尝试的�ơ数�Q�task attempt�Q�等�Q�可以��用下面的命��o
$ bin/hadoop job -history all output-dir

用户可以使用 OutputLogFilter 从输出目录列表中�{�选日志文件�?/p>

一般情况，用户利用JobConf创徏应用�E�序�q��|�作业属性，然后�?JobClient 提交作业�q�监视它的进�E��?/p>

作业的控�?br>有时候，用一个单独的Map/Reduce作业�q�不能完成一个复杂的��d��Q�用户也许要链接多个Map/Reduce作业才行。这是容易实现的�Q�因��Z��业通常输出到分布式文�g�pȝ��上的�Q�所以可以把�q�个作业的输��Z��Z��一个作业的输入实现串联�?/p>

然而，�q�也意味着�Q�确保每一作业完成(成功或失�?的责��d��直接落在了客戯��n上。在�q�种情况下，可以用的控制作业的选项有：

runJob(JobConf)�Q�提交作业，仅当作业完成时返回�?
submitJob(JobConf)�Q�只提交作业�Q�之后需要你轮询它返回的 RunningJob句柄的状态，�q�根据情况调度�?
JobConf.setJobEndNotificationURI(String)�Q�设�|�一个作业完成通知�Q�可避免轮询�?
作业的输�?br>InputFormat 为Map/Reduce作业描述输入的细节规范�?/p>

Map/Reduce框架�Ҏ��作业的InputFormat来：

��查作业输入的有效性�?
把输入文件切分成多个逻辑InputSplit实例�Q?�q�把每一实例分别分发�l�一�?Mapper�?
提供RecordReader的实玎ͼ��q�个RecordReader从逻辑InputSplit中获得输入记录， �q�些记录��由Mapper处理�?
��Z��文�g的InputFormat实现�Q�通常�?FileInputFormat的子�c�）默认行�ؓ是按照输入文件的字节大小�Q�把输入数据切分成逻辑分块�Q�logical InputSplit �Q��?其中输入文�g所在的FileSystem的数据块��寸是分块大��的上限。下限可以设�|�mapred.min.split.size 的倹{�?/p>

考虑到边界情况，对于很多应用�E�序来说�Q�很明显按照文�g大小�q�行逻辑分割是不能满��需求的�?在这�U�情况下�Q�应用程序需要实��C��个RecordReader来处理记录的边界�q��ؓ每个��d��提供一个逻辑分块的面向记录的视图�?/p>

TextInputFormat 是默认的InputFormat�?/p>

如果一个作业的Inputformat是TextInputFormat�Q?�q�且框架��到输入文�g的后�~��?gz�?lzo�Q�就会��用对应的CompressionCodec自动解压�~�这些文件�?但是需要注意，上述带后�~�的压�~�文件不会被切分�Q��ƈ且整个压�~�文件会分给一个mapper来处理�?/p>

InputSplit
InputSplit 是一个单独的Mapper要处理的数据块�?/p>

一般的InputSplit 是字节样式输入，然后由RecordReader处理�q��{化成记录样式�?/p>

FileSplit 是默认的InputSplit�?它把 map.input.file 讑֮��入文件的路径�Q�输入文件是逻辑分块文�g�?/p>

RecordReader
RecordReader 从InputSlit��d��寏V�?/p>

一般的�Q�RecordReader 把由InputSplit 提供的字节样式的输入文�g�Q��{化成由Mapper处理的记录样式的文�g�?因此RecordReader负责处理记录的边界情况和把数据表�C�成keys/values对�Ş式�?/p>

作业的输�?br>OutputFormat 描述Map/Reduce作业的输出样式�?/p>

Map/Reduce框架�Ҏ��作业的OutputFormat来：

��验作业的输出�Q�例如检查输��\径是否已�l�存在�?
提供一个RecordWriter的实玎ͼ�用来输出作业�l�果�?输出文�g保存在FileSystem上�?
TextOutputFormat是默认的 OutputFormat�?/p>

��d��的Side-Effect File
在一些应用程序中�Q�子��d��需要��生一些side-file�Q�这些文件与作业实际输出�l�果的文件不同�?/p>

在这�U�情况下�Q�同一个Mapper或者Reducer的两个实例（比如预防性�Q务）同时打开或者写 FileSystem上的同一文�g��׃��产生冲突。因此应用程序在写文件的时候需要�ؓ每次��d��试�Q�不仅仅是每�ơ�Q务，每个��d��可以��试执行很多�ơ）选取一个独一无二的文件名(使用attemptid�Q�例如task_200709221812_0001_m_000000_0)�?/p>

��Z��避免冲突�Q�Map/Reduce框架为每�ơ尝试执行�Q务都建立和维护一个特�D�的 ${mapred.output.dir}/_temporary/_${taskid}子目录，�q�个目录位于本次��试执行��d��输出�l�果所在的FileSystem上，可以通过 ${mapred.work.output.dir}来访问这个子目录�?对于成功完成的�Q务尝试，只有${mapred.output.dir}/_temporary/_${taskid}下的文�g会移动到${mapred.output.dir}。当�Ӟ��框架会丢弃那些失败的��d��试的子目录。这�U�处理过�E�对于应用程序来说是完全透明的�?/p>

在�Q务执行期��_��应用�E�序在写文�g时可以利用这个特性，比如通过 FileOutputFormat.getWorkOutputPath()获得${mapred.work.output.dir}目录�Q?�q�在其下创徏��L��d��执行时所需的side-file�Q�框架在��d��试成功时会马上�U�d��q�些文�g�Q�因此不需要在�E�序内�ؓ每次��d��试选取一个独一无二的名字�?/p>

注意�Q�在每次��d��试执行期间�Q?{mapred.work.output.dir} 的值实际上�?${mapred.output.dir}/_temporary/_{$taskid}�Q�这个值是Map/Reduce框架创徏的�?所以��用这个特性的�Ҏ��是，�?FileOutputFormat.getWorkOutputPath() 路径下创建side-file卛_��?/p>

对于只��用map不��用reduce的作业，�q�个�l�论也成立。这�U�情况下�Q�map的输出结果直接生成到HDFS上�?/p>

RecordWriter
RecordWriter 生成对到输出文�g�?/p>

RecordWriter的实现把作业的输出结果写�?FileSystem�?/p>

其他有用的特�?br>Counters
Counters 是多个由Map/Reduce框架或者应用程序定义的全局计数器�?每一个Counter可以是�Q何一�U?Enum�c�d��。同一特定Enum�c�d��的Counter可以汇集��C��个组�Q�其�c�d��为Counters.Group�?/p>

应用�E�序可以定义��L��(Enum�c�d��)的Counters�q�且可以通过 map 或�?reduce�Ҏ��中的 Reporter.incrCounter(Enum, long)或�?Reporter.incrCounter(String, String, long) 更新。之后框架会汇总这些全局counters�?/p>

DistributedCache
DistributedCache 可将具体应用相关的、大��寸的、只�ȝ��文�g有效地分布放�|��?/p>

DistributedCache 是Map/Reduce框架提供的功能，能够�~�存应用�E�序所需的文�?�Q�包括文本，档案文�g�Q�jar文�g�{�）�?/p>

应用�E�序在JobConf中通过url(hdfs://)指定需要被�~�存的文件�?DistributedCache假定由hdfs://格式url指定的文件已�l�在 FileSystem上了�?/p>

Map-Redcue框架在作业所有�Q务执行之前会把必要的文�g拯��到slave节点上�?它运行高效是因�ؓ每个作业的文件只拯��一�ơ�ƈ且�ؓ那些没有文档的slave节点�~�存文档�?/p>

DistributedCache �Ҏ��~�存文档修改的时间戳�q�行�q�踪�?在作业执行期��_��当前应用�E�序或者外部程序不能修改缓存文件�?/p>

distributedCache可以分发��单的只读数据或文本文�Ӟ��也可以分发复杂类型的文�g例如归档文�g和jar文�g。归档文�?zip,tar,tgz和tar.gz文�g)在slave节点上会被解档（un-archived�Q��?�q�些文�g可以讄��执行权限�?/p>

用户可以通过讄��mapred.cache.{files|archives}来分发文件�?如果要分发多个文�Ӟ��可以使用逗号分隔文�g所在�\径。也可以利用API来设�|�该属性： DistributedCache.addCacheFile(URI,conf)/ DistributedCache.addCacheArchive(URI,conf) and DistributedCache.setCacheFiles(URIs,conf)/ DistributedCache.setCacheArchives(URIs,conf) 其中URI的�Ş式是 hdfs://host:port/absolute-path#link-name 在Streaming�E�序中，可以通过命��o行选项 -cacheFile/-cacheArchive 分发文�g�?/p>

用户可以通过 DistributedCache.createSymlink(Configuration)�Ҏ��让DistributedCache 在当前工作目录下创徏到缓存文件的�W�号链接�?或者通过讄��配置文�g属性mapred.create.symlink为yes�?分布式缓存会截取URI的片�D�作为链接的名字�?例如�Q�URI�?hdfs://namenode:port/lib.so.1#lib.so�Q?则在task当前工作目录会有名�ؓlib.so的链接，它会链接分布式缓存中的lib.so.1�?/p>

DistributedCache可在map/reduce��d��中作�?一�U�基��软�g分发机制使用。它可以被用于分发jar包和本地库（native libraries�Q��?DistributedCache.addArchiveToClassPath(Path, Configuration)�?DistributedCache.addFileToClassPath(Path, Configuration) API能够被用�?�~�存文�g和jar包，�q�把它们加入子jvm的classpath。也可以通过讄��配置文档里的属�?mapred.job.classpath.{files|archives}辑ֈ�相同的效果。缓存文件可用于分发和装载本地库�?/p>

Tool
Tool 接口支持处理常用的Hadoop命��o行选项�?/p>

Tool 是Map/Reduce工具或应用的标准。应用程序应只处理其定制参数�Q?要把标准命��o行选项通过 ToolRunner.run(Tool, String[]) 委托�l?GenericOptionsParser处理�?/p>

Hadoop命��o行的常用选项有：
-conf
-D
-fs
-jt

IsolationRunner
IsolationRunner 是帮助调试Map/Reduce�E�序的工兗��?/p>

使用IsolationRunner的方法是�Q�首先设�|?keep.failed.tasks.files属性�ؓtrue �Q�同时参考keep.tasks.files.pattern�Q��?/p>

然后�Q�登录到��d��q�行��p�|的节点上�Q�进�?TaskTracker的本地�\径运�?IsolationRunner�Q?br>$ cd /taskTracker/${taskid}/work
$ bin/hadoop org.apache.hadoop.mapred.IsolationRunner ../job.xml

IsolationRunner会把��p�|的�Q务放在单独的一个能够调试的jvm上运行，�q�且采用和之前完全一��L��输入数据�?/p>

Profiling
Profiling是一个工��P��它��用内�|�的java profiler工具�q�行分析获得(2-3�?map或reduce样例�q�行分析报告�?/p>

用户可以通过讄��属性mapred.task.profile指定�pȝ��是否采集profiler信息�?利用api JobConf.setProfileEnabled(boolean)可以修改属性倹{��如果设为true�Q?则开启profiling功能。profiler信息保存在用��h��志目录下。缺省情况，profiling功能是关闭的�?/p>

如果用户讑֮�使用profiling功能�Q�可以��用配�|�文档里的属�?mapred.task.profile.{maps|reduces} 讄��要profile map/reduce task的范围。设�|�该属性值的api�?JobConf.setProfileTaskRange(boolean,String)�?范围的缺省值是0-2�?/p>

用户可以通过讑֮�配置文档里的属性mapred.task.profile.params 来指定profiler配置参数。修改属性要使用api JobConf.setProfileParams(String)。当�q�行task�Ӟ��如果字符串包�?s�?它会被替换成profileing的输出文件名。这些参��C��在命令行里传递到子JVM中。缺省的profiling 参数�?-agentlib:hprof=cpu=samples,heap=sites,force=n,thread=y,verbose=n,file=%s�?/p>

调试
Map/Reduce框架能够�q�行用户提供的用于调试的脚本�E�序�?当map/reduce��d��p�|�Ӟ��用户可以通过�q�行脚本在�Q务日志（例如��d��的标准输出、标准错误、系�l�日志以及作业配�|�文�Ӟ��上做后箋处理工作。用��h��供的调试脚本�E�序的标准输出和标准错误会输��Zؓ诊断文�g。如果需要的话这些输出结果也可以打印在用��L��面上�?/p>

在接下来的章节，我们讨论如何与作业一��h��交调试脚本。�ؓ了提交调试脚本，首先要把�q�个脚本分发出去�Q�而且�q�要在配�|�文仉��讄��?/p>

如何分发脚本文�g�Q?br>用户要用 DistributedCache 机制来分发和链接脚本文�g

如何提交脚本�Q?br>一个快速提交调试脚本的�Ҏ��是分别�ؓ需要调试的map��d��和reduce��d��讄�� "mapred.map.task.debug.script" �?"mapred.reduce.task.debug.script" 属性的倹{��这些属性也可以通过 JobConf.setMapDebugScript(String) �?JobConf.setReduceDebugScript(String) API来设�|�。对于streaming�Q?可以分别为需要调试的map��d��和reduce��d��使用命��o行选项-mapdebug �?-reducedegug来提交调试脚本�?/p>

脚本的参数是��d��的标准输出、标准错误、系�l�日志以及作业配�|�文件。在�q�行map/reduce��p�|的节点上�q�行调试命��o是：
$script $stdout $stderr $syslog $jobconf

Pipes �E�序�Ҏ��W�五个参数获得c++�E�序名�?因此调试pipes�E�序的命令是
$script $stdout $stderr $syslog $jobconf $program

默认行�ؓ
对于pipes�Q�默认的脚本会用gdb处理core dump�Q?打印 stack trace�q�且�l�出正在�q�行�U�程的信息�?/p>

JobControl
JobControl是一个工��P��它封装了一�l�Map/Reduce作业以及他们之间的依赖关�p�R�?/p>

数据压羃
Hadoop Map/Reduce框架为应用程序的写入文�g操作提供压羃工具�Q�这些工具可以�ؓmap输出的中间数据和作业最�l�输出数据（例如reduce的输出）提供支持。它�q�附带了一�?CompressionCodec的实玎ͼ�比如实现�?zlib和lzo压羃��法�?Hadoop同样支持gzip文�g格式�?/p>

考虑到性能问题�Q�zlib�Q�以及Java�c�d��的缺失（lzo�Q�等因素�Q�Hadoop也�ؓ上述压羃解压��法提供本地库的实现。更多的�l�节请参�?�q�里�?/p>

中间输出
应用�E�序可以通过 JobConf.setCompressMapOutput(boolean)api控制map输出的中间结果，�q�且可以通过 JobConf.setMapOutputCompressorClass(Class)api指定 CompressionCodec�?/p>

作业输出
应用�E�序可以通过 FileOutputFormat.setCompressOutput(JobConf, boolean) api控制输出是否需要压�~��ƈ且可以��?FileOutputFormat.setOutputCompressorClass(JobConf, Class)api指定CompressionCodec�?/p>

如果作业输出要保存成 SequenceFileOutputFormat格式�Q�需要��?SequenceFileOutputFormat.setOutputCompressionType(JobConf, SequenceFile.CompressionType)api�Q�来讑֮� SequenceFile.CompressionType (i.e.RECORD / BLOCK - 默认是RECORD)�?/p>

例子�Q�WordCount v2.0
�q�里是一个更全面的WordCount例子�Q�它使用了我们已�l�讨��的很多Map/Reduce框架提供的功能�?/p>

�q�行�q�个例子需要HDFS的某些功能，特别�?DistributedCache相关功能。因此这个例子只能运行在伪分布式或�?完全分布式模式的 Hadoop上�?/p>

源代�?br> WordCount.java
1. package org.myorg;
2.
3. import java.io.*;
4. import java.util.*;
5.
6. import org.apache.hadoop.fs.Path;
7. import org.apache.hadoop.filecache.DistributedCache;
8. import org.apache.hadoop.conf.*;
9. import org.apache.hadoop.io.*;
10. import org.apache.hadoop.mapred.*;
11. import org.apache.hadoop.util.*;
12.
13. public class WordCount extends Configured implements Tool {
14.
15.    public static class Map extends MapReduceBase implements Mapper {
16.
17.      static enum Counters { INPUT_WORDS }
18.
19.      private final static IntWritable one = new IntWritable(1);
20.      private Text word = new Text();
21.
22.      private boolean caseSensitive = true;
23.      private Set patternsToSkip = new HashSet();
24.
25.      private long numRecords = 0;
26.      private String inputFile;
27.
28.      public void configure(JobConf job) {
29.        caseSensitive = job.getBoolean("wordcount.case.sensitive", true);
30.        inputFile = job.get("map.input.file");
31.
32.        if (job.getBoolean("wordcount.skip.patterns", false)) {
33.          Path[] patternsFiles = new Path[0];
34.          try {
35.            patternsFiles = DistributedCache.getLocalCacheFiles(job);
36.          } catch (IOException ioe) {
37.            System.err.println("Caught exception while getting cached files: " + StringUtils.stringifyException(ioe));
38.          }
39.          for (Path patternsFile : patternsFiles) {
40.            parseSkipFile(patternsFile);
41.          }
42.        }
43.      }
44.
45.      private void parseSkipFile(Path patternsFile) {
46.        try {
47.          BufferedReader fis = new BufferedReader(new FileReader(patternsFile.toString()));
48.          String pattern = null;
49.          while ((pattern = fis.readLine()) != null) {
50.            patternsToSkip.add(pattern);
51.          }
52.        } catch (IOException ioe) {
53.          System.err.println("Caught exception while parsing the cached file '" + patternsFile + "' : " + StringUtils.stringifyException(ioe));
54.        }
55.      }
56.
57.      public void map(LongWritable key, Text value, OutputCollector output, Reporter reporter) throws IOException {
58.        String line = (caseSensitive) ? value.toString() : value.toString().toLowerCase();
59.
60.        for (String pattern : patternsToSkip) {
61.          line = line.replaceAll(pattern, "");
62.        }
63.
64.        StringTokenizer tokenizer = new StringTokenizer(line);
65.        while (tokenizer.hasMoreTokens()) {
66.          word.set(tokenizer.nextToken());
67.          output.collect(word, one);
68.          reporter.incrCounter(Counters.INPUT_WORDS, 1);
69.        }
70.
71.        if ((++numRecords % 100) == 0) {
72.          reporter.setStatus("Finished processing " + numRecords + " records " + "from the input file: " + inputFile);
73.        }
74.      }
75.    }
76.
77.    public static class Reduce extends MapReduceBase implements Reducer {
78.      public void reduce(Text key, Iterator values, OutputCollector output, Reporter reporter) throws IOException {
79.        int sum = 0;
80.        while (values.hasNext()) {
81.          sum += values.next().get();
82.        }
83.        output.collect(key, new IntWritable(sum));
84.      }
85.    }
86.
87.    public int run(String[] args) throws Exception {
88.      JobConf conf = new JobConf(getConf(), WordCount.class);
89.      conf.setJobName("wordcount");
90.
91.      conf.setOutputKeyClass(Text.class);
92.      conf.setOutputValueClass(IntWritable.class);
93.
94.      conf.setMapperClass(Map.class);
95.      conf.setCombinerClass(Reduce.class);
96.      conf.setReducerClass(Reduce.class);
97.
98.      conf.setInputFormat(TextInputFormat.class);
99.      conf.setOutputFormat(TextOutputFormat.class);
100.
101.      List other_args = new ArrayList();
102.      for (int i=0; i < args.length; ++i) {
103.        if ("-skip".equals(args[i])) {
104.          DistributedCache.addCacheFile(new Path(args[++i]).toUri(), conf);
105.          conf.setBoolean("wordcount.skip.patterns", true);
106.        } else {
107.          other_args.add(args[i]);
108.        }
109.      }
110.
111.      FileInputFormat.setInputPaths(conf, new Path(other_args.get(0)));
112.      FileOutputFormat.setOutputPath(conf, new Path(other_args.get(1)));
113.
114.      JobClient.runJob(conf);
115.      return 0;
116.    }
117.
118.    public static void main(String[] args) throws Exception {
119.      int res = ToolRunner.run(new Configuration(), new WordCount(), args);
120.      System.exit(res);
121.    }
122. }
123.

�q�行样例
输入样例�Q?/p>

$ bin/hadoop dfs -ls /usr/joe/wordcount/input/
/usr/joe/wordcount/input/file01
/usr/joe/wordcount/input/file02

$ bin/hadoop dfs -cat /usr/joe/wordcount/input/file01
Hello World, Bye World!

$ bin/hadoop dfs -cat /usr/joe/wordcount/input/file02
Hello Hadoop, Goodbye to hadoop.

�q�行�E�序�Q?/p>

$ bin/hadoop jar /usr/joe/wordcount.jar org.myorg.WordCount /usr/joe/wordcount/input /usr/joe/wordcount/output

输出�Q?/p>

$ bin/hadoop dfs -cat /usr/joe/wordcount/output/part-00000
Bye 1
Goodbye 1
Hadoop, 1
Hello 2
World! 1
World, 1
hadoop. 1
to 1

注意此时的输入与�W�一个版本的不同�Q�输出的�l�果也有不同�?/p>

现在通过DistributedCache插入一个模式文�Ӟ��文�g中保存了要被忽略的单词模式�?/p>

$ hadoop dfs -cat /user/joe/wordcount/patterns.txt
\.
\,
\!
to

再运行一�ơ，�q�次使用更多的选项�Q?/p>

$ bin/hadoop jar /usr/joe/wordcount.jar org.myorg.WordCount -Dwordcount.case.sensitive=true /usr/joe/wordcount/input /usr/joe/wordcount/output -skip /user/joe/wordcount/patterns.txt

应该得到�q�样的输出：

$ bin/hadoop dfs -cat /usr/joe/wordcount/output/part-00000
Bye 1
Goodbye 1
Hadoop 1
Hello 2
World 2
hadoop 1

再运行一�ơ，�q�一�ơ关闭大��写敏感性（case-sensitivity�Q�：

$ bin/hadoop jar /usr/joe/wordcount.jar org.myorg.WordCount -Dwordcount.case.sensitive=false /usr/joe/wordcount/input /usr/joe/wordcount/output -skip /user/joe/wordcount/patterns.txt

输出�Q?/p>

$ bin/hadoop dfs -cat /usr/joe/wordcount/output/part-00000
bye 1
goodbye 1
hadoop 2
hello 2
world 2

�E�序要点
通过使用一些Map/Reduce框架提供的功能，WordCount的第二个版本在原始版本基��上有了如下的改进�Q?/p>

展示了应用程序如何在Mapper (和Reducer)中通过configure�Ҏ�� 修改配置参数(28-43�?�?
展示了作业如何��用DistributedCache 来分发只��L��据�?�q�里允许用户指定单词的模式，在计数时忽略那些�W�合模式的单�?104�?�?
展示Tool接口和GenericOptionsParser处理Hadoop命��o行选项的功�?(87-116, 119�?�?
展示了应用程序如何��用Counters(68�?�Q�如何通过传递给map�Q�和reduce�Q?�Ҏ��的Reporter实例来设�|�应用程序的状态信�?72�?�?
Java和JNI是Sun Microsystems, Inc.在美国和其它国家的注册商标�?/p>

本文来自CSDN博客�Q��{载请标明出处�Q?a >http://blog.csdn.net/superxgl/archive/2010/01/11/5171929.aspx

koson 2010-07-19 14:40 发表评论

koson — Mon, 19 Jul 2010 06:39:00 GMT

一�?span>           hive ��?/span>

        hive 是一个基�?/span> hadoop 的开源数据仓库工��P��用于存储和处理�v量结构化数据�?/span>    它把��量数据存储�?/span> hadoop 文�g�pȝ��Q�而不是数据库�Q�但提供了一套类数据库的数据存储和处理机�Ӟ��q��?/span> HQL �Q�类 SQL �Q�语�a�对这些数据进行自动化��理和处理。我们可以把 hive 中�v量结构化数据看成一个个的表�Q�而实际上�q�些数据是分布式存储�?/span> HDFS 中的�?/span> Hive �l�过对语句进行解析和转换�Q�最�l�生成一�p�d��Z�� hadoop �?/span> map/reduce ��d��Q�通过执行�q�些��d��完成数据处理�?/span>

        Hive 诞生�?/span> facebook 的日志分析需求，面对��量的结构化数据�Q?/span> hive 以较低的成本完成了以往需要大规模数据库才能完成的��d��Q��ƈ且学习门槛相对较低，应用开发灵�z�而高效�?/span>

        Hive �?/span> 2009.4.29 发布�W�一个官方稳定版 0.3.0 至今�Q�不�q�一�q�的旉��Q�正在慢慢完善，�|�上能找到的相关资料相当��，��其中文资料更少�Q�本文结合业务对 hive 的应用做了一些探索，�q�把�q�些�l�验做一个�ȝ��Q�所谓前车之��_��希望读者能��走一些弯路�?/span>

        Hive 的官�?/span> wiki 请参考这�?/span> :

        http://wiki.apache.org/hadoop/Hive

        官方主页在这里：

        http://hadoop.apache.org/hive/

        hive-0.5.0 源码包和二进制发布包的下载地址

        http://labs.renren.com/apache-mirror/hadoop/hive/hive-0.5.0/

二�?span>           部��v

        �׃�� Hive 是基�?/span> hadoop 的工��P��所�?/span> hive 的部�|�需要一个正常运行的 hadoop 环境。以下介�l?/span> hive 的简单部�|�和应用�?/span>

        部��v环境�Q?/span>

        操作�pȝ��Q?/span> Red Hat Enterprise Linux AS release 4 (Nahant Update 7)

        Hadoop �Q?/span> hadoop-0.20.2 �Q�正常运�?/span>

        部��v步骤如下�Q?/span>

1�?/span>   下蝲最新版本发布包 hive-0.5.0-dev.tar.gz �Q�传�?/span> hadoop �?/span> namenode 节点上，解压得到 hive 目录。假设�\径�ؓ�Q?/span> /opt/hadoop/hive-0.5.0-bin

2�?/span>   讄��环境变量 HIVE_HOME �Q�指�?/span> hive 根目�?/span> /opt/hadoop/hive-0.5.0-bin 。由�?/span> hadoop 已运行，��查环境变�?/span> JAVA_HOME �?/span> HADOOP_HOME 是否正确有效�?/span>

3�?/span>   切换�?/span> $HIVE_HOME 目录�Q?/span> hive 配置默认卛_��Q�运�?/span> bin/hive 卛_��启动 hive �Q�如果正常启动，��会出现“ hive> ”提示�W��?/span>

4�?/span>   在命令提�C�符中输�?#8220; show tables; ”�Q�如果正常运行，说明已部�|�成功，可供使用�?/span>

常见问题�Q?/span>

1�?/span>        执行“ show tables; ”命��o提示“ FAILED: Error in metadata: java.lang.IllegalArgumentException: URI:  does not have a scheme ”�Q�这是由�?/span> hive 找不到存攑օ�数据库的数据库而导致的�Q�修�?/span> conf/ hive-default.xml 配置文�g中的 hive.metastore.local �?/span> true 卛_��。由�?/span> hive 把结构化数据的元数据信息攑֜��W�三�Ҏ��据库�Q�此处设�|��ؓ true �Q?/span> hive ��在本地创徏 derby 数据库用于存攑օ�数据。当然如果有需要也可以采用 mysql �{�第三方数据库存攑օ�数据�Q�不�q�这�?/span> hive.metastore.local 的配�|�值应�?/span> false �?/span>

2�?/span>        如果你已有一�?/span> nutch1.0 �pȝ��正在跑，而你不想单独再去部��v一�?/span> hadoop 环境�Q�你可以直接使用 nutch1.0 自带�?/span> hadoop 环境�Q�但�q�样的部�|�会��D�� hive 不能正常�q�行�Q�提�C�找不到某些�Ҏ��。这是由�?/span> nutch1.0 使用�?/span> commons-lang-2.1.jar �q�个包，�?/span> hive 需要的�?/span> commons-lang-2.4.jar �Q�下载一�?/span> 2.4 版本的包替换�?/span> 2.1 卛_��Q?/span> nutch �?/span> hive 都能正常�q�行�?/span>

三�?span>           应用场景

        本文主要讲述使用 hive 的实践，业务不是关键�Q�简要介�l�业务场景，本次的�Q务是�Ҏ��索日志数据进行统计分析�?/span>

        集团搜烦刚上�U�不久，日志量�ƈ不大 。这些日志分布在 5 台前端机�Q�按��时保存�Q��ƈ以小时�ؓ周期定时��上一��时产生的数据同步到日志分析机，�l�计数据要求按小时更新。这些统计项�Q�包括关键词搜烦�?/span> pv �Q�类别访问量�Q�每�U�访问量 tps �{�等�?/span>

��Z�� hive �Q�我们将�q�些数据按天为单位徏表，每天一个表�Q�后台脚本根据时间戳��每��时同步�q�来�?/span> 5 台前端机的日志数据合�q�成一个日志文�Ӟ��导入 hive �pȝ��Q�每��时同步的日志数据被�q�加到当天数据表中，导入完成后，当天各项�l�计��将被重新计��ƈ输出�l�计�l�果�?/span>

        以上需求若直接��Z�� hadoop 开发，需要自行管理数据，针对多个�l�计需求开发不同的 map/reduce �q�算��d��Q�对合�ƈ、排序等多项操作�q�行定制�Q��ƈ��Q务运行状态，工作量�ƈ不小。但使用 hive �Q�从导入到分析、排序、去重、结果输出，�q�些操作都可以运�?/span> hql 语句来解冻I��一条语句经�q�处理被解析成几个�Q务来�q�行�Q�即使是关键词访问量增量�q�种需要同时访问多天数据的较�ؓ复杂的需求也能通过表关联这��L��语句自动完成�Q�节省了大量工作量�?/span>

四�?span>           Hive 实战

        初次使用 hive �Q�应该说上手�q�是挺快的�?/span> Hive 提供的类 SQL 语句�?/span> mysql 语句极�ؓ�怼��Q�语法上有大量相同的地方�Q�这�l�我们上手带来了很大的方便，但是要得心应手地写好�q�些语句�Q�还需要对 hive 有较好的了解�Q�才能结�?/span> hive 特色写出�_�֦�的语句�?/span>

        关于 hive 语言的详�l�语法可参考官�?/span> wiki 的语�a�手册 :

        http://wiki.apache.org/hadoop/Hive/LanguageManual

        虽然语法风格为我们提供了便利�Q�但初次使用遇到的问题还是不��的�Q�下面针对业务场景谈谈我们遇到的问题�Q�和�?/span> hive 功能的定制�?/span>

1�?/span> 分隔�W�问�?/span>

                首先遇到的是日志数据的分隔符问题�Q�我们的日志数据的大致格式如下：

2010-05-24 00:00:02@$_$@QQ2010@$_$@all@$_$@NOKIA_1681C@$_$@1@$_$@10@$_$@@$_$@-1@$_$@10@$_$@application@$_$@1

        从格式可见其分隔�W�是“ @$_$@ ”�Q�这是�ؓ了尽可能防止日志正文出现与分隔符相同的字�W�而导致数据�؜淆。本�?/span> hive支持在徏表的时候指定自定义分隔�W�的�Q�但�l�过多次��试发现只支持单个字�W�的自定义分隔符�Q�像“ @$_$@ ”�q�样的分隔符是不能被支持的，但是我们可以通过对分隔符的定制解册��个问题， hive 的内部分隔符�?#8220; \001 ”�Q�只要把分隔�W�替换成“\001 ”卛_��?/span>

�l�过探烦我们发现有两条途径解决�q�个问题�?/span>

a)          自定�?/span> outputformat �?/span> inputformat �?/span>

        Hive �?/span> outputformat/inputformat �?/span> hadoop �?/span> outputformat/inputformat 相当�c�M��Q?/span> inputformat 负责把输入数据进行格式化�Q�然后提供给 hive �Q?/span> outputformat 负责�?/span> hive 输出的数据重新格式化成目标格式再输出到文�Ӟ��q�种�Ҏ��式进行定制的方式较�ؓ底层�Q�对其进行定制也相对��单，重写 InputFormat �?/span> RecordReader �c�M��?/span> next �Ҏ��卛_��Q�示例代码如下：

    public boolean next(LongWritable key, BytesWritable value)

        throws IOException {

        while ( reader .next(key, text ) ) {

        String strReplace = text .toString().toLowerCase().replace( "@$_$@" , "\001" );

        Text txtReplace = new Text();

        txtReplace.set(strReplace );

        value.set(txtReplace.getBytes(), 0, txtReplace.getLength());

        return true ;

      }

         return false ;

}

        重写 HiveIgnoreKeyTextOutputFormat �?/span> RecordWriter 中的 write �Ҏ��Q�示例代码如下：

    public void write (Writable w) throws IOException {

      String strReplace = ((Text)w).toString().replace( "\001" , "@$_$@" );

      Text txtReplace = new Text();

      txtReplace.set(strReplace);

      byte [] output = txtReplace.getBytes();

      bytesWritable .set(output, 0, output. length );

      writer .write( bytesWritable );

}

        自定�?/span> outputformat/inputformat 后，在徏表时需要指�?/span> outputformat/inputformat �Q�如下示例：

stored as INPUTFORMAT 'com.aspire.search.loganalysis.hive.SearchLogInputFormat' OUTPUTFORMAT 'com.aspire.search.loganalysis.hive.SearchLogOutputFormat'

b)          通过 SerDe(serialize/deserialize) �Q�在数据序列化和反序列化时格式化数据�?/span>

�q�种方式�E�微复杂一点，�Ҏ��据的控制能力也要�׃��些，它��用正则表辑ּ�来匹配和处理数据�Q�性能也会有所影响。但它的优点是可以自定义表属性信�?/span> SERDEPROPERTIES �Q�在 SerDe 中通过�q�些属性信息可以有更多的定制行为�?/span>

2�?/span> 数据导入导出

a)          多版本日志格式的兼容

        �׃�� hive 的应用场景主要是处理��h��据（只读不写�Q�，因此它只支持扚w��导入和导出数据，�q�不支持单条数据的写入或更新�Q�所以如果要导入的数据存在某些不太规范的行，则需要我们定制一些扩展功能对其进行处理�?/span>

        我们需要处理的日志数据存在多个版本�Q�各个版本每个字�D늚�数据内容存在一些差异，可能版本 A 日志数据的第二个列是搜烦关键字，但版�?/span> B 的第二列却是搜烦的终端类型，如果�q�两个版本的日志直接导入 hive 中，很明显数据将会�؜乱，�l�计�l�果也不会正��。我们的��d��是要使多个版本的日志数据能在 hive 数据仓库中共存，且表�?/span> input/output 操作能够最�l�映��到正确的日志版本的正确字段�?/span>

        �q�里我们不关心这部分�J�琐的工作，只关心技术实现的关键点，�q�个功能该在哪里实现才能�?/span> hive 认得�q�些不同格式的数据呢�Q�经�q�多方尝试，在中间�Q何环节做�q�个版本适配都将��D��复杂化，最�l�这个工作还是在 inputformat/outputformat 中完成最��Z��雅，毕竟 inputformat 是源��_�� outputformat 是最�l�归�ѝ��具体来��_��是在前面提到�?/span> inputformat �?/span> next �Ҏ��中和�?/span> outputformat �?/span> write �Ҏ��中完成这个适配工作�?/span>

b)          Hive 操作本地数据

        一开始，��L��把本地数据先传到 HDFS �Q�再�?/span> hive 操作 hdfs 上的数据�Q�然后再把数据从 HDFS 上传回本地数据。后来发现大可不必如此， hive 语句都提供了“ local ”关键字，支持直接从本地导入数据到 hive �Q�也能从 hive 直接导出数据到本圎ͼ�不过其内部计��时当然是用 HDFS 上的数据�Q�只是自动�ؓ我们完成导入导出而已�?/span>

3�?/span> 数据处理

日志数据的统计处理在�q�里反倒没有什么特别之处，��是一�?/span> SQL 语句而已�Q�也没有什么高��q��技巧，不过�q�是列�D一些语句示例，以示 hive 处理数据的方便之处，�q�展�C?/span> hive 的一些用法�?/span>

a)          �?/span> hive ��d��用户定制功能�Q�自定义功能都位�?/span> hive_contrib.jar 包中

add jar /opt/hadoop/hive-0.5.0-bin/lib/hive_contrib.jar;

b)          �l�计每个关键词的搜烦量，�q�按搜烦量降序排列，然后把结果存入表 keyword_20100603 �?/span>

create table keyword_20100603 as select keyword,count(keyword) as count from searchlog_20100603 group by keyword order by count desc;

c)          �l�计每类用户�l�端的搜索量�Q��ƈ按搜索量降序排列�Q�然后把�l�果存入�?/span> device_20100603 �?/span>

create table device_20100603 as select device,count(device) as count from searchlog_20100603 group by device order by count desc;

d)          创徏�?/span> time_20100603 �Q��用自定义�?/span> INPUTFORMAT �?/span> OUTPUTFORMAT �Q��ƈ指定表数据的真实存放位置�?/span> '/LogAnalysis/results/time_20100603' �Q?/span> HDFS 路径�Q�，而不是放�?/span> hive 自己的数据目录中

create external table if not exists time_20100603(time string, count int) stored as INPUTFORMAT 'com.aspire.search.loganalysis.hive.XmlResultInputFormat' OUTPUTFORMAT 'com.aspire.search.loganalysis.hive.XmlResultOutputFormat' LOCATION '/LogAnalysis/results/time_20100603';

e)          �l�计每秒讉K��?/span> TPS �Q�按讉K��量降序排列，�q�把�l�果输出到表 time_20100603 中，�q�个表我们在上面刚刚定义�q�，其真实位�|�在 '/LogAnalysis/results/time_20100603' �Q��ƈ且由�?/span> XmlResultOutputFormat 的格式化�Q�文件内�Ҏ�� XML 格式�?/span>

insert overwrite table time_20100603 select time,count(time) as count from searchlog_20100603 group by time order by count desc;

f)           计算每个搜烦��h��响应旉��的最大��|��最��值和�q�_��?/span>

insert overwrite table response_20100603 select max(responsetime) as max,min(responsetime) as min,avg(responsetime) as avg from searchlog_20100603;

g)          创徏一个表用于存放今天与昨天的关键词搜索量和增量及其增量比率，表数据位�?/span> '/LogAnalysis/results/keyword_20100604_20100603' �Q�内容将�?/span> XML 格式�?/span>

create external table if not exists keyword_20100604_20100603(keyword string, count int, increment int, incrementrate double) stored as INPUTFORMAT 'com.aspire.search.loganalysis.hive.XmlResultInputFormat' OUTPUTFORMAT 'com.aspire.search.loganalysis.hive.XmlResultOutputFormat' LOCATION '/LogAnalysis/results/keyword_20100604_20100603';

h)          讄��表的属性，以便 XmlResultInputFormat �?/span> XmlResultOutputFormat 能根�?/span> output.resulttype 的不同内容输��Z��同格式的 XML 文�g�?/span>

alter table keyword_20100604_20100603 set tblproperties ('output.resulttype'='keyword');

i)            兌��今天关键词统计结果表�Q?/span> keyword_20100604 �Q�与昨天关键词统计结果表�Q?/span> keyword_20100603 �Q�，�l�计今天与昨天同时出现的关键词的搜烦�ơ数�Q�今天相�Ҏ��天的增量和增量比率，�q�按增量比率降序排列�Q�结果输出到刚刚定义�?/span> keyword_20100604_20100603 表中�Q�其数据文�g内容��ؓ XML 格式�?/span>

insert overwrite table keyword_20100604_20100603 select cur.keyword, cur.count, cur.count-yes.count as increment, (cur.count-yes.count)/yes.count as incrementrate from keyword_20100604 cur join keyword_20100603 yes on (cur.keyword = yes.keyword) order by incrementrate desc;

j)

4�?/span> 用户自定义函�?/span> UDF

部分�l�计�l�果需要以 CSV 的格式输出，对于�q�类文�g体全是有效内容的文�g�Q�不需要像 XML 一样包�?/span> version �Q?/span> encoding �{�信息的文�g��_��最适合�?/span> UDF(user define function) 了�?/span>

UDF 函数可直接应用于 select 语句�Q�对查询�l�构做格式化处理之后�Q�再输出内容。自定义 UDF 需要��?/span> org.apache.hadoop.hive.ql.exec.UDF �Q��ƈ实现 evaluate 函数�Q?/span> Evaluate 函数支持重蝲�Q�还支持可变参数。我们实��C��一个支持可变字�W�串参数�?/span> UDF �Q�支持把 select 得出的�Q意个数的不同�c�d��数据转换为字�W�串后，�?/span> CSV 格式输出�Q�由于代码较��单，�q�里�l�出源码�C�Z��Q?/span>

    public String evaluate(String... strs) {

       StringBuilder sb = new StringBuilder();

       for ( int i = 0; i < strs. length ; i++) {

           sb.append(ConvertCSVField(strs[i])).append( ',' );

       }

       sb.deleteCharAt(sb.length()-1);

       return sb.toString();

}

         需要注意的是，要��?/span> UDF 功能�Q�除了实现自定义 UDF 外，�q�需要加入包�?/span> UDF 的包�Q�示例：

add jar /opt/hadoop/hive-0.5.0-bin/lib/hive_contrib.jar;

然后创徏临时�Ҏ��Q�示例：

CREATE TEMPORARY FUNCTION Result2CSv AS ‘com.aspire.search.loganalysis.hive. Result2CSv';

         使用完毕�q�要 drop �Ҏ��Q�示例：

DROP TEMPORARY FUNCTION Result2CSv;

5�?/span>   输出 XML 格式的统计结�?/span>

前面看到部分日志�l�计�l�果输出��C��个表中，借助 XmlResultInputFormat �?/span> XmlResultOutputFormat 格式化成 XML 文�g�Q�考虑到创��个表只是��Z��得到 XML 格式的输出数据，我们只需实现 XmlResultOutputFormat 卛_��Q�如果还要支�?/span> select 查询�Q�则我们�q�需要实�?/span> XmlResultInputFormat �Q�这里我们只介绍 XmlResultOutputFormat �?/span>

前面介绍�q�，定制 XmlResultOutputFormat 我们只需重写 write 卛_��Q�这个方法将会把 hive 的以 ’\001’ 分隔的多字段数据格式化�ؓ我们需要的 XML 格式�Q�被��化的�C�Z��代码如下�Q?/span>

    public void write(Writable w) throws IOException {

           String[] strFields = ((Text) w).toString().split( "\001" );

           StringBuffer sbXml = new StringBuffer();

           if ( strResultType .equals( "keyword" )) {

    sbXml.append( "" ).append(strFields[0]).append(

    "" ).append(strFields[1]).append(           "" ).append(strFields[2]).append(

    "" ).append(strFields[3]).append(

"" );

           }

           Text txtXml = new Text();

           byte [] strBytes = sbXml.toString().getBytes( "utf-8" );

           txtXml.set(strBytes, 0, strBytes. length );

           byte [] output = txtXml.getBytes();

           bytesWritable .set(output, 0, output. length );

           writer .write( bytesWritable );

    }

        其中�?/span> strResultType .equals( "keyword" ) 指定关键词统计结果，�q�个属性来自以下语句对�l�果�c�d��的指定，通过�q�个属性我们还可以用同一�?/span> outputformat 输出多种�c�d��的结果�?/span>

        alter table keyword_20100604_20100603 set tblproperties ('output.resulttype'='keyword');

        仔细看看 write 函数的实��C��可发玎ͼ�其实�q�里只输��Z�� XML 文�g的正文，�?/span> XML 的文件头和结束标�{�֜�哪里输出呢？所�q�我们采用的是基�?/span> outputformat 的实玎ͼ�我们可以在构造函数输�?/span> version �Q?/span> encoding �{�文件头信息�Q�在 close() �Ҏ��中输出结束标�{��?/span>

        �q�也是我们�ؓ什么不使用 UDF 来输出结果的原因�Q�自定义 UDF 函数不能输出文�g头和文�g��，对于 XML 格式的数据无法输出完整格式，只能输出 CSV �q�类所有行都是有效数据的文件�?/span>

五�?span>           �ȝ��

        Hive 是一个可扩展性极强的数据仓库工具�Q�借助�?/span> hadoop 分布式存储计��^台和 hive �?/span> SQL 语句的理解能力，我们所要做的大部分工作��是输入和输出数据的适配�Q�恰恰这两部�?/span> IO 格式是千变万化的�Q�我们只需要定制我们自��q��输入输出适配器， hive��ؓ我们透明化存储和处理�q�些数据�Q�大大简化我们的工作。本文的重心也正在于此，�q�部分工作相信每一个做数据分析的朋友都会面对的�Q�希望对您有益�?/span>

        本文介绍了一�ơ相当简单的��Z�� hive 的日志统计实战，�?/span> hive 的运用还处于一个相对较��的层面�Q�目前尚能满��需求。对于一些较复杂的数据分析�Q务，以上所介绍的经验很可能是不够用的，甚至�?/span> hive 做不到的�Q?/span> hive �q�有很多�q�阶功能�Q�限于篇�q�本文未能涉及，待日后结合具体�Q务再详细阐述�?/span>

        如您�Ҏ��文有��M��或指教，误��论，谢谢�?/span>

koson 2010-07-19 14:39 发表评论

Hadoop 集群搭徏

koson — Sat, 27 Mar 2010 05:14:00 GMT

几天在单机环境下搭好了Hadoop�Q�这两天开始着手搭建集��环境。��用设备是我自己在实验室的一台PC机和实验室的两台服务器，PC作�ؓNamenode节点�Q�同时运行一个Namenode和一个Datanode�Q�两台服务器作�ؓslave,各自作�ؓ一个Datanode�Q�这样就一共有3个Datanode节点。IP地址分配为：

master:192.168.5.236�Q�Ubuntu9.10,�q�行Namenode�Q�SecondaryNamenode�Q�Datanode�Q�JobTracker,TaskTracker

slave1�Q?92.168.5.201�Q�Debian4.0,�q�行Datanode�Q�TaskTracker

slave2�Q?92.168.5.202�Q�Debian4.0,�q�行Datanode�Q�TaskTracker

1.在所有节点上配置java环境

2.��d��q?台机器的用户名必��ȝ��同�?/p>

3.修改三台机器�?etc/hosts,

# /etc/hosts (for master AND slave)

192.168.5.236 master

192.168.5.201 slave1

192.168.5.202 slave2

然后在每台机器��用ping hostname ,��保可以�q�接成功�?br>

4.讄��namenode以ssh免密码方式连接datanode

a�Q�先在PC上设�|�ssh免密码登录：

hadoop@ubuntu:~$ ssh-keygen -t rsa -P ""

Generating public/private rsa key pair.

Enter file in which to save the key (/home/hadoop/.ssh/id_rsa):

Created directory '/home/hadoop/.ssh'.

Your identification has been saved in /home/hadoop/.ssh/id_rsa.

Your public key has been saved in /home/hadoop/.ssh/id_rsa.pub.

The key fingerprint is:

9d:47:ab:d7:22:54:f0:f9:b9:3b:64:93:12:75:81:27 hadoop@ubuntu

hadoop@ubuntu:~$

b�Q�然后，再把master�?HOME/.ssh/id_rsa.pub文�g拯��到slave1和slave2�?HOME/.ssh/下�?/p>

5.修改master节点的配�|�文�?/p>

a�Q�修�?/conf/masters如下�Q?/p>

master

b�Q�修�?/conf/slaves如下�Q?/p>

master //此处��namenode节点也同时做��Z��个datanode节点

slave1

slave2

6.修改namenode的配�|�文�?/p>

a�Q�修改conf/hadoop-env.sh�Q�添加java_home的�\�?/p>

export JAVA_HOME=/usr/jdk1.6.0_18

b�Q�修改conf/core-site.xml�Q�加�?/p>

fs.default.name

hdfs://master:9000

hadoop.tmp.dir

�q�里写想存放HDFS文�g�pȝ��的位�|?lt;/value>

c�Q�修改conf/mapred-site.xml�Q�加�?/p>

mapred.job.tracker

master:9001

mapred.local.dir

�q�里写想存放临时文�g的位�|?lt;/value>

d�Q�修改conf/hdfs-site.xml�Q�加�?/p>

dfs.replication

3 注：�q�里�?个datanode�Q�所以有三个副本

dfs.name.dir

dfs.data.dir

3 �?/p>

7.配置完成�Q�将namenode节点的hadoop文�g夹复制到其它的datanode节点上，所在的目录必须一栗��如

scp -r ~/Hadoop slaver1:~/

复制完后在master上格式化Namenode�Q?/p>

$ bin/hadoop namenode -format

8.然后通过bin/start-all.sh启动各节点即可，每个节点都要启动。在所有节点上�Q�可通过jps查看相应的进�E?/p>

9.在namenode节点上，使用bin/hadoop dfsadmin -report 可查看各节点的情��c��也可以��览器输�?http://master:50070�?http://master:50030查看相应的信息�?/p>

   10.hdfs��试
        �q�行bin/目录的hadoop命��o�Q�可以查看Haoop所有支持的操作及其用法�Q�这里以几个��单的操作��Z��?br>        在HDFS建立目录�Q?br>      bin/hadoop dfs -mkdir testdir
       在HDFS中徏立一个名为testdir的目�?

复制文�g到HDFS�Q?br> bin/hadoop dfs -put /home/hadoop/large.zip testfile.zip
把本地文件large.zip拯��到HDFS的根目录/user/hadoop/下，文�g名�ؓtestfile.zip

查看HDFS的现有文�?br> bin/hadoop dfs -ls

koson 2010-03-27 13:14 发表评论