在线精品国产成人综合,欧美一区二区视频在线,国产综合在线看

ms �W�经攒RP

koson — Sun, 26 Sep 2010 18:23:00 GMT

�W�试的内容不是很难，下面是一些记录：
选择题：
1.两个长度各�ؓN的有序数�l�进行合�qӞ��求可能的最多的比较�ơ数�Q�（2n-1�Q?br>2.两个长度为N的有序数�l�，要求在这两个数组中排�W�N的元素，最��的旉��复杂度？ �Q?O(logn)�Q�类��g��分搜索）
3.逆�L兰表辑ּ�求��|��Q�竟然画了很久的后缀表达式没��d��来，真杯兗��。直接求值就行了�Q?br>4.一个关于二叉树的问题，大意是要在二叉树查找某个元素�Q�求选项�l�出的查扑ֺ�列哪个不可能出现�Q�（考察二叉树的性质�Q?br>5.excell的列表示如AB...Z, AA AB ....ZZ, AAA AAB .... ZZZ, 求DEF的十�q�制��|��?6�q�制的��|��直接计算�Q?br>6.函数指针数组的写法问题。�?br>7.虚函数问题，大意是基�c�d��义了一个保护成员，构造函数初始化�?�Q�还定义了一个虚函数�Q�基�c�L��成�?-�Q�而子�c�d��重定义了虚函敎ͼ��成�?+�Q�主函数里，new了一个子�c�d��象，然后定义一个基�c�L��针指向此对象�Q�又定义了一个基�c�d��用指向此基类指针指向的对象，然后分别调用了虚函数�Q�要求基�c�d��义的成员的倹{�?br>8.�l�出一�D늨�序，要求输出��|��直接计算。程序里计算字符数组 char a[]={'a','b','c'}的长度采用sizeof(a)/sizeof(a[0])的方法�?br>9.指出�l�出选项中不可能存储在栈中的是。。。（全局静态变量，攑֜�静态区中）
10.�l�出char *p="hello world", char a[]="byebye",strncpy(p,a,6),问这个程序运行后p的结果是什么？(�q�里*p是一个字�W�串帔R��Q�不能对它的元素�q�行修改�Q�所以程序在�q�行时会出错)
主观题编�E�题�Q?br>大意是给��Z��个数�l�，�q�个数组每个元素都不同，�q�且可能是升序的�Q�或者是升序+旋�{后的�l�果�Q�例�?,2,3,4,5,或�?4,5,1,2,3 或�?3,4,5,1,2�{�等�Q?br>然后�l�一个数�Q�要扑և��q�个数在所�l�数�l�中的烦引值或者返�?1�Q�要求复杂度必须��于o(n)�?br>相对比较��单吧�Q�首先是判断是否是从左到��x��升序的，若是�Q�则用二分查找，复杂度�ؓo(logn),如果不是�Q�则�Ҏ��要找的��g��W�一个值比较的�l�果�Q�在左半部分或右半部分查找这个数�Q�易知，查找�ơ数肯定��于n�Q�因而复杂度�W�合要求�?br>�W�二个小题是要给��Z��些测试数据�ƈ加以说明�?br>正式扑ַ�的第一场面试，不是很顺利，�Ҏ��记录�Q�攒下RP, ^.^

koson 2010-09-27 02:23 发表评论

��量数据面试题整理（转）

koson — Thu, 23 Sep 2010 12:42:00 GMT

1. �l�定a、b两个文�g�Q�各存放50亿个url�Q�每个url各占64字节�Q�内存限制是4G�Q�让你找出a、b文�g共同的url�Q?/strong>

�Ҏ��1�Q�可以估计每个文件安的大��ؓ50G×64=320G�Q�远�q�大于内存限制的4G。所以不可能��其完全加蝲到内存中处理。考虑采取分而治之的�Ҏ���?/p>
s 遍历文�ga�Q�对每个url求取�Q�然后根据所取得的值将url分别存储�?a name=baidusnap0>1000个小文�g�Q�记�?a >�Q�中。这��h��个小文�g的大�U��ؓ300M�?/p>

s 遍历文�gb�Q�采取和a相同的方式将url分别存储�?strong style="BACKGROUND-COLOR: #ffff66; COLOR: black">1000各小文�g�Q�记�?a >�Q�。这�?strong style="BACKGROUND-COLOR: #ff66ff; COLOR: black">处理后，所有可能相同的url都在对应的小文�g�Q?a >�Q�中�Q�不对应的小文�g不可能有相同的url。然后我们只要求�?strong style="BACKGROUND-COLOR: #ffff66; COLOR: black">1000对小文�g中相同的url卛_��?/p>

s 求每对小文�g中相同的url�Ӟ��可以把其中一个小文�g的url存储到hash_set中。然后遍历另一个小文�g的每个url�Q�看其是否在刚才构徏的hash_set中，如果是，那么��是共同的url�Q�存到文仉��面就可以了�?/p>

�Ҏ��2�Q�如果允许有一定的错误率，可以使用Bloom filter�Q?G内存大概可以表示340亿bit。将其中一个文件中的url使用Bloom filter映射��340亿bit�Q�然后挨个读取另外一个文件的url�Q�检查是否与Bloom filter�Q�如果是�Q�那么该url应该是共同的url�Q�注意会有一定的错误率）�?/p>

2. �?0个文�Ӟ��每个文�g1G�Q�每个文件的每一行存攄��都是用户的query�Q�每个文件的query都可能重复。要求你按照query的频度排序�?/strong>

�Ҏ��1�Q?/p>
s ��序��d��10个文�Ӟ��按照hash(query)%10的结果将query写入到另�?0个文�Ӟ��Cؓ�Q�中。这��h��生成的文件每个的大小大约�?G�Q�假设hash函数是随机的�Q��?/p>
s 找一台内存在2G左右的机器，依次�?a >用hash_map(query, query_count)来统计每个query出现的次数。利用快�?�?归�ƈ排序按照出现�ơ数�q�行排序。将排序好的query和对应的query_cout输出到文件中。这样得��C��10个排好序的文�Ӟ��Cؓ�Q��?/p>
s �?a >�q?0个文件进行归�q�排序（内排序与外排序相�l�合�Q��?/p>
�Ҏ��2�Q?/p>
一般query的总量是有限的�Q�只是重复的�ơ数比较多而已�Q�可能对于所有的query�Q�一�ơ性就可以加入到内存了。这��P��我们��可以采用trie�?hash_map�{�直接来�l�计每个query出现的次敎ͼ�然后按出现次数做快�?�?归�ƈ排序��可以了�?/p>
�Ҏ��3�Q?/p>
与方�?�c�M��Q�但在做完hash�Q�分成多个文件后�Q�可以交�l�多个文件来处理�Q�采用分布式的架构来处理�Q�比如MapReduce�Q�，最后再�q�行合�ƈ�?/p>
3. 有一�?G大小的一个文�Ӟ��里面每一行是一个词�Q�词的大��不��过16字节�Q�内存限制大��是1M。返回频数最高的100个词�?/strong>

�Ҏ��1�Q�顺序读文�g中，对于每个词x�Q�取�Q�然后按照该值存�?000个小文�g�Q�记�?a >�Q�中。这��h��个文件大概是200k左右。如果其中的有的文�g��过�?M大小�Q�还可以按照�c�M��?strong style="BACKGROUND-COLOR: #880000; COLOR: white">�Ҏ��l�箋往下分�Q�知道分解得到的��文件的大小都不��过1M。对每个��文�Ӟ��l�计每个文�g中出现的词以及相应的频率�Q�可以采用trie�?hash_map�{�）�Q��ƈ取出出现频率最大的100个词�Q�可以用�?strong style="BACKGROUND-COLOR: #ffff66; COLOR: black">100个结点的最��堆�Q�，�q�把100词及相应的频率存入文�Ӟ��q�样又得��C��5000个文件。下一步就是把�q?000个文件进行归�qӞ��c�M��与归�q�排序）的过�E�了�?/p>

4. ��量日志数据�Q�提取出某日讉K��癑ֺ��ơ数最多的那个IP�?/strong>

�Ҏ��1�Q�首先是�q�一天，�q�且是访问百度的日志中的IP取出来，逐个写入��C��个大文�g中。注意到IP�?2位的�Q�最多有个IP。同样可以采用映��的�Ҏ���Q�比如模1000�Q�把整个大文件映��ؓ1000个小文�g�Q�再扑և�每个��文中出现频率最大的IP�Q�可以采用hash_map�q�行频率�l�计�Q�然后再扑և�频率最大的几个�Q�及相应的频率。然后再在这1000个最大的IP中，扑և�那个频率最大的IP�Q�即为所求�?/p>
5. �?.5亿个整数中找��Z��重复的整敎ͼ�内存不��以容�U��2.5亿个整数�?/strong>

�Ҏ��1�Q�采�?-Bitmap�Q�每个数分配2bit�Q?0表示不存在，01表示出现一�ơ，10表示多次�Q?1无意义）�q�行�Q�共需内存内存�Q�还可以接受。然后扫描这2.5亿个整数�Q�查看Bitmap中相对应位，如果�?0�?1�Q?1�?0�Q?0保持不变。所描完事后�Q�查看bitmap�Q�把对应位是01的整数输出即可�?/p>
�Ҏ��2�Q�也可采用上题类似的�Ҏ���Q�进行划分小文�g�?strong style="BACKGROUND-COLOR: #880000; COLOR: white">�Ҏ��。然后在��文件中扑և�不重复的整数�Q��ƈ排序。然后再�q�行归�ƈ�Q�注意去除重复的元素�?/p>
6. ��量数据分布�?strong style="BACKGROUND-COLOR: #ffff66; COLOR: black">100台电脑中�Q�想个办法高校统计出�q�批数据的TOP10�?/strong>

�Ҏ��1�Q?/p>
s 在每台电脑上求出TOP10�Q�可以采用包�?0个元素的堆完成（TOP10��，用最大堆�Q�TOP10大，用最��堆�Q�。比如求TOP10大，我们首先取前10个元素调整成最��堆�Q�如果发玎ͼ�然后扫描后面的数据，�q�与堆顶元素比较�Q�如果比堆顶元素大，那么用该元素替换堆顶�Q�然后再调整为最��堆。最后堆中的元素��是TOP10大�?/p>
s 求出每台电脑上的TOP10后，然后把这100台电脑上的TOP10�l�合��h��Q�共1000个数据，再利用上面类似的�Ҏ��求出TOP10��可以了�?/p>
7. 怎么在�v量数据中扑և�重复�ơ数最多的一个？

�Ҏ��1�Q�先做hash�Q�然后求模映��ؓ��文�Ӟ��求出每个��文件中重复�ơ数最多的一个，�q�记录重复次数。然后找��Z��一步求出的数据中重复次数最多的一个就是所求（具体参考前面的题）�?/p>
8. 上千万或上亿数据�Q�有重复�Q�，�l�计其中出现�ơ数最多的钱N个数据�?/strong>

�Ҏ��1�Q�上千万或上亿的数据�Q�现在的机器的内存应该能存下。所以考虑采用hash_map/搜烦二叉�?�U�黑树等来进行统计次数。然后就是取出前N个出现次数最多的数据了，可以用第6题提到的堆机制完成�?/p>
9. 1000万字�W�串�Q�其中有些是重复的，需要把重复的全部去掉，保留没有重复的字�W�串。请怎么设计和实玎ͼ�

�Ҏ��1�Q�这题用trie树比较合适，hash_map也应该能行�?/p>
10. 一个文本文�Ӟ��大约有一万行�Q�每行一个词�Q�要求统计出其中最频繁出现的前10个词�Q�请�l�出思想�Q�给出时间复杂度分析�?/strong>

�Ҏ��1�Q�这题是考虑旉��效率。用trie树统计每个词出现的次敎ͼ�旉��复杂度是O(n*le)�Q�le表示单词的��^准长度）。然后是扑և�出现最频繁的前10个词�Q�可以用堆来实现�Q�前面的题中已经讲到了，旉��复杂度是O(n*lg10)。所以�ȝ��旉��复杂度，是O(n*le)与O(n*lg10)中较大的哪一个�?/p>
11. 一个文本文�Ӟ��扑և��?0个经常出现的词，但这�ơ文件比较长�Q�说是上亿行或十亿行�Q��M��无法一�ơ读入内存，问最优解�?/strong>

�Ҏ��1�Q�首先根据用hash�q�求模，��文件分解�ؓ多个��文�Ӟ��对于单个文�g利用上题�?strong style="BACKGROUND-COLOR: #880000; COLOR: white">�Ҏ��求出每个文�g件中10个最常出现的词。然后再�q�行归�ƈ处理�Q�找出最�l�的10个最常出现的词�?/p>
12. 100w个数中找出最大的100个数�?/strong>

�Ҏ��1�Q�在前面的题中，我们已经提到了，用一个含100个元素的最��堆完成。复杂度为O(100w*lg100)�?/p>
�Ҏ��2�Q�采用快速排序的思想�Q�每�ơ分割之后只考虑比��u大的一部分�Q�知道比轴大的一部分在比100多的时候，采用传统排序��法排序�Q�取�?strong style="BACKGROUND-COLOR: #ffff66; COLOR: black">100个。复杂度为O(100w*100)�?/p>
�Ҏ��3�Q�采用局部淘汰法。选取�?strong style="BACKGROUND-COLOR: #ffff66; COLOR: black">100个元素，�q�排序，��Cؓ序列L。然后一�ơ扫描剩余的元素x�Q�与排好序的100个元素中最��的元素比，如果比这个最��的要大�Q�那么把�q�个最��的元素删除�Q��ƈ把x利用插入排序的思想�Q�插入到序列L中。依�ơ��@环，知道扫描了所有的元素。复杂度为O(100w*100)�?/p>
13. ��L��热门查询�Q?/strong>

搜烦引擎会通过日志文�g把用��h��ơ检索��用的所有检索串都记录下来，每个查询串的长度�?-255字节。假讄��前有一千万个记录，�q�些查询串的重复��L��较高�Q�虽然��L��?千万�Q�但是如果去除重复和�Q�不��过3百万个。一个查询串的重复度��高�Q�说明查询它的用戯��多，也就��热门。请你统计最热门�?0个查询串�Q�要求��用的内存不能��过1G�?/p>
(1) ��h��q�C��解决�q�个问题的思�\�Q?/p>
(2) ��L��Z��要的处理��程�Q�算法，以及��法的复杂度�?/p>
�Ҏ��1�Q�采用trie树，关键字域存该查询串出现的�ơ数�Q�没有出��Cؓ0。最后用10个元素的最��推来对出现频率�q�行排序�?/p>
14. 一共有N个机器，每个机器上有N个数。每个机器最多存O(N)个数�q�对它们操作。如何找�?a >个数中的中数�Q?/strong>

�Ҏ��1�Q�先大体估计一下这些数的范��_��比如�q�里假设�q�些数都�?2位无�W�号整数�Q�共�?a >个）。我们把0�?a >的整数划分�ؓN个范围段�Q�每个段包含个整数。比如，�W�一个段�?�?a >�Q�第二段�?a >�?a >�Q?#8230;�Q�第N个段�?a >�?a >。然后，扫描每个机器上的N个数�Q�把属于�W�一个区�D늚�数放到第一个机器上�Q�属于第二个区段的数攑ֈ��W�二个机器上�Q?#8230;�Q�属于第N个区�D늚�数放到第N个机器上。注意这个过�E�每个机器上存储的数应该是O(N)的。下面我们依�ơ统计每个机器上数的个数�Q�一�ơ篏加，直到扑ֈ��W�k个机器，在该机器上篏加的数大于或�{�于�Q�而在�W�k-1个机器上的篏加数��于�Q��ƈ把这个数��Cؓx。那么我们要扄��中位数在�W�k个机器中�Q�排在第位。然后我们对�W�k个机器的数排序，�q�找出第个数�Q�即为所求的中位数。复杂度�?a >的�?/p>
�Ҏ��2�Q�先�Ҏ��台机器上的数�q�行排序。排好序后，我们采用归�ƈ排序的思想�Q�将�q�N个机器上的数归�ƈ��h��得到最�l�的排序。找到第个便是所求。复杂度�?a >的�?/p>
15. 最大间隙问�?/strong>

�l�定n个实�?a >�Q�求着n个实数在实��u上向�?个数之间的最大差��|��要求�U�性的旉��法�?/p>
�Ҏ��1�Q�最先想到的�Ҏ����是先对�q�n个数据进行排序，然后一遍扫描即可确定相�ȝ��最大间隙。但�?strong style="BACKGROUND-COLOR: #880000; COLOR: white">�Ҏ��不能满��U�性时间的要求。故采取如下�Ҏ���Q?/p>
s 扑ֈ�n个数据中最大和最��数据max和min�?/p>
s 用n-2个点�{�分区间[min, max]�Q�即��[min, max]�{�分为n-1个区��_��前闭后开区间�Q�，��这些区间看作桶�Q�编号�ؓ�Q�且�?a >的上界和桶i+1的下届相同，��x��个桶的大��相同。每个桶的大��ؓ�Q?a >。实际上�Q�这些桶的边界构成了一个等差数列（首项为min�Q�公差�ؓ�Q�，且认为将min攑օ��W�一个桶�Q�将max攑օ��W�n-1个桶�?/p>
s ��n个数攑օ�n-1个桶中：��每个元�?a >分配到某个桶�Q�编号�ؓindex�Q�，其中�Q��ƈ求出分到每个桶的最大最��数据�?/p>
s 最大间隙：除最大最��数据max和min以外的n-2个数据放入n-1个桶中，由抽屉原理可知至��有一个桶是空的，又因为每个桶的大��相同，所以最大间隙不会在同一桶中出现�Q�一定是某个桶的上界和气候某个桶的下界之间隙�Q�且该量�{�之间的�Ӟ��即便好在该连个便好之间的�Ӟ��一定是�I�桶。也��是��_��最大间隙在桶i的上界和桶j的下界之间��?a >。一遍扫描即可完成�?/p>
16. ��多个集合合�q�成没有交集的集合：�l�定一个字�W�串的集合，格式如：。要求将其中交集不�ؓ�I�的集合合�ƈ�Q�要求合�q�完成的集合之间无交集，例如上例应输�?a >�?/strong>

(1) ��h��q�C��解决�q�个问题的思�\�Q?/p>
(2) �l�出主要�?strong style="BACKGROUND-COLOR: #ff66ff; COLOR: black">处理��程�Q�算法，以及��法的复杂度�Q?/p>
(3) ��h��q�可能的改进�?/p>
�Ҏ��1�Q�采用�ƈ查集。首先所有的字符串都在单独的�q�查集中。然后依扫描每个集合�Q�顺序合�q�将两个盔R��元素合�ƈ。例如，对于�Q�首先查看aaa和bbb是否在同一个�ƈ查集中，如果不在�Q�那么把它们所在的�q�查集合�qӞ��然后再看bbb和ccc是否在同一个�ƈ查集中，如果不在�Q�那么也把它们所在的�q�查集合�q�。接下来再扫描其他的集合�Q�当所有的集合都扫描完了，�q�查集代表的集合便是所求。复杂度应该是O(NlgN)的。改�q�的话，首先可以记录每个节点的根�l�点�Q�改�q�查询。合�q�的时候，可以把大的和��的�q�行合，�q�样也减��复杂度�?/p>
17. 最大子序列与最大子矩阵问题

数组的最大子序列问题�Q�给定一个数�l�，其中元素有正�Q�也有负�Q�找出其中一个连�l�子序列�Q��和最大�?/p>
�Ҏ��1�Q�这个问题可以动态规划的思想解决。设表示以第i个元�?a >�l�尾的最大子序列�Q�那么显�?a >。基于这一点可以很快用代码实现�?/p>
最大子矩阵问题�Q�给定一个矩阵（二维数组�Q�，其中数据有大有小�Q�请找一个子矩阵�Q��得子矩阵的和最大，�q�输��个和�?/p>
�Ҏ��1�Q�可以采用与最大子序列�c�M��的思想来解冟뀂如果我们确定了选择�W�i列和�W�j列之间的元素�Q�那么在�q�个范围内，其实��是一个最大子序列问题。如何确定第i列和�W�j列可以词用暴搜的�Ҏ���q�行�?/p>

koson 2010-09-23 20:42 发表评论

struct�l�构体的数据寚w��

koson — Wed, 22 Sep 2010 06:49:00 GMT

struct
{
   char a;
   int b;
   short c;
};
每个成员起始地址必须为相应类型的大小的倍数�Q�如a,起始地址�?�Q��ؓsizeof(char)=1的倍数�Q�而到b的时候，因�ؓ�q�时地址�?�Q�不是sizeof(int)=4的倍数�Q�所以编译器会添�?个字节大��，此时地址�?�Q�作为b的�v始地址�Q�b占用4个字节，所以此时内存地址�?�Q?是sizeof(short)=2的倍数�Q�所以c的�v始地址�?�Q�占两个字节�Q�所以此时�ȝ��分配内存大小�?0�Q�但是因为整个结构体的最大成员�ؓsizeof(int)=4,�?0不�ؓ4的倍数�Q�所以要��d��两个字节�?2.
使用#pragma pack(n)可以指定�~�译器按n个字节作为对齐方式，�q�个指定只对那些大于n个字节的成员有效�Q�如上例�Q�若指定了以2个字节作为对齐，则a的�v始地址�?�Q�接着到b,因�ؓsizeof(int)=4 < 2,所以要指定的对齐方式，此时地址�?�Q�不�?的倍数�Q�所以要�?�Q�所以b的�v始地址�?�Q�占�?个字节大��之后地址�?�Q�接着是c�Q�因�?�?的倍数�Q�所�?为c的�v始地址�Q�占用两个字节，�ȝ��大小�?

koson 2010-09-22 14:49 发表评论

XP下Virtualbox虚拟Ubuntu�׃�n文�g夹设�|�（转）

koson — Tue, 14 Sep 2010 16:57:00 GMT

    1. 安装增强功能�?Guest Additions)

    安装�?u>ubuntu后，�q�行Ubuntu�q�登录。然后在VirtualBox的菜单里选择"讑֤�(Devices)" -> "安装增强功能�?Install Guest Additions)"�?/p>
    你会发现在Ubuntu桌面上多��Z��个光盘图标，�q�张光盘默认被自动加载到了文件夹/media/cdom0。进入命令行�l�端�Q�输入：

    cd /media/cdom0

    sudo ./VboxLinuxAdditions.run

    开始安装工具包。安装完毕后会提�C��重启Ubuntu�?/p>
    2. 讄��׃�n文�g�?/p>
    重启完成后点�?讑֤�(Devices)" -> �׃�n文�g�?Shared Folders)菜单�Q�添加一个共享文件夹�Q�选项固定和��时是指该文�g�Ҏ��否是持久的。共享名可以��d��一个自己喜�Ƣ的�Q�比�?gongxiang"�Q�尽量��用英文名�U��?/p>
    3. 挂蝲�׃�n文�g�?/p>
    重新�q�入虚拟Ubuntu�Q�在命��o行终端下输入�Q?/p>
    sudo mkdir /mnt/shared

    sudo mount -t vboxsf gongxiang /mnt/shared

    其中"gongxiang"是之前创建的�׃�n文�g夹的名字。OK�Q�现在Ubuntu和主机可以互传文件了�?/p>
    假如您不��x��一�ơ都手动挂蝲�Q�可以在/etc/fstab中添加一��?/p>
    gongxiang /mnt/shared vboxsf rw,gid=100,uid=1000,auto 0 0

    �q�样��p��够自动挂载了�?/p>
    4. 卸蝲的话使用下面的命令：

    sudo umount -f /mnt/shared

    注意�Q?/p>
    �׃�n文�g夹的名称千万不要和挂载点的名�U�相同。比如，上面的挂载点�?mnt/shared�Q�如果共享文件夹的名字也是shared的话�Q�在挂蝲的时候就会出现如下的错误信息(�?a >http://www.virtualbox.org/ticket/2265)�Q?/p>
    /sbin/mount.vboxsf: mounting failed with the error: Protocol error

    原因分析可以看Tips on running Sun Virtualbox的Shared Folder on a Linux Guest节�?/p>

koson 2010-09-15 00:57 发表评论

koson — Tue, 14 Sep 2010 16:56:00 GMT

在具体�ȝ��各类压羃文�g之前呢，首先要弄清两个概念：打包和压�~�。打包是指将一大堆文�g或目录什么的变成一个�ȝ��文�g�Q�压�~�则是将一个大的文仉��过一些压�~�算法变成一个小文�g。�ؓ什么要区分�q�两个概念呢�Q�其实这源于Linux中的很多压羃�E�序只能针对一个文件进行压�~�，�q�样当你惌��压羃一大堆文时�Q�你��得先借助另它的工具将�q�一大堆文�g先打成一个包�Q�然后再��原来的压羃�E�序�q�行压羃�?br>　　Linux下最常用的打包程序就是tar了，使用tar�E�序打出来的包我们常�U�Cؓtar包，tar包文件的命��o通常都是�?tar�l�尾的。生成tar包后�Q�就可以用其它的�E�序来进行压�~�了�Q�所以首先就来讲讲tar命��o的基本用法：
　　tar命��o的选项有很�?用man tar可以查看�?�Q�但常用的就那么几个选项�Q�下面来举例说明一下：
       # tar -cf all.tar *.jpg
　　�q�条命��o是将所�?jpg的文件打成一个名为all.tar的包�?c是表�C�Z�生新的包�Q?f指定包的文�g名�?br>       # tar -rf all.tar *.gif
　　�q�条命��o是将所�?gif的文件增加到all.tar的包里面厅R�?r是表�C�增加文件的意思�?br>       # tar -uf all.tar logo.gif
　　�q�条命��o�?更新原来tar包all.tar中logo.gif文�g�Q?u是表�C�更新文件的意思�?br>       # tar -tf all.tar
　　�q�条命��o是列出all.tar包中所有文�Ӟ��-t是列出文件的意�?br>       # tar -xf all.tar
　　�q�条命��o是解出all.tar包中所有文�Ӟ��-x是解开的意�?br>       以上��是tar的最基本的用法。�ؓ了方便用户在打包解包的同时可以压�~�或解压文�g�Q�tar提供了一�U�特�D�的功能。这��是tar可以在打包或解包的同时调用其它的压羃�E�序�Q�比如调用gzip、bzip2�{��?br>      1) tar调用gzip
       gzip是GNU�l�织开发的一个压�~�程序，.gz�l�尾的文件就是gzip压羃的结果。与gzip相对的解压程序gunzip。tar中��?z�q�个参数来调用gzip。下面来举例说明一下：
       # tar -czf all.tar.gz *.jpg
　　�q�条命��o是将所�?jpg的文件打成一个tar包，�q�且��其用gzip压羃�Q�生成一个gzip压羃�q�的包，包名all.tar.gz
       # tar -xzf all.tar.gz
　　�q�条命��o是将上面产生的包解开�?br>       2) tar调用bzip2
       bzip2是一个压�~�能力更强的压羃�E�序�Q?bz2�l�尾的文件就是bzip2压羃的结果。与bzip2相对的解压程序是bunzip2。tar中��?j�q�个参数来调用gzip。下面来举例说明一下：
       # tar -cjf all.tar.bz2 *.jpg
　　�q�条命��o是将所�?jpg的文件打成一个tar包，�q�且��其用bzip2压羃�Q�生成一个bzip2压羃�q�的包，包名为all.tar.bz2
       # tar -xjf all.tar.bz2
　　�q�条命��o是将上面产生的包解开�?br>       3)tar调用compress
compress也是一个压�~�程序，但是好象使用compress的�h不如gzip和bzip2的�h多�?Z�l�尾的文件就是bzip2压羃的结果。与 compress相对的解压程序是uncompress。tar中��?Z�q�个参数来调用compress。下面来举例说明一下：
       # tar -cZf all.tar.Z *.jpg
　　�q�条命��o是将所�?jpg的文件打成一个tar包，�q�且��其用compress压羃�Q�生成一个uncompress压羃�q�的包，包名为all.tar.Z
       # tar -xZf all.tar.Z
　　�q�条命��o是将上面产生的包解开
      有了上面的知识，你应该可以解开多种压羃文�g了，下面对于tar�p�d��的压�~�文
件作一个小�l�：
       #1)对于.tar�l�尾的文�?br>       tar -xf all.tar
       2)对于.gz�l�尾的文�?br>       gzip -d all.gz
　　gunzip all.gz
      3)对于.tgz�?tar.gz�l�尾的文�?br>       tar -xzf all.tar.gz
　　tar -xzf all.tgz
       4)对于.bz2�l�尾的文�?br>       bzip2 -d all.bz2
　　bunzip2 all.bz2
       5)对于tar.bz2�l�尾的文�?br>       tar -xjf all.tar.bz2
       6)对于.Z�l�尾的文�?br>       uncompress all.Z
       7)对于.tar.Z�l�尾的文�?br>       tar -xZf all.tar.z
       另外对于Window下的常见压羃文�g.zip�?rar�Q�Linux也有相应的方法来解压它们�Q?br>       1)对于.zip
        linux下提供了zip和unzip�E�序�Q�zip是压�~�程序，unzip是解压程序。它们的�?br>数选项很多�Q�这里只做简单介�l�，依旧举例说明一下其用法�Q?br>       # zip all.zip *.jpg
　　�q�条命��o是将所�?jpg的文件压�~�成一个zip�?br>       # unzip all.zip
　　�q�条命��o是将all.zip中的所有文件解压出�?br>      2)对于.rar
要在linux下处�?rar文�g�Q�需要安装RAR for Linux�Q�可以从�|�上下蝲�Q�但要记住，RAR for Linux不是免费的；可从http://www.rarsoft.com/download.htm下蝲RARfor Linux 3.2.
0�Q�然后安装：
       # tar -xzpvf rarlinux-3.2.0.tar.gz
　　# cd rar
　　# make
      �q�样��安装好了，安装后就有了rar和unrar�q�两个程序，rar是压�~�程序，unrar是解压程序。它们的参数选项很多�Q�这里只做简单介�l�，依旧举例说明一下其用法�Q?br>       # rar a all *.jpg
　　�q�条命��o是将所�?jpg的文件压�~�成一个rar包，名�ؓall.rar�Q�该�E�序会将.rar扩展名将自动附加到包名后�?br>       # unrar e all.rar
　　�q�条命��o是将all.rar中的所有文件解压出�?br>       到此��Q�我们已�l�介�l�过linux下的tar、gzip、gunzip、bzip2、bunzip2、compress、uncompress�?zip、unzip、rar、unrar�{�程式，你应该已�l�能够��用它们对.tar�?gz�?tar.gz�?tgz�?bz2�?tar.bz2�?Z�?tar.Z�?zip�?rar�q?0�U�压�~�文件进行解压了�Q�以后应该不需要�ؓ下蝲了一个��Y件而不知道如何在Linux下解开而烦��g��。而且以上�Ҏ��对于Unix也基本有效�?br>      本文介绍了linux下的压羃�E�式tar、gzip、gunzip、bzip2、bunzip2、compress、uncompress�?zip�?unzip、rar、unrar�{�程式，以及如何使用它们�?tar�?gz�?tar.gz�?tgz�?bz2�?tar.bz2�?Z�? tar.Z�?zip�?rar�q?0�U�压�~�文件进行操作�?

koson 2010-09-15 00:56 发表评论

koson — Mon, 13 Sep 2010 20:05:00 GMT

下来两三个月�Q�将是找工阶�D늚�高峰期，不管以前再多么的各种不如意，都必��d��w�心的投入进去，不可懈怠，希望扑ֈ�自己满意的一份工作！

koson 2010-09-14 04:05 发表评论

koson — Mon, 19 Jul 2010 06:50:00 GMT
http://caibinbupt.javaeye.com/ 蔡斌�Q�hadoop源码分析
http://www.oschina.net/p/hive/recomm HIVE的详�l�教�E?br>http://www.tbdata.org/archives/category/hive 淘宝数据�q�_��团队
http://www.cnblogs.com/spork/archive/2010/01/11/1644342.html Map/Reduce数据��?br>

koson 2010-07-19 14:50 发表评论

koson — Mon, 19 Jul 2010 06:42:00 GMT

Hadoop分布式文件系�l�：架构和设计要�?/span>
原文�Q�http://hadoop.apache.org/core/docs/current/hdfs_design.html
一、前提和设计目标
1、硬仉��误是常态，而非异常情况�Q?/span>HDFS可能是有成百上千�?/span>server�l�成�Q��Q何一个组仉��有可能一直失效，因此错误��和快速、自动的恢复�?/span>HDFS的核心架构目标�?/span>
2、跑�?/span>HDFS上的应用与一般的应用不同�Q�它们主要是以流式读��Z��Q�做扚w��处理�Q�比之关注数据访问的低�g�q�问题，更关键的在于数据讉K��的高吞吐量�?/span>
3�?/span>HDFS以支持大数据集合为目标，一个存储在上面的典型文件大��一般都在千兆至T字节�Q�一个单一HDFS实例应该能支撑数以千万计的文件�?/span>
4�?HDFS应用�Ҏ��件要求的�?/span>write-one-read-many讉K��模型。一个文件经�q�创建、写�Q�关闭之后就不需要改变。这一假设��化了数据一致性问题，佉K��吞吐量的数据讉K��成�ؓ可能。典型的�?/span>MapReduce框架�Q�或者一�?/span>web crawler应用都很适合�q�个模型�?/span>
5、移动计��的代�h比之�U�d��数据的代价低。一个应用请求的计算�Q�离它操作的数据��近��p��高效�Q�这在数据达到�v量��别的时候更是如此。将计算�U�d��到数据附�q�，比之��数据移动到应用所在显然更好，HDFS提供�l�应用这��L��接口�?/span>
6、在异构的��Y��g�q�_��间的可移植性�?/span>

二�?/span>Namenode�?/span>Datanode
    HDFS采用master/slave架构。一�?/span>HDFS集群是有一�?/span>Namenode和一定数目的Datanode�l�成�?/span>Namenode是一个中心服务器�Q�负责管理文件系�l�的namespace和客��L��Ҏ��件的讉K��?/span>Datanode在集��中一般是一个节点一个，负责��理节点上它们附带的存储。在内部�Q�一个文件其实分成一个或多个block�Q�这�?/span>block存储�?/span>Datanode集合里�?/span>Namenode执行文�g�pȝ��?/span>namespace操作�Q�例如打开、关闭、重命名文�g和目录，同时军_��block到具�?/span>Datanode节点的映��?/span>Datanode�?/span>Namenode的指挥下�q�行block的创建、删除和复制�?/span>Namenode�?/span>Datanode都是设计成可以跑在普通的廉�h的运�?/span>linux的机器上�?/span>HDFS采用java语言开发，因此可以部��v在很大范围的机器上。一个典型的部��v场景是一台机器跑一个单独的Namenode节点�Q�集��中的其他机器各跑一�?/span>Datanode实例。这个架构�ƈ不排除一台机器上跑多�?/span>Datanode�Q�不�q�这比较��见�?/span>

单一节点�?/span>Namenode大大��化了�pȝ��的架构�?/span>Namenode负责保管和管理所有的HDFS元数据，因而用��h��据就不需要通过Namenode�Q�也��是说文件数据的��d��是直接在Datanode上）�?/span>

三、文件系�l�的namespace
   HDFS支持传统的层�ơ型文�g�l�织�Q�与大多数其他文件系�l�类��|��用户可以创徏目录�Q��ƈ在其间创建、删除、移动和重命名文件�?/span>HDFS不支�?/span>user quotas和访问权限，也不支持链接�Q?/span>link)�Q�不�q�当前的架构�q�不排除实现�q�些�Ҏ��?/span>Namenode�l�护文�g�pȝ��?/span>namespace�Q��Q何对文�g�pȝ��namespace和文件属性的修改都将�?/span>Namenode记录下来。应用可以设�|?/span>HDFS保存的文件的副本数目�Q�文件副本的数目�U�Cؓ文�g�?replication因子�Q�这个信息也是由Namenode保存�?/span>

四、数据复�?/span>
    HDFS被设计成在一个大集群中可以跨机器地可靠地存储��量的文件。它��每个文件存储成block序列�Q�除了最后一�?/span>block�Q�所有的block都是同样的大��。文件的所�?/span>block��Z��定w��都会被复制。每个文件的block大小�?/span>replication因子都是可配�|�的�?/span>Replication因子可以在文件创建的时候配�|�，以后也可以改变�?/span>HDFS中的文�g�?/span>write-one�Q��ƈ且严��D��求在��M��时候只有一�?/span>writer�?/span>Namenode全权��理block的复�Ӟ��它周期性地从集��中的每�?/span>Datanode接收心蟩包和一�?/span>Blockreport。心跛_��的接收表�C��Datanode节点正常工作�Q��?/span>Blockreport包括了该Datanode上所有的block�l�成的列表�?/span>

1、副本的存放�Q�副本的存放�?/span>HDFS可靠性和性能的关键�?/span>HDFS采用一�U�称�?/span>rack-aware的策略来改进数据的可靠性、有效性和�|�络带宽的利用。这个策略实现的短期目标是验证在生��环境下的表现�Q�观察它的行为，构徏��试和研�I�的基础�Q�以便实现更先进的策略。庞大的HDFS实例一般运行在多个机架的计��机形成的集��上�Q�不同机枉��的两台机器的通讯需要通过交换机，昄��通常情况下，同一个机架内的两个节炚w��的带宽会比不同机枉��的两台机器的带宽大�?/span>
    通过一个称�?/span>Rack Awareness的过�E�，Namenode军_��了每�?/span>Datanode所属的rack id。一个简单但没有优化的策略就是将副本存放在单独的机架上。这样可以防止整个机�Ӟ��非副本存放）失效的情况，�q�且允许��L��据的时候可以从多个机架��d��。这个简单策略设�|�可以将副本分布在集��中�Q�有利于�l��g��p�|情况下的负蝲均衡。但是，�q�个��单策略加大了写的代�h�Q�因��Z��个写操作需要传�?/span>block到多个机架�?/span>
    在大多数情况下，replication因子�?/span>3�Q?/span>HDFS的存攄��略是��一个副本存攑֜�本地机架上的节点�Q�一个副本放在同一机架上的另一个节点，最后一个副本放在不同机架上的一个节炏V��机架的错误�q�远比节点的错误��，�q�个�{�略不会影响到数据的可靠性和有效性。三分之一的副本在一个节点上�Q�三分之二在一个机架上�Q�其他保存在剩下的机架中�Q�这一�{�略改进了写的性能�?/span>

2、副本的选择�Q��ؓ了降低整体的带宽消耗和��d�g�Ӟ��HDFS会尽量让reader��L��q�的副本。如果在reader的同一个机架上有一个副本，那么��p��该副本。如果一�?/span>HDFS集群跨越多个数据中心�Q�那�?/span>reader也将首先��试��L��地数据中心的副本�?/span>

3�?/span>SafeMode
    Namenode启动后会�q�入一个称�?/span>SafeMode的特�D�状态，处在�q�个状态的Namenode是不会进行数据块的复制的�?/span>Namenode从所有的 Datanode接收心蟩包和Blockreport�?/span>Blockreport包括了某�?/span>Datanode所有的数据块列表。每�?/span>block都有指定的最��数目的副本。当Namenode��确认某�?/span>Datanode的数据块副本的最��数目，那么�?/span>Datanode��׃��被认为是安全的；如果一定百分比�Q�这个参数可配置�Q�的数据块检��确认是安全的，那么Namenode��退�?/span>SafeMode状态，接下来它会确定还有哪些数据块的副本没有达到指定数目，�q�将�q�些block复制到其�?/span>Datanode�?/span>

五、文件系�l�元数据的持久化
    Namenode存储HDFS的元数据。对于�Q何对文�g元数据��生修改的操作�Q?/span>Namenode都��用一个称�?/span>Editlog的事务日志记录下来。例如，�?/span>HDFS中创��Z��个文�Ӟ��Namenode��׃��?/span>Editlog中插入一条记录来表示�Q�同��P��修改文�g�?/span>replication因子也将往 Editlog插入一条记录�?/span>Namenode在本�?/span>OS的文件系�l�中存储�q�个Editlog。整个文件系�l�的namespace�Q�包�?/span>block到文件的映射、文件的属性，都存储在�U�CؓFsImage的文件中�Q�这个文件也是放�?/span>Namenode所在系�l�的文�g�pȝ��上�?/span>
    Namenode在内存中保存着整个文�g�pȝ��namespace和文�?/span>Blockmap的映像。这个关键的元数据设计得很紧凑，因而一个带�?/span>4G内存�?Namenode��_��支撑��量的文件和目录。当Namenode启动�Ӟ��它从��盘中读�?/span>Editlog�?/span>FsImage�Q�将所�?/span>Editlog中的事务作用�Q?/span>apply)在内存中�?/span>FsImage �Q��ƈ��这个新版本�?/span>FsImage从内存中flush到硬盘上,然后�?/span>truncate�q�个旧的Editlog�Q�因��个旧�?/span>Editlog的事务都已经作用�?/span>FsImage上了。这个过�E�称�?/span>checkpoint。在当前实现中，checkpoint只发生在Namenode启动�Ӟ��在不久的��来我们��实现支持周期性的checkpoint�?/span>
    Datanode�q�不知道关于文�g的�Q何东西，除了��文件中的数据保存在本地的文件系�l�上。它把每�?/span>HDFS数据块存储在本地文�g�pȝ��上隔��ȝ��文�g中�?Datanode�q�不在同一个目录创建所有的文�g�Q�相反，它用启发式地�Ҏ��来确定每个目录的最��x��件数目，�q�且在适当的时候创建子目录。在同一个目录创建所有的文�g不是最优的选择�Q�因为本地文件系�l�可能无法高效地在单一目录中支持大量的文�g。当一�?/span>Datanode启动�Ӟ��它扫描本地文件系�l�，对这些本地文件��生相应的一个所�?/span>HDFS数据块的列表�Q�然后发送报告到Namenode�Q�这个报告就�?/span>Blockreport�?/span>

六、通讯协议
    所有的HDFS通讯协议都是构徏�?/span>TCP/IP协议上。客��L��通过一个可配置的端口连接到Namenode�Q�通过ClientProtocol�?Namenode交互。�?/span>Datanode是��?/span>DatanodeProtocol�?/span>Namenode交互。从ClientProtocol�?Datanodeprotocol抽象��Z��个远�E�调�?/span>(RPC�Q�，在设计上�Q?/span>Namenode不会��d��发�vRPC�Q�而是是响应来自客��L��?Datanode �?/span>RPC��h��?/span>

七、健壮�?/span>
    HDFS的主要目标就是实现在��p�|情况下的数据存储可靠性。常见的三种��p�|�Q?/span>Namenode failures, Datanode failures和网�l�分�Ԍ��network partitions)�?/span>
1、硬盘数据错误、心��x��和重新复制
    每个Datanode节点都向Namenode周期性地发送心跛_��。网�l�切割可能导致一部分Datanode�?/span>Namenode失去联系�?Namenode通过心蟩包的�~�失��到�q�一情况�Q��ƈ��这�?/span>Datanode标记�?/span>dead�Q�不会将新的IO��h��发给它们。寄存在dead Datanode上的��M��数据��不再有效�?/span>Datanode的死亡可能引起一�?/span>block的副本数目低于指定��|��Namenode不断地跟�t�需要复制的 block�Q�在��M��需要的情况下启动复制。在下列情况可能需要重新复�Ӟ��某个Datanode节点失效�Q�某个副本遭到损坏，Datanode上的��盘错误�Q�或者文件的replication因子增大�?/span>

2、集��均�?/span>
   HDFS支持数据的均衡计划，如果某个Datanode节点上的�I�闲�I�间低于特定的��界点�Q�那么就会启动一个计划自动地��数据从一�?/span>Datanode搬移到空闲的Datanode。当�Ҏ��个文件的��h��H�然增加�Q�那么也可能启动一个计划创��文�g新的副本�Q��ƈ分布到集��中以满��_��用的要求。这些均衡计划目前还没有实现�?/span>

3、数据完整�?/span>
从某�?/span>Datanode获取的数据块有可能是损坏的，�q�个损坏可能是由�?/span>Datanode的存储设备错误、网�l�错误或者��Y�?/span>bug造成的�?/span>HDFS客户端��Y件实��C��HDFS文�g内容的校验和。当某个客户端创��Z��个新�?/span>HDFS文�g�Q�会计算�q�个文�g每个block的校验和�Q��ƈ作�ؓ一个单独的隐藏文�g保存�q�些校验和在同一�?/span>HDFS namespace下。当客户端检索文件内容，它会��认�?/span>Datanode获取的数据跟相应的校验和文�g中的校验和是否匹配，如果不匹配，客户端可以选择从其�?/span>Datanode获取�?/span>block的副本�?/span>

4、元数据��盘错误
    FsImage�?/span>Editlog�?/span>HDFS的核心数据结构。这些文件如果损坏了�Q�整�?/span>HDFS实例都将失效。因而，Namenode可以配置成支持维护多�?/span>FsImage�?/span>Editlog的拷贝。�Q何对FsImage或�?/span>Editlog的修改，都将同步到它们的副本上。这个同步操作可能会降低 Namenode每秒能支持处理的namespace事务。这个代��h��可以接受的，因�ؓHDFS是数据密集的�Q�而非元数据密集。当Namenode重启的时候，它��L��选取最�q�的一致的FsImage�?/span>Editlog使用�?/span>
   Namenode�?/span>HDFS是单点存在，如果Namenode所在的机器错误�Q�手工的�q�预是必��ȝ��。目前，在另一台机器上重启因故障而停止服务的Namenode�q�个功能�q�没实现�?/span>

5、快�?/span>
   快照支持某个旉��的数据拷贝，�?/span>HDFS数据损坏的时候，可以恢复到过��M��个已知正��的旉��炏V�?/span>HDFS目前�q�不支持快照功能�?/span>

八、数据组�l?/span>
1、数据块
    兼容HDFS的应用都是处理大数据集合的。这些应用都是写数据一�ơ，��d��是一�ơ到多次�Q��ƈ且读的速度要满��x��式读�?/span>HDFS支持文�g�?/span>write- once-read-many语义。一个典型的block大小�?/span>64MB�Q�因而，文�g��L��按照64M切分�?/span>chunk�Q�每�?/span>chunk存储于不同的 Datanode
2、步�?/span>
    某个客户端创建文件的��h��其实�q�没有立卛_��l?/span>Namenode�Q�事实上�Q?/span>HDFS客户端会��文件数据缓存到本地的一个��时文件。应用的写被透明地重定向到这个��时文件。当�q�个临时文�g累积的数据超�q�一�?/span>block的大��（默认64M)�Q�客��L��才会联系Namenode�?/span>Namenode��文件名插入文�g�pȝ��的层�ơ结构中�Q��ƈ且分配一个数据块�l�它�Q�然后返�?/span>Datanode的标识符和目标数据块�l�客��L��。客��L��本��C��时文�?/span>flush到指定的 Datanode上。当文�g关闭�Ӟ��在��时文件中剩余的没�?/span>flush的数据也会传输到指定�?/span>Datanode�Q�然后客��L��告诉Namenode文�g已经关闭。此�?/span>Namenode才将文�g创徏操作提交到持久存储。如�?/span>Namenode在文件关闭前挂了�Q�该文�g��丢失�?/span>
   上述�Ҏ��是对通过�?/span>HDFS上运行的目标应用认真考虑的结果。如果不采用客户端缓存，�׃��|�络速度和网�l�堵塞会对吞估量造成比较大的影响�?/span>

3、流水线复制
    当某个客��L��?/span>HDFS文�g写数据的时候，一开始是写入本地临时文�g�Q�假设该文�g�?/span>replication因子讄��?/span>3�Q�那么客��L��会从Namenode 获取一�?/span>Datanode列表来存攑։�本。然后客��L��开始向�W�一�?/span>Datanode传输数据�Q�第一�?/span>Datanode一��部分一��部分（4kb)地接收数据，��每个部分写入本��C��库，�q�且同时传输该部分到�W�二�?/span>Datanode节点。第二个Datanode也是�q�样�Q�边收边传，一��部分一��部分地�Ӟ��存储在本��C��库，同时传给�W�三�?/span>Datanode�Q�第三个Datanode��׃��仅是接收�q�存储了。这��是��水�U�式的复制�?/span>

九、可讉K��?/span>
    HDFS�l�应用提供了多种讉K��方式�Q�可以通过DFSShell通过命��o行与HDFS数据�q�行交互�Q�可以通过java API调用�Q�也可以通过C语言的封�?/span>API讉K��Q��ƈ且提供了��览器访问的方式。正在开发通过WebDav协议讉K��的方式。具体��用参考文档�?/span>
十、空间的回收
1、文件的删除和恢�?/span>
    用户或者应用删除某个文�Ӟ��q�个文�g�q�没有立��M��HDFS中删除。相反，HDFS��这个文仉��命名�Q��ƈ转移�?/span>/trash目录。当文�g�q�在/trash目录�Ӟ��该文件可以被�q�速地恢复。文件在/trash中保存的旉��是可配置的，当超�q�这个时��_��Namenode��׃��该文�g�?/span>namespace中删除。文件的删除�Q�也��释攑օ�联该文�g的数据块。注意到�Q�在文�g被用户删除和HDFS�I�闲�I�间的增加之间会有一个等待时间�g�q��?/span>
    当被删除的文件还保留�?/span>/trash目录中的时候，如果用户��x��复这个文�Ӟ��可以��索浏�?/span>/trash目录�q�检索该文�g�?/span>/trash目录仅仅保存被删除文件的最�q�一�ơ拷贝�?/span>/trash目录与其他文件目录没有什么不同，除了一点：HDFS在该目录上应用了一个特�D�的�{�略来自动删除文�Ӟ��目前的默认策略是删除保留��过6��时的文�Ӟ��q�个�{�略以后会定义成可配�|�的接口�?/span>

2�?/span>Replication因子的减��?/span>
    当某个文件的replication因子减小�Q?/span>Namenode会选择要删除的�q�剩的副本。下�ơ心��x��就��该信息传递给Datanode�Q?Datanode��׃��U�除相应�?/span>block�q��攄��_��同样�Q�在调用setReplication�Ҏ��和集��中的空闲空间增加之间会有一个时间�g�q��?/span>

参考资料：
HDFS Java API: http://hadoop.apache.org/core/docs/current/api/
HDFS source code: http://hadoop.apache.org/core/version_control.html

koson 2010-07-19 14:42 发表评论

Hadoop Map/Reduce教程

koson — Mon, 19 Jul 2010 06:40:00 GMT

目的
�q�篇教程从用��L��角度出发�Q�全面地介绍了Hadoop Map/Reduce框架的各个方面�?/p>
先决条�g
请先��认Hadoop被正��安装、配�|�和正常�q�行中。更多信息见�Q?/p>
Hadoop快速入门对初次使用者�?
Hadoop集群搭徏对大规模分布式集��?
概述
Hadoop Map/Reduce是一个��用简易的软�g框架�Q�基于它写出来的应用�E�序能够�q�行在由上千个商用机器组成的大型集群上，�q�以一�U�可靠容错的方式�q�行处理上T�U�别的数据集�?/p>
一个Map/Reduce 作业�Q�job�Q?通常会把输入的数据集切分��q�独立的数据块，�?map��d��Q�task�Q�以完全�q�行的方式处理它们。框架会对map的输出先�q�行排序�Q?然后把结果输入给reduce��d��。通常作业的输入和输出都会被存储在文�g�pȝ��中�?整个框架负责��d��的调度和监控�Q�以及重新执行已�l�失败的��d��?/p>
通常�Q�Map/Reduce框架和分布式文�g�pȝ��是运行在一�l�相同的节点上的�Q�也��是��_��计算节点和存储节炚w��常在一赗��这�U�配�|�允许框架在那些已经存好数据的节点上高效地调度�Q务，�q�可以��整个集群的网�l�带宽被非常高效地利用�?/p>
Map/Reduce框架�׃��个单独的master JobTracker 和每个集��节点一个slave TaskTracker共同�l�成。master负责调度构成一个作业的所有�Q务，�q�些��d��分布在不同的slave上，master监控它们的执行，重新执行已经��p�|的�Q务。而slave仅负责执行由master指派的�Q务�?/p>
应用�E�序臛_��应该指明输入/输出的位�|�（路径�Q�，�q��过实现合适的接口或抽象类提供map和reduce函数。再加上其他作业的参敎ͼ��构成了作业配置�Q�job configuration�Q�。然后，Hadoop�?job client提交作业�Q�jar�?可执行程序等�Q�和配置信息�l�JobTracker�Q�后者负责分发这些��Y件和配置信息�l�slave、调度�Q务�ƈ监控它们的执行，同时提供状态和诊断信息�l�job-client�?/p>
虽然Hadoop框架是用JavaTM实现的，但Map/Reduce应用�E�序则不一定要�?Java来写 �?/p>
Hadoop Streaming是一�U�运行作业的实用工具�Q�它允许用户创徏和运行�Q何可执行�E�序 �Q�例如：Shell工具�Q�来做�ؓmapper和reducer�?
Hadoop Pipes是一个与SWIG兼容的C++ API �Q�没有基于JNITM技术）�Q�它也可用于实现Map/Reduce应用�E�序�?
输入与输�?br>Map/Reduce框架�q��{�?lt;key, value> 键值对上，也就是说�Q?框架把作业的输入看�ؓ是一�l?lt;key, value> 键值对�Q�同样也产出一�l? 键值对做�ؓ作业的输出，�q�两�l�键值对的类型可能不同�?/p>
框架需要对key和value的类(classes)�q�行序列化操作，因此�Q�这些类需要实�?Writable接口�?另外�Q��ؓ了方便框架执行排序操作，key�c�d��d��?WritableComparable接口�?/p>
一个Map/Reduce 作业的输入和输出�c�d��如下所�C�：

(input) -> map -> -> combine -> -> reduce -> (output)

例子�Q�WordCount v1.0
在深入细节之前，让我们先看一个Map/Reduce的应用示例，以便对它们的工作方式有一个初步的认识�?/p>
WordCount是一个简单的应用�Q�它可以计算出指定数据集中每一个单词出现的�ơ数�?/p>
�q�个应用适用�?单机模式�Q?伪分布式模式 �?完全分布式模�?三种Hadoop安装方式�?/p>
源代�?br> WordCount.java
1. package org.myorg;
2.
3. import java.io.IOException;
4. import java.util.*;
5.
6. import org.apache.hadoop.fs.Path;
7. import org.apache.hadoop.conf.*;
8. import org.apache.hadoop.io.*;
9. import org.apache.hadoop.mapred.*;
10. import org.apache.hadoop.util.*;
11.
12. public class WordCount {
13.
14.    public static class Map extends MapReduceBase implements Mapper {
15.      private final static IntWritable one = new IntWritable(1);
16.      private Text word = new Text();
17.
18.      public void map(LongWritable key, Text value, OutputCollector output, Reporter reporter) throws IOException {
19.        String line = value.toString();
20.        StringTokenizer tokenizer = new StringTokenizer(line);
21.        while (tokenizer.hasMoreTokens()) {
22.          word.set(tokenizer.nextToken());
23.          output.collect(word, one);
24.        }
25.      }
26.    }
27.
28.    public static class Reduce extends MapReduceBase implements Reducer {
29.      public void reduce(Text key, Iterator values, OutputCollector output, Reporter reporter) throws IOException {
30.        int sum = 0;
31.        while (values.hasNext()) {
32.          sum += values.next().get();
33.        }
34.        output.collect(key, new IntWritable(sum));
35.      }
36.    }
37.
38.    public static void main(String[] args) throws Exception {
39.      JobConf conf = new JobConf(WordCount.class);
40.      conf.setJobName("wordcount");
41.
42.      conf.setOutputKeyClass(Text.class);
43.      conf.setOutputValueClass(IntWritable.class);
44.
45.      conf.setMapperClass(Map.class);
46.      conf.setCombinerClass(Reduce.class);
47.      conf.setReducerClass(Reduce.class);
48.
49.      conf.setInputFormat(TextInputFormat.class);
50.      conf.setOutputFormat(TextOutputFormat.class);
51.
52.      FileInputFormat.setInputPaths(conf, new Path(args[0]));
53.      FileOutputFormat.setOutputPath(conf, new Path(args[1]));
54.
55.      JobClient.runJob(conf);
57.    }
58. }
59.

用法
假设环境变量HADOOP_HOME对应安装时的根目录，HADOOP_VERSION对应Hadoop的当前安装版本，�~�译WordCount.java来创建jar包，可如下操作：

$ mkdir wordcount_classes
$ javac -classpath ${HADOOP_HOME}/hadoop-${HADOOP_VERSION}-core.jar -d wordcount_classes WordCount.java
$ jar -cvf /usr/joe/wordcount.jar -C wordcount_classes/ .

假设�Q?/p>
/usr/joe/wordcount/input - 是HDFS中的输入路径
/usr/joe/wordcount/output - 是HDFS中的输出路径
用示例文本文件做��入：

$ bin/hadoop dfs -ls /usr/joe/wordcount/input/
/usr/joe/wordcount/input/file01
/usr/joe/wordcount/input/file02

$ bin/hadoop dfs -cat /usr/joe/wordcount/input/file01
Hello World Bye World

$ bin/hadoop dfs -cat /usr/joe/wordcount/input/file02
Hello Hadoop Goodbye Hadoop

�q�行应用�E�序�Q?/p>
$ bin/hadoop jar /usr/joe/wordcount.jar org.myorg.WordCount /usr/joe/wordcount/input /usr/joe/wordcount/output

输出是：

$ bin/hadoop dfs -cat /usr/joe/wordcount/output/part-00000
Bye 1
Goodbye 1
Hadoop 2
Hello 2
World 2

应用�E�序能够使用-files选项来指定一个由逗号分隔的�\径列表，�q�些路径是task的当前工作目录。��用选项-libjars可以向map和reduce的classpath中添加jar包。��?archives选项�E�序可以传递档案文件做为参敎ͼ��q�些档案文�g会被解压�q�且在task的当前工作目录下会创��Z��个指向解压生成的目录的符号链接（以压�~�包的名字命名）�?有关命��o行选项的更多细节请参�?Commands manual�?/p>
使用-libjars�?files�q�行wordcount例子�Q?br>hadoop jar hadoop-examples.jar wordcount -files cachefile.txt -libjars mylib.jar input output

解释
WordCount应用�E�序非常直截了当�?/p>
Mapper(14-26�?中的map�Ҏ��(18-25�?通过指定�?TextInputFormat(49�?一�ơ处理一行。然后，它通过StringTokenizer 以空��gؓ分隔�W�将一行切分�ؓ若干tokens�Q�之后，输出< , 1> 形式的键值对�?/p>
对于�C�Z��中的�W�一个输入，map输出是：
< Hello, 1>
< World, 1>
< Bye, 1>
< World, 1>

�W�二个输入，map输出是：
< Hello, 1>
< Hadoop, 1>
< Goodbye, 1>
< Hadoop, 1>

关于�l�成一个指定作业的map数目的确定，以及如何以更�_��的方式去控制�q�些map�Q�我们将在教�E�的后箋部分学习到更多的内容�?/p>
WordCount�q�指定了一个combiner (46�?。因此，每次map�q�行之后�Q�会对输出按照key�q�行排序�Q�然后把输出传递给本地的combiner�Q�按照作业的配置与Reducer一��P��Q�进行本地聚合�?/p>
�W�一个map的输出是�Q?br>< Bye, 1>
< Hello, 1>
< World, 2>

�W�二个map的输出是�Q?br>< Goodbye, 1>
< Hadoop, 2>
< Hello, 1>

Reducer(28-36�?中的reduce�Ҏ��(29-35�? 仅是��每个key�Q�本例中��是单词�Q�出现的�ơ数求和�?/p>
因此�q�个作业的输出就是：
< Bye, 1>
< Goodbye, 1>
< Hadoop, 2>
< Hello, 2>
< World, 2>

代码中的run�Ҏ��中指定了作业的几个方面，例如�Q�通过命��o行传递过来的输入/输出路径、key/value的类型、输�?输出的格式等�{�JobConf中的配置信息。随后程序调用了JobClient.runJob(55�?来提交作业�ƈ且监控它的执行�?/p>
我们��在本教�E�的后箋部分学习更多的关于JobConf�Q?JobClient�Q?Tool和其他接口及�c?class)�?/p>
Map/Reduce - 用户界面
�q�部分文档�ؓ用户��会面��的Map/Reduce框架中的各个环节提供了适当的细节。这应该会帮助用��h��l�粒度地��d��现、配�|�和调优作业。然而，��h��意每个类/接口的javadoc文档提供最全面的文档；本文只是惌��v到指南的作用�?/p>
我们会先看看Mapper和Reducer接口。应用程序通常会通过提供map和reduce�Ҏ��来实现它们�?/p>
然后�Q�我们会讨论其他的核心接口，其中包括�Q?JobConf�Q�JobClient�Q�Partitioner�Q?OutputCollector�Q�Reporter�Q?InputFormat�Q�OutputFormat�{�等�?/p>
最后，我们��通过讨论框架中一些有用的功能点（例如�Q�DistributedCache�Q?IsolationRunner�{�等�Q�来收尾�?/p>
核心功能描述
应用�E�序通常会通过提供map和reduce来实�?Mapper和Reducer接口�Q�它们组成作业的核心�?/p>
Mapper
Mapper��输入键值对(key/value pair)映射��C��l�中间格式的键值对集合�?/p>
Map是一�c�d��输入记录集�{换�ؓ中间格式记录集的独立��d��?�q�种转换的中间格式记录集不需要与输入记录集的�c�d��一致。一个给定的输入键值对可以映射�?个或多个输出键值对�?/p>
Hadoop Map/Reduce框架为每一个InputSplit产生一个map��d��Q�而每个InputSplit是由该作业的InputFormat产生的�?/p>
概括地说�Q�对Mapper的实现者需要重�?JobConfigurable.configure(JobConf)�Ҏ��Q�这个方法需要传递一个JobConf参数�Q�目的是完成Mapper的初始化工作。然后，框架��个�Q务的InputSplit中每个键值对调用一��?map(WritableComparable, Writable, OutputCollector, Reporter)操作。应用程序可以通过重写Closeable.close()�Ҏ��来执行相应的清理工作�?/p>
输出键值对不需要与输入键值对的类型一致。一个给定的输入键值对可以映射�?个或多个输出键值对。通过调用 OutputCollector.collect(WritableComparable,Writable)可以攉��输出的键值对�?/p>
应用�E�序可以使用Reporter报告�q�度�Q�设定应用��别的状态消息，更新Counters�Q�计数器�Q�，或者仅是表明自��p��行正常�?/p>
框架随后会把与一个特定key兌��的所有中间过�E�的��|��value�Q�分成组�Q�然后把它们传给Reducer以��出最�l�的�l�果。用户可以通过 JobConf.setOutputKeyComparatorClass(Class)来指定具体负责分�l�的 Comparator�?/p>
Mapper的输��排序后，��p��划分�l�每个Reducer。分块的��L��目和一个作业的reduce��d��的数目是一��L��。用户可以通过实现自定义的 Partitioner来控制哪个key被分配给哪个 Reducer�?/p>
用户可选择通过 JobConf.setCombinerClass(Class)指定一个combiner�Q�它负责对中间过�E�的输出�q�行本地的聚集，�q�会有助于降低从Mapper�?Reducer数据传输量�?/p>
�q�些被排好序的中间过�E�的输出�l�果保存的格式是(key-len, key, value-len, value)�Q�应用程序可以通过JobConf控制对这些中间结果是否进行压�~�以及怎么压羃�Q��用哪�U?CompressionCodec�?/p>
需要多��个Map�Q?br>Map的数目通常是由输入数据的大��决定的�Q�一般就是所有输入文件的��d��Q�block�Q�数�?/p>
Map正常的�ƈ行规模大致是每个节点�Q�node�Q�大�U?0�?00个map�Q�对于CPU 消耗较��的map��d��可以讑ֈ�300个左叟뀂由于每个�Q务初始化需要一定的旉��Q�因此，比较合理的情冉|��map执行的时间至��超�q?分钟�?/p>
�q�样�Q�如果你输入10TB的数据，每个块（block�Q�的大小�?28MB�Q�你��需要大�U?2,000个map来完成�Q务，除非使用 setNumMapTasks(int)�Q�注意：�q�里仅仅是对框架�q�行了一个提�C?hint)�Q�实际决定因素见�q�里�Q�将�q�个数��D��|�得更高�?/p>
Reducer
Reducer��与一个key兌��的一�l�中间数值集归约�Q�reduce�Q��ؓ一个更��的数值集�?/p>
用户可以通过 JobConf.setNumReduceTasks(int)讑֮�一个作业中reduce��d��的数目�?/p>
概括地说�Q�对Reducer的实现者需要重�?JobConfigurable.configure(JobConf)�Ҏ��Q�这个方法需要传递一个JobConf参数�Q�目的是完成Reducer的初始化工作。然后，框架为成�l�的输入数据中的每个对调用一��?reduce(WritableComparable, Iterator, OutputCollector, Reporter)�Ҏ��。之后，应用�E�序可以通过重写Closeable.close()来执行相应的清理工作�?/p>
Reducer�?个主要阶�D�：shuffle、sort和reduce�?/p>
Shuffle
Reducer的输入就是Mapper已经排好序的输出。在�q�个阶段�Q�框枉��过HTTP为每个Reducer获得所有Mapper输出中与之相关的分块�?/p>
Sort
�q�个阶段�Q�框架将按照key的值对Reducer的输入进行分�l?�Q�因��Z��同mapper的输��Z��可能会有相同的key�Q��?/p>
Shuffle和Sort两个阶段是同时进行的�Q�map的输��Z��是一边被取回一边被合�ƈ的�?/p>
Secondary Sort
如果需要中间过�E�对key的分�l�规则和reduce前对key的分�l�规则不同，那么可以通过 JobConf.setOutputValueGroupingComparator(Class)来指定一个Comparator。再加上 JobConf.setOutputKeyComparatorClass(Class)可用于控制中间过�E�的key如何被分�l�，所以结合两者可以实现按值的二次排序�?/p>
Reduce
在这个阶�D�，框架为已分组的输入数据中的每�?对调用一��?reduce(WritableComparable, Iterator, OutputCollector, Reporter)�Ҏ��?/p>
Reduce��d��的输出通常是通过调用 OutputCollector.collect(WritableComparable, Writable)写入文�g�pȝ��的�?/p>
应用�E�序可以使用Reporter报告�q�度�Q�设定应用程序��别的状态消息，更新Counters�Q�计数器�Q�，或者仅是表明自��p��行正常�?/p>
Reducer的输出是没有排序的�?/p>
需要多��个Reduce�Q?br>Reduce的数目徏议是0.95�?.75乘以 ( * mapred.tasktracker.reduce.tasks.maximum)�?/p>
�?.95�Q�所有reduce可以在maps一完成时就立刻启动�Q�开始传输map的输出结果。用1.75�Q�速度快的节点可以在完成第一轮reduce��d��后，可以开始第二轮�Q�这样可以得到比较好的负载均衡的效果�?/p>
增加reduce的数目会增加整个框架的开销�Q�但可以改善负蝲均衡�Q�降低由于执行失败带来的负面影响�?/p>
上述比例因子比整体数目稍��一些是��Z��l�框架中的推��性�Q务（speculative-tasks�Q?或失败的��d��预留一些reduce的资源�?/p>
无Reducer
如果没有归约要进行，那么讄��reduce��d��的数目�ؓ零是合法的�?/p>
�q�种情况下，map��d��的输��Z��直接被写入由 setOutputPath(Path)指定的输��\径。框架在把它们写入FileSystem之前没有对它们进行排序�?/p>
Partitioner
Partitioner用于划分键值空��_��key space�Q��?/p>
Partitioner负责控制map输出�l�果key的分剌Ӏ�Key�Q�或者一个key子集�Q�被用于产生分区�Q�通常使用的是Hash函数。分区的数目与一个作业的reduce��d��的数目是一��L��。因此，它控制将中间�q�程的key�Q�也��是�q�条记录�Q�应该发送给m个reduce��d��中的哪一个来�q�行reduce操作�?/p>
HashPartitioner是默认的 Partitioner�?/p>
Reporter
Reporter是用于Map/Reduce应用�E�序报告�q�度�Q�设定应用��别的状态消息，更新Counters�Q�计数器�Q�的机制�?/p>
Mapper和Reducer的实现可以利用Reporter 来报告进度，或者仅是表明自��p��行正常。在那种应用�E�序需要花很长旉��处理个别键值对的场景中�Q�这�U�机制是很关键的�Q�因为框架可能会以�ؓ�q�个��d��时了，从而将它强行杀歅R��另一个避免这�U�情况发生的方式是，��配�|�参数mapred.task.timeout讄��Z��个��够高的��|��或者干脆设�|��ؓ�Ӟ��则没有超旉��制了�Q��?/p>
应用�E�序可以用Reporter来更新Counter�Q�计数器�Q��?/p>
OutputCollector
OutputCollector是一个Map/Reduce框架提供的用于收�?Mapper或Reducer输出数据的通用机制 �Q�包括中间输出结果和作业的输出结果）�?/p>
Hadoop Map/Reduce框架附带了一个包含许多实用型的mapper、reducer和partitioner 的类库�?/p>
作业配置
JobConf代表一个Map/Reduce作业的配�|��?/p>
JobConf是用户向Hadoop框架描述一个Map/Reduce作业如何执行的主要接口。框架会按照JobConf描述的信息忠实地��d��试完成这个作业，然而：

一些参数可能会被管理者标��Cؓ final�Q�这意味它们不能被更攏V�?
一些作业的参数可以被直截了当地�q�行讄��Q�例如： setNumReduceTasks(int)�Q�，而另一些参数则与框架或者作业的其他参数之间微妙地相互媄响，�q�且讄��h��比较复杂�Q�例如： setNumMapTasks(int)�Q��?
通常�Q�JobConf会指明Mapper、Combiner(如果有的�?�?Partitioner、Reducer、InputFormat�?OutputFormat的具体实现。JobConf�q�能指定一�l�输入文�?(setInputPaths(JobConf, Path...) /addInputPath(JobConf, Path)) �?setInputPaths(JobConf, String) /addInputPaths(JobConf, String)) 以及输出文�g应该写在哪儿 (setOutputPath(Path))�?/p>
JobConf可选择地对作业讄��一些高�U�选项�Q�例如：讄��Comparator�Q?攑ֈ�DistributedCache上的文�g�Q�中间结果或者作业输出结果是否需要压�~�以及怎么压羃�Q?利用用户提供的脚�?setMapDebugScript(String)/setReduceDebugScript(String)) �q�行调试�Q�作业是否允讔R��防性（speculative�Q��Q务的执行 (setMapSpeculativeExecution(boolean))/(setReduceSpeculativeExecution(boolean)) �Q�每个�Q务最大的��试�ơ数 (setMaxMapAttempts(int)/setMaxReduceAttempts(int)) �Q�一个作业能容忍的�Q务失败的癑ֈ��?(setMaxMapTaskFailuresPercent(int)/setMaxReduceTaskFailuresPercent(int)) �Q�等�{��?/p>
当然�Q�用戯��使用 set(String, String)/get(String, String) 来设�|�或者取得应用程序需要的��L��参数。然而，DistributedCache的��用是面向大规模只��L��据的�?/p>
��d��的执行和环境
TaskTracker是在一个单独的jvm上以子进�E�的形式执行 Mapper/Reducer��d��Q�Task�Q�的�?/p>
子�Q务会�l�承父TaskTracker的环境。用户可以通过JobConf中的 mapred.child.java.opts配置参数来设定子jvm上的附加选项�Q�例如：通过-Djava.library.path=<> ��一个非标准路径设�ؓ�q�行时的链接用以搜烦�׃�n库，�{�等。如果mapred.child.java.opts包含一个符号@taskid@�Q?它会被替换成map/reduce的taskid的倹{�?/p>
下面是一个包含多个参数和替换的例子，其中包括�Q�记录jvm GC日志�Q?JVM JMX代理�E�序以无密码的方式启动，�q�样它就能连接到jconsole上，从而可以查看子�q�程的内存和�U�程�Q�得到线�E�的dump�Q�还把子jvm的最大堆��寸讄��?12MB�Q?�q��ؓ子jvm的java.library.path��d��了一个附加�\径�?/p>

mapred.child.java.opts

     -Xmx512M -Djava.library.path=/home/mycompany/lib -verbose:gc -Xloggc:/tmp/@taskid@.gc
     -Dcom.sun.management.jmxremote.authenticate=false -Dcom.sun.management.jmxremote.ssl=false

用户或管理员也可以��用mapred.child.ulimit讑֮��q�行的子��d��的最大虚拟内存。mapred.child.ulimit的��g��Q�KB)为单位，�q�且必须大于或等�?Xmx参数传给JavaVM的��|��否则VM会无法启动�?/p>
注意�Q�mapred.child.java.opts只用于设�|�task tracker启动的子��d��。�ؓ守护�q�程讄��内存选项��h��?cluster_setup.html

${mapred.local.dir}/taskTracker/是task tracker的本地目录，用于创徏本地�~�存和job。它可以指定多个目录�Q�跨��多个磁盘）�Q�文件会半随机的保存到本地�\径下的某个目录。当job启动�Ӟ��task tracker�Ҏ��配置文档创徏本地job目录�Q�目录结构如以下所�C�：

${mapred.local.dir}/taskTracker/archive/ :分布式缓存。这个目录保存本地的分布式缓存。因此本地分布式�~�存是在所有task和job间共享的�?
${mapred.local.dir}/taskTracker/jobcache/$jobid/ : 本地job目录�?
${mapred.local.dir}/taskTracker/jobcache/$jobid/work/: job指定的共享目录。各个�Q务可以��用这个空间做为暂存空��_��用于它们之间�׃�n文�g。这个目录通过job.local.dir 参数暴露�l�用戗��这个�\径可以通过API JobConf.getJobLocalDir()来访问。它也可以被做�ؓ�pȝ��属性获得。因此，用户�Q�比如运行streaming�Q�可以调用System.getProperty("job.local.dir")获得该目录�?
${mapred.local.dir}/taskTracker/jobcache/$jobid/jars/: 存放jar包的路径�Q�用于存放作业的jar文�g和展开的jar。job.jar是应用程序的jar文�g�Q�它会被自动分发到各台机器，在task启动前会被自动展开。��用api JobConf.getJar() 函数可以得到job.jar的位�|�。��用JobConf.getJar().getParent()可以讉K��存放展开的jar包的目录�?
${mapred.local.dir}/taskTracker/jobcache/$jobid/job.xml�Q?一个job.xml文�g�Q�本地的通用的作业配�|�文件�?
${mapred.local.dir}/taskTracker/jobcache/$jobid/$taskid�Q?每个��d��有一个目录task-id�Q�它里面有如下的目录�l�构�Q?
${mapred.local.dir}/taskTracker/jobcache/$jobid/$taskid/job.xml�Q?一个job.xml文�g�Q�本地化的�Q务作业配�|�文件。�Q务本地化是指��task讑֮�特定的属性倹{��这些��g��在下面具体说明�?
${mapred.local.dir}/taskTracker/jobcache/$jobid/$taskid/output 一个存放中间过�E�的输出文�g的目录。它保存了由framwork产生的��时map reduce数据�Q�比如map的输出文件等�?
${mapred.local.dir}/taskTracker/jobcache/$jobid/$taskid/work�Q?task的当前工作目录�?
${mapred.local.dir}/taskTracker/jobcache/$jobid/$taskid/work/tmp�Q?task的��时目录。（用户可以讑֮�属性mapred.child.tmp 来�ؓmap和reduce task讑֮�临时目录。缺省值是./tmp。如果这个��g��是绝对�\径，它会把task的工作�\径加到该路径前面作�ؓtask的��时文件�\径。如果这个值是�l�对路径则直接��用这个倹{�?如果指定的目录不存在�Q�会自动创徏该目录。之后，按照选项 -Djava.io.tmpdir='临时文�g的绝对�\�?执行java子�Q务�?pipes和streaming的��时文件�\径是通过环境变量TMPDIR='the absolute path of the tmp dir'讑֮�的）�?如果mapred.child.tmp�?/tmp��|��q�个目录会被创徏�?
下面的属性是为每个task执行时��用的本地参数�Q�它们保存在本地化的��d��作业配置文�g里：

名称 �c�d�� 描述
mapred.job.id String job id
mapred.jar String job目录下job.jar的位�|?
job.local.dir String job指定的共享存储空�?
mapred.tip.id String task id
mapred.task.id String task��试id
mapred.task.is.map boolean 是否是map task
mapred.task.partition int task在job中的id
map.input.file String map��d��的文件名
map.input.start long map输入的数据块的�v始位�|�偏�U?
map.input.length long map输入的数据块的字节数
mapred.work.output.dir String task临时输出目录

task的标准输出和错误输出��会被读到TaskTracker中，�q�且记录�?${HADOOP_LOG_DIR}/userlogs

DistributedCache 可用于map或reduce task中分发jar包和本地库。子jvm��L��?当前工作目录加到 java.library.path �?LD_LIBRARY_PATH�?因此�Q�可以通过 System.loadLibrary�?System.load装蝲�~�存的库。有关��用分布式�~�存加蝲�׃�n库的�l�节请参�?native_libraries.html

作业的提交与监控
JobClient是用��h��交的作业与JobTracker交互的主要接口�?/p>
JobClient 提供提交作业�Q�追�t�进�E�，讉K��子�Q务的日志记录�Q�获得Map/Reduce集群状态信息等功能�?/p>
作业提交�q�程包括�Q?/p>
��查作业输入输出样式细�?
��Z��业计��InputSplit倹{�?
如果需要的话，��Z��业的DistributedCache建立必须的统计信息�?
拯��作业的jar包和配置文�g到FileSystem上的Map/Reduce�pȝ��目录下�?
提交作业到JobTracker�q�且监控它的状态�?
作业的历史文件记录到指定目录�?_logs/history/"子目录下。这个指定目录由hadoop.job.history.user.location讑֮��Q�默认是作业输出的目录。因此默认情况下�Q�文件会存放在mapred.output.dir/_logs/history目录下。用户可以设�|�hadoop.job.history.user.location为none来停止日志记录�?/p>
用户使用下面的命令可以看到在指定目录下的历史日志记录的摘要�?
$ bin/hadoop job -history output-dir
�q�个命��o会打印出作业的细节，以及��p�|的和被杀�ȝ��d��l�节�?br>要查看有关作业的更多�l�节例如成功的�Q务、每个�Q务尝试的�ơ数�Q�task attempt�Q�等�Q�可以��用下面的命��o
$ bin/hadoop job -history all output-dir

用户可以使用 OutputLogFilter 从输出目录列表中�{�选日志文件�?/p>
一般情况，用户利用JobConf创徏应用�E�序�q��|�作业属性，然后�?JobClient 提交作业�q�监视它的进�E��?/p>
作业的控�?br>有时候，用一个单独的Map/Reduce作业�q�不能完成一个复杂的��d��Q�用户也许要链接多个Map/Reduce作业才行。这是容易实现的�Q�因��Z��业通常输出到分布式文�g�pȝ��上的�Q�所以可以把�q�个作业的输��Z��Z��一个作业的输入实现串联�?/p>
然而，�q�也意味着�Q�确保每一作业完成(成功或失�?的责��d��直接落在了客戯��n上。在�q�种情况下，可以用的控制作业的选项有：

runJob(JobConf)�Q�提交作业，仅当作业完成时返回�?
submitJob(JobConf)�Q�只提交作业�Q�之后需要你轮询它返回的 RunningJob句柄的状态，�q�根据情况调度�?
JobConf.setJobEndNotificationURI(String)�Q�设�|�一个作业完成通知�Q�可避免轮询�?
作业的输�?br>InputFormat 为Map/Reduce作业描述输入的细节规范�?/p>
Map/Reduce框架�Ҏ��作业的InputFormat来：

��查作业输入的有效性�?
把输入文件切分成多个逻辑InputSplit实例�Q?�q�把每一实例分别分发�l�一�?Mapper�?
提供RecordReader的实玎ͼ��q�个RecordReader从逻辑InputSplit中获得输入记录， �q�些记录��由Mapper处理�?
��Z��文�g的InputFormat实现�Q�通常�?FileInputFormat的子�c�）默认行�ؓ是按照输入文件的字节大小�Q�把输入数据切分成逻辑分块�Q�logical InputSplit �Q��?其中输入文�g所在的FileSystem的数据块��寸是分块大��的上限。下限可以设�|�mapred.min.split.size 的倹{�?/p>
考虑到边界情况，对于很多应用�E�序来说�Q�很明显按照文�g大小�q�行逻辑分割是不能满��需求的�?在这�U�情况下�Q�应用程序需要实��C��个RecordReader来处理记录的边界�q��ؓ每个��d��提供一个逻辑分块的面向记录的视图�?/p>
TextInputFormat 是默认的InputFormat�?/p>
如果一个作业的Inputformat是TextInputFormat�Q?�q�且框架��到输入文�g的后�~��?gz�?lzo�Q�就会��用对应的CompressionCodec自动解压�~�这些文件�?但是需要注意，上述带后�~�的压�~�文件不会被切分�Q��ƈ且整个压�~�文件会分给一个mapper来处理�?/p>
InputSplit
InputSplit 是一个单独的Mapper要处理的数据块�?/p>
一般的InputSplit 是字节样式输入，然后由RecordReader处理�q��{化成记录样式�?/p>
FileSplit 是默认的InputSplit�?它把 map.input.file 讑֮��入文件的路径�Q�输入文件是逻辑分块文�g�?/p>
RecordReader
RecordReader 从InputSlit��d��寏V�?/p>
一般的�Q�RecordReader 把由InputSplit 提供的字节样式的输入文�g�Q��{化成由Mapper处理的记录样式的文�g�?因此RecordReader负责处理记录的边界情况和把数据表�C�成keys/values对�Ş式�?/p>
作业的输�?br>OutputFormat 描述Map/Reduce作业的输出样式�?/p>
Map/Reduce框架�Ҏ��作业的OutputFormat来：

��验作业的输出�Q�例如检查输��\径是否已�l�存在�?
提供一个RecordWriter的实玎ͼ�用来输出作业�l�果�?输出文�g保存在FileSystem上�?
TextOutputFormat是默认的 OutputFormat�?/p>
��d��的Side-Effect File
在一些应用程序中�Q�子��d��需要��生一些side-file�Q�这些文件与作业实际输出�l�果的文件不同�?/p>
在这�U�情况下�Q�同一个Mapper或者Reducer的两个实例（比如预防性�Q务）同时打开或者写 FileSystem上的同一文�g��׃��产生冲突。因此应用程序在写文件的时候需要�ؓ每次��d��试�Q�不仅仅是每�ơ�Q务，每个��d��可以��试执行很多�ơ）选取一个独一无二的文件名(使用attemptid�Q�例如task_200709221812_0001_m_000000_0)�?/p>
��Z��避免冲突�Q�Map/Reduce框架为每�ơ尝试执行�Q务都建立和维护一个特�D�的 ${mapred.output.dir}/_temporary/_${taskid}子目录，�q�个目录位于本次��试执行��d��输出�l�果所在的FileSystem上，可以通过 ${mapred.work.output.dir}来访问这个子目录�?对于成功完成的�Q务尝试，只有${mapred.output.dir}/_temporary/_${taskid}下的文�g会移动到${mapred.output.dir}。当�Ӟ��框架会丢弃那些失败的��d��试的子目录。这�U�处理过�E�对于应用程序来说是完全透明的�?/p>
在�Q务执行期��_��应用�E�序在写文�g时可以利用这个特性，比如通过 FileOutputFormat.getWorkOutputPath()获得${mapred.work.output.dir}目录�Q?�q�在其下创徏��L��d��执行时所需的side-file�Q�框架在��d��试成功时会马上�U�d��q�些文�g�Q�因此不需要在�E�序内�ؓ每次��d��试选取一个独一无二的名字�?/p>
注意�Q�在每次��d��试执行期间�Q?{mapred.work.output.dir} 的值实际上�?${mapred.output.dir}/_temporary/_{$taskid}�Q�这个值是Map/Reduce框架创徏的�?所以��用这个特性的�Ҏ��是，�?FileOutputFormat.getWorkOutputPath() 路径下创建side-file卛_��?/p>
对于只��用map不��用reduce的作业，�q�个�l�论也成立。这�U�情况下�Q�map的输出结果直接生成到HDFS上�?/p>
RecordWriter
RecordWriter 生成对到输出文�g�?/p>
RecordWriter的实现把作业的输出结果写�?FileSystem�?/p>
其他有用的特�?br>Counters
Counters 是多个由Map/Reduce框架或者应用程序定义的全局计数器�?每一个Counter可以是�Q何一�U?Enum�c�d��。同一特定Enum�c�d��的Counter可以汇集��C��个组�Q�其�c�d��为Counters.Group�?/p>
应用�E�序可以定义��L��(Enum�c�d��)的Counters�q�且可以通过 map 或�?reduce�Ҏ��中的 Reporter.incrCounter(Enum, long)或�?Reporter.incrCounter(String, String, long) 更新。之后框架会汇总这些全局counters�?/p>
DistributedCache
DistributedCache 可将具体应用相关的、大��寸的、只�ȝ��文�g有效地分布放�|��?/p>
DistributedCache 是Map/Reduce框架提供的功能，能够�~�存应用�E�序所需的文�?�Q�包括文本，档案文�g�Q�jar文�g�{�）�?/p>
应用�E�序在JobConf中通过url(hdfs://)指定需要被�~�存的文件�?DistributedCache假定由hdfs://格式url指定的文件已�l�在 FileSystem上了�?/p>
Map-Redcue框架在作业所有�Q务执行之前会把必要的文�g拯��到slave节点上�?它运行高效是因�ؓ每个作业的文件只拯��一�ơ�ƈ且�ؓ那些没有文档的slave节点�~�存文档�?/p>
DistributedCache �Ҏ��~�存文档修改的时间戳�q�行�q�踪�?在作业执行期��_��当前应用�E�序或者外部程序不能修改缓存文件�?/p>
distributedCache可以分发��单的只读数据或文本文�Ӟ��也可以分发复杂类型的文�g例如归档文�g和jar文�g。归档文�?zip,tar,tgz和tar.gz文�g)在slave节点上会被解档（un-archived�Q��?�q�些文�g可以讄��执行权限�?/p>
用户可以通过讄��mapred.cache.{files|archives}来分发文件�?如果要分发多个文�Ӟ��可以使用逗号分隔文�g所在�\径。也可以利用API来设�|�该属性： DistributedCache.addCacheFile(URI,conf)/ DistributedCache.addCacheArchive(URI,conf) and DistributedCache.setCacheFiles(URIs,conf)/ DistributedCache.setCacheArchives(URIs,conf) 其中URI的�Ş式是 hdfs://host:port/absolute-path#link-name 在Streaming�E�序中，可以通过命��o行选项 -cacheFile/-cacheArchive 分发文�g�?/p>
用户可以通过 DistributedCache.createSymlink(Configuration)�Ҏ��让DistributedCache 在当前工作目录下创徏到缓存文件的�W�号链接�?或者通过讄��配置文�g属性mapred.create.symlink为yes�?分布式缓存会截取URI的片�D�作为链接的名字�?例如�Q�URI�?hdfs://namenode:port/lib.so.1#lib.so�Q?则在task当前工作目录会有名�ؓlib.so的链接，它会链接分布式缓存中的lib.so.1�?/p>
DistributedCache可在map/reduce��d��中作�?一�U�基��软�g分发机制使用。它可以被用于分发jar包和本地库（native libraries�Q��?DistributedCache.addArchiveToClassPath(Path, Configuration)�?DistributedCache.addFileToClassPath(Path, Configuration) API能够被用�?�~�存文�g和jar包，�q�把它们加入子jvm的classpath。也可以通过讄��配置文档里的属�?mapred.job.classpath.{files|archives}辑ֈ�相同的效果。缓存文件可用于分发和装载本地库�?/p>
Tool
Tool 接口支持处理常用的Hadoop命��o行选项�?/p>
Tool 是Map/Reduce工具或应用的标准。应用程序应只处理其定制参数�Q?要把标准命��o行选项通过 ToolRunner.run(Tool, String[]) 委托�l?GenericOptionsParser处理�?/p>
Hadoop命��o行的常用选项有：
-conf
-D
-fs
-jt

IsolationRunner
IsolationRunner 是帮助调试Map/Reduce�E�序的工兗��?/p>
使用IsolationRunner的方法是�Q�首先设�|?keep.failed.tasks.files属性�ؓtrue �Q�同时参考keep.tasks.files.pattern�Q��?/p>
然后�Q�登录到��d��q�行��p�|的节点上�Q�进�?TaskTracker的本地�\径运�?IsolationRunner�Q?br>$ cd /taskTracker/${taskid}/work
$ bin/hadoop org.apache.hadoop.mapred.IsolationRunner ../job.xml

IsolationRunner会把��p�|的�Q务放在单独的一个能够调试的jvm上运行，�q�且采用和之前完全一��L��输入数据�?/p>
Profiling
Profiling是一个工��P��它��用内�|�的java profiler工具�q�行分析获得(2-3�?map或reduce样例�q�行分析报告�?/p>
用户可以通过讄��属性mapred.task.profile指定�pȝ��是否采集profiler信息�?利用api JobConf.setProfileEnabled(boolean)可以修改属性倹{��如果设为true�Q?则开启profiling功能。profiler信息保存在用��h��志目录下。缺省情况，profiling功能是关闭的�?/p>
如果用户讑֮�使用profiling功能�Q�可以��用配�|�文档里的属�?mapred.task.profile.{maps|reduces} 讄��要profile map/reduce task的范围。设�|�该属性值的api�?JobConf.setProfileTaskRange(boolean,String)�?范围的缺省值是0-2�?/p>
用户可以通过讑֮�配置文档里的属性mapred.task.profile.params 来指定profiler配置参数。修改属性要使用api JobConf.setProfileParams(String)。当�q�行task�Ӟ��如果字符串包�?s�?它会被替换成profileing的输出文件名。这些参��C��在命令行里传递到子JVM中。缺省的profiling 参数�?-agentlib:hprof=cpu=samples,heap=sites,force=n,thread=y,verbose=n,file=%s�?/p>
调试
Map/Reduce框架能够�q�行用户提供的用于调试的脚本�E�序�?当map/reduce��d��p�|�Ӟ��用户可以通过�q�行脚本在�Q务日志（例如��d��的标准输出、标准错误、系�l�日志以及作业配�|�文�Ӟ��上做后箋处理工作。用��h��供的调试脚本�E�序的标准输出和标准错误会输��Zؓ诊断文�g。如果需要的话这些输出结果也可以打印在用��L��面上�?/p>
在接下来的章节，我们讨论如何与作业一��h��交调试脚本。�ؓ了提交调试脚本，首先要把�q�个脚本分发出去�Q�而且�q�要在配�|�文仉��讄��?/p>
如何分发脚本文�g�Q?br>用户要用 DistributedCache 机制来分发和链接脚本文�g

如何提交脚本�Q?br>一个快速提交调试脚本的�Ҏ��是分别�ؓ需要调试的map��d��和reduce��d��讄�� "mapred.map.task.debug.script" �?"mapred.reduce.task.debug.script" 属性的倹{��这些属性也可以通过 JobConf.setMapDebugScript(String) �?JobConf.setReduceDebugScript(String) API来设�|�。对于streaming�Q?可以分别为需要调试的map��d��和reduce��d��使用命��o行选项-mapdebug �?-reducedegug来提交调试脚本�?/p>
脚本的参数是��d��的标准输出、标准错误、系�l�日志以及作业配�|�文件。在�q�行map/reduce��p�|的节点上�q�行调试命��o是：
$script $stdout $stderr $syslog $jobconf

Pipes �E�序�Ҏ��W�五个参数获得c++�E�序名�?因此调试pipes�E�序的命令是
$script $stdout $stderr $syslog $jobconf $program

默认行�ؓ
对于pipes�Q�默认的脚本会用gdb处理core dump�Q?打印 stack trace�q�且�l�出正在�q�行�U�程的信息�?/p>
JobControl
JobControl是一个工��P��它封装了一�l�Map/Reduce作业以及他们之间的依赖关�p�R�?/p>
数据压羃
Hadoop Map/Reduce框架为应用程序的写入文�g操作提供压羃工具�Q�这些工具可以�ؓmap输出的中间数据和作业最�l�输出数据（例如reduce的输出）提供支持。它�q�附带了一�?CompressionCodec的实玎ͼ�比如实现�?zlib和lzo压羃��法�?Hadoop同样支持gzip文�g格式�?/p>
考虑到性能问题�Q�zlib�Q�以及Java�c�d��的缺失（lzo�Q�等因素�Q�Hadoop也�ؓ上述压羃解压��法提供本地库的实现。更多的�l�节请参�?�q�里�?/p>
中间输出
应用�E�序可以通过 JobConf.setCompressMapOutput(boolean)api控制map输出的中间结果，�q�且可以通过 JobConf.setMapOutputCompressorClass(Class)api指定 CompressionCodec�?/p>
作业输出
应用�E�序可以通过 FileOutputFormat.setCompressOutput(JobConf, boolean) api控制输出是否需要压�~��ƈ且可以��?FileOutputFormat.setOutputCompressorClass(JobConf, Class)api指定CompressionCodec�?/p>
如果作业输出要保存成 SequenceFileOutputFormat格式�Q�需要��?SequenceFileOutputFormat.setOutputCompressionType(JobConf, SequenceFile.CompressionType)api�Q�来讑֮� SequenceFile.CompressionType (i.e.RECORD / BLOCK - 默认是RECORD)�?/p>
例子�Q�WordCount v2.0
�q�里是一个更全面的WordCount例子�Q�它使用了我们已�l�讨��的很多Map/Reduce框架提供的功能�?/p>
�q�行�q�个例子需要HDFS的某些功能，特别�?DistributedCache相关功能。因此这个例子只能运行在伪分布式或�?完全分布式模式的 Hadoop上�?/p>
源代�?br> WordCount.java
1. package org.myorg;
2.
3. import java.io.*;
4. import java.util.*;
5.
6. import org.apache.hadoop.fs.Path;
7. import org.apache.hadoop.filecache.DistributedCache;
8. import org.apache.hadoop.conf.*;
9. import org.apache.hadoop.io.*;
10. import org.apache.hadoop.mapred.*;
11. import org.apache.hadoop.util.*;
12.
13. public class WordCount extends Configured implements Tool {
14.
15.    public static class Map extends MapReduceBase implements Mapper {
16.
17.      static enum Counters { INPUT_WORDS }
18.
19.      private final static IntWritable one = new IntWritable(1);
20.      private Text word = new Text();
21.
22.      private boolean caseSensitive = true;
23.      private Set patternsToSkip = new HashSet();
24.
25.      private long numRecords = 0;
26.      private String inputFile;
27.
28.      public void configure(JobConf job) {
29.        caseSensitive = job.getBoolean("wordcount.case.sensitive", true);
30.        inputFile = job.get("map.input.file");
31.
32.        if (job.getBoolean("wordcount.skip.patterns", false)) {
33.          Path[] patternsFiles = new Path[0];
34.          try {
35.            patternsFiles = DistributedCache.getLocalCacheFiles(job);
36.          } catch (IOException ioe) {
37.            System.err.println("Caught exception while getting cached files: " + StringUtils.stringifyException(ioe));
38.          }
39.          for (Path patternsFile : patternsFiles) {
40.            parseSkipFile(patternsFile);
41.          }
42.        }
43.      }
44.
45.      private void parseSkipFile(Path patternsFile) {
46.        try {
47.          BufferedReader fis = new BufferedReader(new FileReader(patternsFile.toString()));
48.          String pattern = null;
49.          while ((pattern = fis.readLine()) != null) {
50.            patternsToSkip.add(pattern);
51.          }
52.        } catch (IOException ioe) {
53.          System.err.println("Caught exception while parsing the cached file '" + patternsFile + "' : " + StringUtils.stringifyException(ioe));
54.        }
55.      }
56.
57.      public void map(LongWritable key, Text value, OutputCollector output, Reporter reporter) throws IOException {
58.        String line = (caseSensitive) ? value.toString() : value.toString().toLowerCase();
59.
60.        for (String pattern : patternsToSkip) {
61.          line = line.replaceAll(pattern, "");
62.        }
63.
64.        StringTokenizer tokenizer = new StringTokenizer(line);
65.        while (tokenizer.hasMoreTokens()) {
66.          word.set(tokenizer.nextToken());
67.          output.collect(word, one);
68.          reporter.incrCounter(Counters.INPUT_WORDS, 1);
69.        }
70.
71.        if ((++numRecords % 100) == 0) {
72.          reporter.setStatus("Finished processing " + numRecords + " records " + "from the input file: " + inputFile);
73.        }
74.      }
75.    }
76.
77.    public static class Reduce extends MapReduceBase implements Reducer {
78.      public void reduce(Text key, Iterator values, OutputCollector output, Reporter reporter) throws IOException {
79.        int sum = 0;
80.        while (values.hasNext()) {
81.          sum += values.next().get();
82.        }
83.        output.collect(key, new IntWritable(sum));
84.      }
85.    }
86.
87.    public int run(String[] args) throws Exception {
88.      JobConf conf = new JobConf(getConf(), WordCount.class);
89.      conf.setJobName("wordcount");
90.
91.      conf.setOutputKeyClass(Text.class);
92.      conf.setOutputValueClass(IntWritable.class);
93.
94.      conf.setMapperClass(Map.class);
95.      conf.setCombinerClass(Reduce.class);
96.      conf.setReducerClass(Reduce.class);
97.
98.      conf.setInputFormat(TextInputFormat.class);
99.      conf.setOutputFormat(TextOutputFormat.class);
100.
101.      List other_args = new ArrayList();
102.      for (int i=0; i < args.length; ++i) {
103.        if ("-skip".equals(args[i])) {
104.          DistributedCache.addCacheFile(new Path(args[++i]).toUri(), conf);
105.          conf.setBoolean("wordcount.skip.patterns", true);
106.        } else {
107.          other_args.add(args[i]);
108.        }
109.      }
110.
111.      FileInputFormat.setInputPaths(conf, new Path(other_args.get(0)));
112.      FileOutputFormat.setOutputPath(conf, new Path(other_args.get(1)));
113.
114.      JobClient.runJob(conf);
115.      return 0;
116.    }
117.
118.    public static void main(String[] args) throws Exception {
119.      int res = ToolRunner.run(new Configuration(), new WordCount(), args);
120.      System.exit(res);
121.    }
122. }
123.

�q�行样例
输入样例�Q?/p>
$ bin/hadoop dfs -ls /usr/joe/wordcount/input/
/usr/joe/wordcount/input/file01
/usr/joe/wordcount/input/file02

$ bin/hadoop dfs -cat /usr/joe/wordcount/input/file01
Hello World, Bye World!

$ bin/hadoop dfs -cat /usr/joe/wordcount/input/file02
Hello Hadoop, Goodbye to hadoop.

�q�行�E�序�Q?/p>
$ bin/hadoop jar /usr/joe/wordcount.jar org.myorg.WordCount /usr/joe/wordcount/input /usr/joe/wordcount/output

输出�Q?/p>
$ bin/hadoop dfs -cat /usr/joe/wordcount/output/part-00000
Bye 1
Goodbye 1
Hadoop, 1
Hello 2
World! 1
World, 1
hadoop. 1
to 1

注意此时的输入与�W�一个版本的不同�Q�输出的�l�果也有不同�?/p>
现在通过DistributedCache插入一个模式文�Ӟ��文�g中保存了要被忽略的单词模式�?/p>
$ hadoop dfs -cat /user/joe/wordcount/patterns.txt
\.
\,
\!
to

再运行一�ơ，�q�次使用更多的选项�Q?/p>
$ bin/hadoop jar /usr/joe/wordcount.jar org.myorg.WordCount -Dwordcount.case.sensitive=true /usr/joe/wordcount/input /usr/joe/wordcount/output -skip /user/joe/wordcount/patterns.txt

应该得到�q�样的输出：

$ bin/hadoop dfs -cat /usr/joe/wordcount/output/part-00000
Bye 1
Goodbye 1
Hadoop 1
Hello 2
World 2
hadoop 1

再运行一�ơ，�q�一�ơ关闭大��写敏感性（case-sensitivity�Q�：

$ bin/hadoop jar /usr/joe/wordcount.jar org.myorg.WordCount -Dwordcount.case.sensitive=false /usr/joe/wordcount/input /usr/joe/wordcount/output -skip /user/joe/wordcount/patterns.txt

输出�Q?/p>
$ bin/hadoop dfs -cat /usr/joe/wordcount/output/part-00000
bye 1
goodbye 1
hadoop 2
hello 2
world 2

�E�序要点
通过使用一些Map/Reduce框架提供的功能，WordCount的第二个版本在原始版本基��上有了如下的改进�Q?/p>
展示了应用程序如何在Mapper (和Reducer)中通过configure�Ҏ�� 修改配置参数(28-43�?�?
展示了作业如何��用DistributedCache 来分发只��L��据�?�q�里允许用户指定单词的模式，在计数时忽略那些�W�合模式的单�?104�?�?
展示Tool接口和GenericOptionsParser处理Hadoop命��o行选项的功�?(87-116, 119�?�?
展示了应用程序如何��用Counters(68�?�Q�如何通过传递给map�Q�和reduce�Q?�Ҏ��的Reporter实例来设�|�应用程序的状态信�?72�?�?
Java和JNI是Sun Microsystems, Inc.在美国和其它国家的注册商标�?/p>

本文来自CSDN博客�Q��{载请标明出处�Q?a >http://blog.csdn.net/superxgl/archive/2010/01/11/5171929.aspx

koson 2010-07-19 14:40 发表评论

koson — Mon, 19 Jul 2010 06:39:00 GMT

一�?span>           hive ��?/span>

        hive 是一个基�?/span> hadoop 的开源数据仓库工��P��用于存储和处理�v量结构化数据�?/span>    它把��量数据存储�?/span> hadoop 文�g�pȝ��Q�而不是数据库�Q�但提供了一套类数据库的数据存储和处理机�Ӟ��q��?/span> HQL �Q�类 SQL �Q�语�a�对这些数据进行自动化��理和处理。我们可以把 hive 中�v量结构化数据看成一个个的表�Q�而实际上�q�些数据是分布式存储�?/span> HDFS 中的�?/span> Hive �l�过对语句进行解析和转换�Q�最�l�生成一�p�d��Z�� hadoop �?/span> map/reduce ��d��Q�通过执行�q�些��d��完成数据处理�?/span>

        Hive 诞生�?/span> facebook 的日志分析需求，面对��量的结构化数据�Q?/span> hive 以较低的成本完成了以往需要大规模数据库才能完成的��d��Q��ƈ且学习门槛相对较低，应用开发灵�z�而高效�?/span>

        Hive �?/span> 2009.4.29 发布�W�一个官方稳定版 0.3.0 至今�Q�不�q�一�q�的旉��Q�正在慢慢完善，�|�上能找到的相关资料相当��，��其中文资料更少�Q�本文结合业务对 hive 的应用做了一些探索，�q�把�q�些�l�验做一个�ȝ��Q�所谓前车之��_��希望读者能��走一些弯路�?/span>

        Hive 的官�?/span> wiki 请参考这�?/span> :

        http://wiki.apache.org/hadoop/Hive

        官方主页在这里：

        http://hadoop.apache.org/hive/

        hive-0.5.0 源码包和二进制发布包的下载地址

        http://labs.renren.com/apache-mirror/hadoop/hive/hive-0.5.0/

二�?span>           部��v

        �׃�� Hive 是基�?/span> hadoop 的工��P��所�?/span> hive 的部�|�需要一个正常运行的 hadoop 环境。以下介�l?/span> hive 的简单部�|�和应用�?/span>

        部��v环境�Q?/span>

        操作�pȝ��Q?/span> Red Hat Enterprise Linux AS release 4 (Nahant Update 7)

        Hadoop �Q?/span> hadoop-0.20.2 �Q�正常运�?/span>

        部��v步骤如下�Q?/span>

1�?/span>   下蝲最新版本发布包 hive-0.5.0-dev.tar.gz �Q�传�?/span> hadoop �?/span> namenode 节点上，解压得到 hive 目录。假设�\径�ؓ�Q?/span> /opt/hadoop/hive-0.5.0-bin

2�?/span>   讄��环境变量 HIVE_HOME �Q�指�?/span> hive 根目�?/span> /opt/hadoop/hive-0.5.0-bin 。由�?/span> hadoop 已运行，��查环境变�?/span> JAVA_HOME �?/span> HADOOP_HOME 是否正确有效�?/span>

3�?/span>   切换�?/span> $HIVE_HOME 目录�Q?/span> hive 配置默认卛_��Q�运�?/span> bin/hive 卛_��启动 hive �Q�如果正常启动，��会出现“ hive> ”提示�W��?/span>

4�?/span>   在命令提�C�符中输�?#8220; show tables; ”�Q�如果正常运行，说明已部�|�成功，可供使用�?/span>

常见问题�Q?/span>

1�?/span>        执行“ show tables; ”命��o提示“ FAILED: Error in metadata: java.lang.IllegalArgumentException: URI:  does not have a scheme ”�Q�这是由�?/span> hive 找不到存攑օ�数据库的数据库而导致的�Q�修�?/span> conf/ hive-default.xml 配置文�g中的 hive.metastore.local �?/span> true 卛_��。由�?/span> hive 把结构化数据的元数据信息攑֜��W�三�Ҏ��据库�Q�此处设�|��ؓ true �Q?/span> hive ��在本地创徏 derby 数据库用于存攑օ�数据。当然如果有需要也可以采用 mysql �{�第三方数据库存攑օ�数据�Q�不�q�这�?/span> hive.metastore.local 的配�|�值应�?/span> false �?/span>

2�?/span>        如果你已有一�?/span> nutch1.0 �pȝ��正在跑，而你不想单独再去部��v一�?/span> hadoop 环境�Q�你可以直接使用 nutch1.0 自带�?/span> hadoop 环境�Q�但�q�样的部�|�会��D�� hive 不能正常�q�行�Q�提�C�找不到某些�Ҏ��。这是由�?/span> nutch1.0 使用�?/span> commons-lang-2.1.jar �q�个包，�?/span> hive 需要的�?/span> commons-lang-2.4.jar �Q�下载一�?/span> 2.4 版本的包替换�?/span> 2.1 卛_��Q?/span> nutch �?/span> hive 都能正常�q�行�?/span>

三�?span>           应用场景

        本文主要讲述使用 hive 的实践，业务不是关键�Q�简要介�l�业务场景，本次的�Q务是�Ҏ��索日志数据进行统计分析�?/span>

        集团搜烦刚上�U�不久，日志量�ƈ不大 。这些日志分布在 5 台前端机�Q�按��时保存�Q��ƈ以小时�ؓ周期定时��上一��时产生的数据同步到日志分析机，�l�计数据要求按小时更新。这些统计项�Q�包括关键词搜烦�?/span> pv �Q�类别访问量�Q�每�U�访问量 tps �{�等�?/span>

��Z�� hive �Q�我们将�q�些数据按天为单位徏表，每天一个表�Q�后台脚本根据时间戳��每��时同步�q�来�?/span> 5 台前端机的日志数据合�q�成一个日志文�Ӟ��导入 hive �pȝ��Q�每��时同步的日志数据被�q�加到当天数据表中，导入完成后，当天各项�l�计��将被重新计��ƈ输出�l�计�l�果�?/span>

        以上需求若直接��Z�� hadoop 开发，需要自行管理数据，针对多个�l�计需求开发不同的 map/reduce �q�算��d��Q�对合�ƈ、排序等多项操作�q�行定制�Q��ƈ��Q务运行状态，工作量�ƈ不小。但使用 hive �Q�从导入到分析、排序、去重、结果输出，�q�些操作都可以运�?/span> hql 语句来解冻I��一条语句经�q�处理被解析成几个�Q务来�q�行�Q�即使是关键词访问量增量�q�种需要同时访问多天数据的较�ؓ复杂的需求也能通过表关联这��L��语句自动完成�Q�节省了大量工作量�?/span>

四�?span>           Hive 实战

        初次使用 hive �Q�应该说上手�q�是挺快的�?/span> Hive 提供的类 SQL 语句�?/span> mysql 语句极�ؓ�怼��Q�语法上有大量相同的地方�Q�这�l�我们上手带来了很大的方便，但是要得心应手地写好�q�些语句�Q�还需要对 hive 有较好的了解�Q�才能结�?/span> hive 特色写出�_�֦�的语句�?/span>

        关于 hive 语言的详�l�语法可参考官�?/span> wiki 的语�a�手册 :

        http://wiki.apache.org/hadoop/Hive/LanguageManual

        虽然语法风格为我们提供了便利�Q�但初次使用遇到的问题还是不��的�Q�下面针对业务场景谈谈我们遇到的问题�Q�和�?/span> hive 功能的定制�?/span>

1�?/span> 分隔�W�问�?/span>

                首先遇到的是日志数据的分隔符问题�Q�我们的日志数据的大致格式如下：

2010-05-24 00:00:02@$_$@QQ2010@$_$@all@$_$@NOKIA_1681C@$_$@1@$_$@10@$_$@@$_$@-1@$_$@10@$_$@application@$_$@1

        从格式可见其分隔�W�是“ @$_$@ ”�Q�这是�ؓ了尽可能防止日志正文出现与分隔符相同的字�W�而导致数据�؜淆。本�?/span> hive支持在徏表的时候指定自定义分隔�W�的�Q�但�l�过多次��试发现只支持单个字�W�的自定义分隔符�Q�像“ @$_$@ ”�q�样的分隔符是不能被支持的，但是我们可以通过对分隔符的定制解册��个问题， hive 的内部分隔符�?#8220; \001 ”�Q�只要把分隔�W�替换成“\001 ”卛_��?/span>

�l�过探烦我们发现有两条途径解决�q�个问题�?/span>

a)          自定�?/span> outputformat �?/span> inputformat �?/span>

        Hive �?/span> outputformat/inputformat �?/span> hadoop �?/span> outputformat/inputformat 相当�c�M��Q?/span> inputformat 负责把输入数据进行格式化�Q�然后提供给 hive �Q?/span> outputformat 负责�?/span> hive 输出的数据重新格式化成目标格式再输出到文�Ӟ��q�种�Ҏ��式进行定制的方式较�ؓ底层�Q�对其进行定制也相对��单，重写 InputFormat �?/span> RecordReader �c�M��?/span> next �Ҏ��卛_��Q�示例代码如下：

    public boolean next(LongWritable key, BytesWritable value)

        throws IOException {

        while ( reader .next(key, text ) ) {

        String strReplace = text .toString().toLowerCase().replace( "@$_$@" , "\001" );

        Text txtReplace = new Text();

        txtReplace.set(strReplace );

        value.set(txtReplace.getBytes(), 0, txtReplace.getLength());

        return true ;

      }

         return false ;

}

        重写 HiveIgnoreKeyTextOutputFormat �?/span> RecordWriter 中的 write �Ҏ��Q�示例代码如下：

    public void write (Writable w) throws IOException {

      String strReplace = ((Text)w).toString().replace( "\001" , "@$_$@" );

      Text txtReplace = new Text();

      txtReplace.set(strReplace);

      byte [] output = txtReplace.getBytes();

      bytesWritable .set(output, 0, output. length );

      writer .write( bytesWritable );

}

        自定�?/span> outputformat/inputformat 后，在徏表时需要指�?/span> outputformat/inputformat �Q�如下示例：

stored as INPUTFORMAT 'com.aspire.search.loganalysis.hive.SearchLogInputFormat' OUTPUTFORMAT 'com.aspire.search.loganalysis.hive.SearchLogOutputFormat'

b)          通过 SerDe(serialize/deserialize) �Q�在数据序列化和反序列化时格式化数据�?/span>

�q�种方式�E�微复杂一点，�Ҏ��据的控制能力也要�׃��些，它��用正则表辑ּ�来匹配和处理数据�Q�性能也会有所影响。但它的优点是可以自定义表属性信�?/span> SERDEPROPERTIES �Q�在 SerDe 中通过�q�些属性信息可以有更多的定制行为�?/span>

2�?/span> 数据导入导出

a)          多版本日志格式的兼容

        �׃�� hive 的应用场景主要是处理��h��据（只读不写�Q�，因此它只支持扚w��导入和导出数据，�q�不支持单条数据的写入或更新�Q�所以如果要导入的数据存在某些不太规范的行，则需要我们定制一些扩展功能对其进行处理�?/span>

        我们需要处理的日志数据存在多个版本�Q�各个版本每个字�D늚�数据内容存在一些差异，可能版本 A 日志数据的第二个列是搜烦关键字，但版�?/span> B 的第二列却是搜烦的终端类型，如果�q�两个版本的日志直接导入 hive 中，很明显数据将会�؜乱，�l�计�l�果也不会正��。我们的��d��是要使多个版本的日志数据能在 hive 数据仓库中共存，且表�?/span> input/output 操作能够最�l�映��到正确的日志版本的正确字段�?/span>

        �q�里我们不关心这部分�J�琐的工作，只关心技术实现的关键点，�q�个功能该在哪里实现才能�?/span> hive 认得�q�些不同格式的数据呢�Q�经�q�多方尝试，在中间�Q何环节做�q�个版本适配都将��D��复杂化，最�l�这个工作还是在 inputformat/outputformat 中完成最��Z��雅，毕竟 inputformat 是源��_�� outputformat 是最�l�归�ѝ��具体来��_��是在前面提到�?/span> inputformat �?/span> next �Ҏ��中和�?/span> outputformat �?/span> write �Ҏ��中完成这个适配工作�?/span>

b)          Hive 操作本地数据

        一开始，��L��把本地数据先传到 HDFS �Q�再�?/span> hive 操作 hdfs 上的数据�Q�然后再把数据从 HDFS 上传回本地数据。后来发现大可不必如此， hive 语句都提供了“ local ”关键字，支持直接从本地导入数据到 hive �Q�也能从 hive 直接导出数据到本圎ͼ�不过其内部计��时当然是用 HDFS 上的数据�Q�只是自动�ؓ我们完成导入导出而已�?/span>

3�?/span> 数据处理

日志数据的统计处理在�q�里反倒没有什么特别之处，��是一�?/span> SQL 语句而已�Q�也没有什么高��q��技巧，不过�q�是列�D一些语句示例，以示 hive 处理数据的方便之处，�q�展�C?/span> hive 的一些用法�?/span>

a)          �?/span> hive ��d��用户定制功能�Q�自定义功能都位�?/span> hive_contrib.jar 包中

add jar /opt/hadoop/hive-0.5.0-bin/lib/hive_contrib.jar;

b)          �l�计每个关键词的搜烦量，�q�按搜烦量降序排列，然后把结果存入表 keyword_20100603 �?/span>

create table keyword_20100603 as select keyword,count(keyword) as count from searchlog_20100603 group by keyword order by count desc;

c)          �l�计每类用户�l�端的搜索量�Q��ƈ按搜索量降序排列�Q�然后把�l�果存入�?/span> device_20100603 �?/span>

create table device_20100603 as select device,count(device) as count from searchlog_20100603 group by device order by count desc;

d)          创徏�?/span> time_20100603 �Q��用自定义�?/span> INPUTFORMAT �?/span> OUTPUTFORMAT �Q��ƈ指定表数据的真实存放位置�?/span> '/LogAnalysis/results/time_20100603' �Q?/span> HDFS 路径�Q�，而不是放�?/span> hive 自己的数据目录中

create external table if not exists time_20100603(time string, count int) stored as INPUTFORMAT 'com.aspire.search.loganalysis.hive.XmlResultInputFormat' OUTPUTFORMAT 'com.aspire.search.loganalysis.hive.XmlResultOutputFormat' LOCATION '/LogAnalysis/results/time_20100603';

e)          �l�计每秒讉K��?/span> TPS �Q�按讉K��量降序排列，�q�把�l�果输出到表 time_20100603 中，�q�个表我们在上面刚刚定义�q�，其真实位�|�在 '/LogAnalysis/results/time_20100603' �Q��ƈ且由�?/span> XmlResultOutputFormat 的格式化�Q�文件内�Ҏ�� XML 格式�?/span>

insert overwrite table time_20100603 select time,count(time) as count from searchlog_20100603 group by time order by count desc;

f)           计算每个搜烦��h��响应旉��的最大��|��最��值和�q�_��?/span>

insert overwrite table response_20100603 select max(responsetime) as max,min(responsetime) as min,avg(responsetime) as avg from searchlog_20100603;

g)          创徏一个表用于存放今天与昨天的关键词搜索量和增量及其增量比率，表数据位�?/span> '/LogAnalysis/results/keyword_20100604_20100603' �Q�内容将�?/span> XML 格式�?/span>

create external table if not exists keyword_20100604_20100603(keyword string, count int, increment int, incrementrate double) stored as INPUTFORMAT 'com.aspire.search.loganalysis.hive.XmlResultInputFormat' OUTPUTFORMAT 'com.aspire.search.loganalysis.hive.XmlResultOutputFormat' LOCATION '/LogAnalysis/results/keyword_20100604_20100603';

h)          讄��表的属性，以便 XmlResultInputFormat �?/span> XmlResultOutputFormat 能根�?/span> output.resulttype 的不同内容输��Z��同格式的 XML 文�g�?/span>

alter table keyword_20100604_20100603 set tblproperties ('output.resulttype'='keyword');

i)            兌��今天关键词统计结果表�Q?/span> keyword_20100604 �Q�与昨天关键词统计结果表�Q?/span> keyword_20100603 �Q�，�l�计今天与昨天同时出现的关键词的搜烦�ơ数�Q�今天相�Ҏ��天的增量和增量比率，�q�按增量比率降序排列�Q�结果输出到刚刚定义�?/span> keyword_20100604_20100603 表中�Q�其数据文�g内容��ؓ XML 格式�?/span>

insert overwrite table keyword_20100604_20100603 select cur.keyword, cur.count, cur.count-yes.count as increment, (cur.count-yes.count)/yes.count as incrementrate from keyword_20100604 cur join keyword_20100603 yes on (cur.keyword = yes.keyword) order by incrementrate desc;

j)

4�?/span> 用户自定义函�?/span> UDF

部分�l�计�l�果需要以 CSV 的格式输出，对于�q�类文�g体全是有效内容的文�g�Q�不需要像 XML 一样包�?/span> version �Q?/span> encoding �{�信息的文�g��_��最适合�?/span> UDF(user define function) 了�?/span>

UDF 函数可直接应用于 select 语句�Q�对查询�l�构做格式化处理之后�Q�再输出内容。自定义 UDF 需要��?/span> org.apache.hadoop.hive.ql.exec.UDF �Q��ƈ实现 evaluate 函数�Q?/span> Evaluate 函数支持重蝲�Q�还支持可变参数。我们实��C��一个支持可变字�W�串参数�?/span> UDF �Q�支持把 select 得出的�Q意个数的不同�c�d��数据转换为字�W�串后，�?/span> CSV 格式输出�Q�由于代码较��单，�q�里�l�出源码�C�Z��Q?/span>

    public String evaluate(String... strs) {

       StringBuilder sb = new StringBuilder();

       for ( int i = 0; i < strs. length ; i++) {

           sb.append(ConvertCSVField(strs[i])).append( ',' );

       }

       sb.deleteCharAt(sb.length()-1);

       return sb.toString();

}

         需要注意的是，要��?/span> UDF 功能�Q�除了实现自定义 UDF 外，�q�需要加入包�?/span> UDF 的包�Q�示例：

add jar /opt/hadoop/hive-0.5.0-bin/lib/hive_contrib.jar;

然后创徏临时�Ҏ��Q�示例：

CREATE TEMPORARY FUNCTION Result2CSv AS ‘com.aspire.search.loganalysis.hive. Result2CSv';

         使用完毕�q�要 drop �Ҏ��Q�示例：

DROP TEMPORARY FUNCTION Result2CSv;

5�?/span>   输出 XML 格式的统计结�?/span>

前面看到部分日志�l�计�l�果输出��C��个表中，借助 XmlResultInputFormat �?/span> XmlResultOutputFormat 格式化成 XML 文�g�Q�考虑到创��个表只是��Z��得到 XML 格式的输出数据，我们只需实现 XmlResultOutputFormat 卛_��Q�如果还要支�?/span> select 查询�Q�则我们�q�需要实�?/span> XmlResultInputFormat �Q�这里我们只介绍 XmlResultOutputFormat �?/span>

前面介绍�q�，定制 XmlResultOutputFormat 我们只需重写 write 卛_��Q�这个方法将会把 hive 的以 ’\001’ 分隔的多字段数据格式化�ؓ我们需要的 XML 格式�Q�被��化的�C�Z��代码如下�Q?/span>

    public void write(Writable w) throws IOException {

           String[] strFields = ((Text) w).toString().split( "\001" );

           StringBuffer sbXml = new StringBuffer();

           if ( strResultType .equals( "keyword" )) {

    sbXml.append( "" ).append(strFields[0]).append(

    "" ).append(strFields[1]).append(           "" ).append(strFields[2]).append(

    "" ).append(strFields[3]).append(

"" );

           }

           Text txtXml = new Text();

           byte [] strBytes = sbXml.toString().getBytes( "utf-8" );

           txtXml.set(strBytes, 0, strBytes. length );

           byte [] output = txtXml.getBytes();

           bytesWritable .set(output, 0, output. length );

           writer .write( bytesWritable );

    }

        其中�?/span> strResultType .equals( "keyword" ) 指定关键词统计结果，�q�个属性来自以下语句对�l�果�c�d��的指定，通过�q�个属性我们还可以用同一�?/span> outputformat 输出多种�c�d��的结果�?/span>

        alter table keyword_20100604_20100603 set tblproperties ('output.resulttype'='keyword');

        仔细看看 write 函数的实��C��可发玎ͼ�其实�q�里只输��Z�� XML 文�g的正文，�?/span> XML 的文件头和结束标�{�֜�哪里输出呢？所�q�我们采用的是基�?/span> outputformat 的实玎ͼ�我们可以在构造函数输�?/span> version �Q?/span> encoding �{�文件头信息�Q�在 close() �Ҏ��中输出结束标�{��?/span>

        �q�也是我们�ؓ什么不使用 UDF 来输出结果的原因�Q�自定义 UDF 函数不能输出文�g头和文�g��，对于 XML 格式的数据无法输出完整格式，只能输出 CSV �q�类所有行都是有效数据的文件�?/span>

五�?span>           �ȝ��

        Hive 是一个可扩展性极强的数据仓库工具�Q�借助�?/span> hadoop 分布式存储计��^台和 hive �?/span> SQL 语句的理解能力，我们所要做的大部分工作��是输入和输出数据的适配�Q�恰恰这两部�?/span> IO 格式是千变万化的�Q�我们只需要定制我们自��q��输入输出适配器， hive��ؓ我们透明化存储和处理�q�些数据�Q�大大简化我们的工作。本文的重心也正在于此，�q�部分工作相信每一个做数据分析的朋友都会面对的�Q�希望对您有益�?/span>

        本文介绍了一�ơ相当简单的��Z�� hive 的日志统计实战，�?/span> hive 的运用还处于一个相对较��的层面�Q�目前尚能满��需求。对于一些较复杂的数据分析�Q务，以上所介绍的经验很可能是不够用的，甚至�?/span> hive 做不到的�Q?/span> hive �q�有很多�q�阶功能�Q�限于篇�q�本文未能涉及，待日后结合具体�Q务再详细阐述�?/span>

        如您�Ҏ��文有��M��或指教，误��论，谢谢�?/span>

koson 2010-07-19 14:39 发表评论

在线精品国产成人综合,欧美一区二区视频在线,国产综合在线看

ms �W�经攒RP

���量数据面试题整理（转）

struct�l�构体的数据寚w��

XP下Virtualbox虚拟Ubuntu�׃�n文�g夹设�|�（转）

Hadoop Map/Reduce教程

��量数据面试题整理（转）