
想給中小型客戶提供存儲和災備服務,研究一下hadoop。根據網上的一些文檔,我已經成功搭建起了hadoop集群的環境,一個namenode節點 三個datanode幾點 搭建好后,通過web也能正常訪問。用wordcount.java上傳數據到hdfs中也正常。但是我現在有點迷茫的是,這個已經搭建好的hadoop 環境到底能做些什么?如何使用呢?因為我事先了解的情況時hadoop只是一個底層的架構,要實現我所說的提供存儲和災備服務,是否還要進行二次開發?

1、hadoop的強項在于對海量數據的分析以及復雜的業務邏輯的處理。在做到這個工作之前,首先是需要將數據上傳到HDFS中。如果你僅僅是只存不分析數據,我覺得還不如放在本地硬盤或是做一個磁盤陣列存放合適。完全沒必要使用hadoop。
2、對于容災和抗災,最近我也在考慮這個,應為數據多了,存放的地方也大,所以必須要求數據的備份機制比較晚上。對于hadoop而言,默認的是 3份備份(可參看配置文件),個人覺得好算是完善,但是前提是你必須把你的網絡拓撲圖抽象的告訴hadoop集群(默認情況下,所有的集群都在一個水平位 置)。建議可以看看hadoop提供的機架感知的備份機制。感覺還可以以,不僅能提升數據分析速度,也能做到異地容災。

HDFS的存儲功能主要是2個。
一個是容錯能力,默認有3個備份,各種資料上說提供海量存儲能力,事實上我覺得存儲容量并沒有增加,磁盤硬件存儲能力是多少,HDFS的總存儲能力就是所有磁盤的能力相加。和普通的系統沒有區別。
第二個是存儲大型文件,比如一個文件100G,但假如你的廉價PC的硬盤只有80G,那么用普通系統是無法存儲的,這時你需要去買更貴的磁盤來存儲此類文件。而HDFS提供的就是將許多廉價存儲器集合起來,能夠存儲大型文件的能力。
所以我個人覺得,如果要用HDFS來作存儲演示,只能從容錯和存儲大型文件角度來展示功能。不然和普通FS沒有明顯區別。
hadoop的機架感知功能,通過配置可以通知集群機器的網絡位置。如果不配置,默認所有的集群都在同一水平位置上
國內外著名的互聯網公司使用hadoop都做了什么?談HADOOP在大規模數據處理領域的具體應用。
------------

二月 18th, 2011
hadoop在淘寶應用很多,淘寶網是國內最大的Hadoop應用商之一。
2010年九月三號的數據顯示:
淘寶集群的規模是
1.總容量為9.3PB,利用率77.09%。
2.共有1100臺機器。
3.每天處理約18000道hadoop作業
4. 用戶數474人,用戶組38個
5.約18000道作業/天,掃描數據:約500TB/天用戶數474人,用戶組38個
其他:
HADOOP在阿里巴巴:
用于處理商業數據的排序,并將其應用于阿里巴巴的ISEARCH搜索引擎,垂直商業搜索引擎。
節點數: 15臺機器的構成的服務器集群
服務器配置: 8核CPU,16G內存,1.4T硬盤容量。
HADOOP在百度:
HADOOP主要應用日志分析,同時使用它做一些網頁數據庫的數據挖掘工作。
節點數:10 - 500個節點。
周數據量: 3000TB
HADOOP在Facebook:
主要用于存儲內部日志的拷貝,作為一個源用于處理數據挖掘和日志統計。
主要使用了2個集群:
一個由1100臺節點組成的集群,包括8800核CPU(即每臺機器8核),和12000TB的原始存儲(即每臺機器12T硬盤)
一個有300臺節點組成的集群,包括2400核CPU(即每臺機器8核),和3000TB的原始存儲(即每臺機器12T硬盤)
由此基礎上開發了基于SQL語法的項目:HIVE
HADOOP在HULU
主要用于日志存儲和分析
13臺機器構成的集群 (8核PUC,單臺機器:4TB硬盤)
基于HBASE數據庫
HADOOP在TWITTER
使用HADOOP用于存儲微博數據,日志文件和許多中間數據
使用基于HADOOP構件的Cloudera's CDH2系統,存儲壓縮后的數據文件(LZO格式)
HADOOP在雅虎:
主要用于支持廣告系統及網頁搜索
機器數:25000,CPU:8核
集群機器數: 4000 個節點 (2*4cpu boxes w 4*1TB disk & 16GB RAM)