国产精品五区,国产精品第一页第二页第三页,国产精品成人免费视频

Hadoop的一些理解及當(dāng)前的流行應(yīng)用 --- 轉(zhuǎn)

想給中小型客戶提供存儲(chǔ)和災(zāi)備服務(wù)，研究一下hadoop。根據(jù)網(wǎng)上的一些文檔，我已經(jīng)成功搭建起了hadoop集群的環(huán)境，一個(gè)namenode節(jié)點(diǎn) 三個(gè)datanode幾點(diǎn) 搭建好后，通過web也能正常訪問。用wordcount.java上傳數(shù)據(jù)到hdfs中也正常。但是我現(xiàn)在有點(diǎn)迷茫的是，這個(gè)已經(jīng)搭建好的hadoop 環(huán)境到底能做些什么？如何使用呢？因?yàn)槲沂孪攘私獾那闆r時(shí)hadoop只是一個(gè)底層的架構(gòu)，要實(shí)現(xiàn)我所說的提供存儲(chǔ)和災(zāi)備服務(wù)，是否還要進(jìn)行二次開發(fā)？

1、hadoop的強(qiáng)項(xiàng)在于對(duì)海量數(shù)據(jù)的分析以及復(fù)雜的業(yè)務(wù)邏輯的處理。在做到這個(gè)工作之前，首先是需要將數(shù)據(jù)上傳到HDFS中。如果你僅僅是只存不分析數(shù)據(jù)，我覺得還不如放在本地硬盤或是做一個(gè)磁盤陣列存放合適。完全沒必要使用hadoop。
2、對(duì)于容災(zāi)和抗災(zāi)，最近我也在考慮這個(gè)，應(yīng)為數(shù)據(jù)多了，存放的地方也大，所以必須要求數(shù)據(jù)的備份機(jī)制比較晚上。對(duì)于hadoop而言，默認(rèn)的是 3份備份（可參看配置文件），個(gè)人覺得好算是完善，但是前提是你必須把你的網(wǎng)絡(luò)拓?fù)鋱D抽象的告訴hadoop集群（默認(rèn)情況下，所有的集群都在一個(gè)水平位置）。建議可以看看hadoop提供的機(jī)架感知的備份機(jī)制。感覺還可以以，不僅能提升數(shù)據(jù)分析速度，也能做到異地容災(zāi)。

HDFS的存儲(chǔ)功能主要是2個(gè)。
一個(gè)是容錯(cuò)能力，默認(rèn)有3個(gè)備份，各種資料上說提供海量存儲(chǔ)能力，事實(shí)上我覺得存儲(chǔ)容量并沒有增加，磁盤硬件存儲(chǔ)能力是多少，HDFS的總存儲(chǔ)能力就是所有磁盤的能力相加。和普通的系統(tǒng)沒有區(qū)別。
第二個(gè)是存儲(chǔ)大型文件，比如一個(gè)文件100G，但假如你的廉價(jià)PC的硬盤只有80G，那么用普通系統(tǒng)是無法存儲(chǔ)的，這時(shí)你需要去買更貴的磁盤來存儲(chǔ)此類文件。而HDFS提供的就是將許多廉價(jià)存儲(chǔ)器集合起來，能夠存儲(chǔ)大型文件的能力。
所以我個(gè)人覺得，如果要用HDFS來作存儲(chǔ)演示，只能從容錯(cuò)和存儲(chǔ)大型文件角度來展示功能。不然和普通FS沒有明顯區(qū)別。
hadoop的機(jī)架感知功能，通過配置可以通知集群機(jī)器的網(wǎng)絡(luò)位置。如果不配置，默認(rèn)所有的集群都在同一水平位置上

國內(nèi)外著名的互聯(lián)網(wǎng)公司使用hadoop都做了什么？談HADOOP在大規(guī)模數(shù)據(jù)處理領(lǐng)域的具體應(yīng)用。
------------

二月 18th, 2011
hadoop在淘寶應(yīng)用很多，淘寶網(wǎng)是國內(nèi)最大的Hadoop應(yīng)用商之一。

2010年九月三號(hào)的數(shù)據(jù)顯示：

淘寶集群的規(guī)模是
1.總?cè)萘繛?.3PB，利用率77.09%。
2.共有1100臺(tái)機(jī)器。
3.每天處理約18000道hadoop作業(yè)
4. 用戶數(shù)474人，用戶組38個(gè)
5.約18000道作業(yè)/天，掃描數(shù)據(jù)：約500TB/天用戶數(shù)474人，用戶組38個(gè)

其他：

HADOOP在阿里巴巴：

用于處理商業(yè)數(shù)據(jù)的排序，并將其應(yīng)用于阿里巴巴的ISEARCH搜索引擎，垂直商業(yè)搜索引擎。

節(jié)點(diǎn)數(shù)： 15臺(tái)機(jī)器的構(gòu)成的服務(wù)器集群

服務(wù)器配置： 8核CPU，16G內(nèi)存，1.4T硬盤容量。
HADOOP在百度：

HADOOP主要應(yīng)用日志分析，同時(shí)使用它做一些網(wǎng)頁數(shù)據(jù)庫的數(shù)據(jù)挖掘工作。

節(jié)點(diǎn)數(shù)：10 - 500個(gè)節(jié)點(diǎn)。

周數(shù)據(jù)量： 3000TB
HADOOP在Facebook：

主要用于存儲(chǔ)內(nèi)部日志的拷貝，作為一個(gè)源用于處理數(shù)據(jù)挖掘和日志統(tǒng)計(jì)。

主要使用了2個(gè)集群：

一個(gè)由1100臺(tái)節(jié)點(diǎn)組成的集群，包括8800核CPU（即每臺(tái)機(jī)器8核）,和12000TB的原始存儲(chǔ)(即每臺(tái)機(jī)器12T硬盤)

一個(gè)有300臺(tái)節(jié)點(diǎn)組成的集群，包括2400核CPU（即每臺(tái)機(jī)器8核），和3000TB的原始存儲(chǔ)(即每臺(tái)機(jī)器12T硬盤)

由此基礎(chǔ)上開發(fā)了基于SQL語法的項(xiàng)目：HIVE
HADOOP在HULU

主要用于日志存儲(chǔ)和分析

13臺(tái)機(jī)器構(gòu)成的集群（8核PUC，單臺(tái)機(jī)器：4TB硬盤）

基于HBASE數(shù)據(jù)庫
HADOOP在TWITTER

使用HADOOP用于存儲(chǔ)微博數(shù)據(jù)，日志文件和許多中間數(shù)據(jù)

使用基于HADOOP構(gòu)件的Cloudera's CDH2系統(tǒng)，存儲(chǔ)壓縮后的數(shù)據(jù)文件（LZO格式）
HADOOP在雅虎：

主要用于支持廣告系統(tǒng)及網(wǎng)頁搜索

機(jī)器數(shù)：25000，CPU：8核

集群機(jī)器數(shù)： 4000 個(gè)節(jié)點(diǎn) (2*4cpu boxes w 4*1TB disk & 16GB RAM)

posted on 2012-09-19 14:49 大龍閱讀(555) 評(píng)論(0) 編輯收藏引用

只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。
【推薦】100%開源！大型工業(yè)跨平臺(tái)軟件C++源碼提供，建模，組態(tài)！



網(wǎng)站導(dǎo)航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

大龍的博客

導(dǎo)航

留言簿(43)

收藏夾

隨筆檔案

文章檔案

閱讀排行榜

評(píng)論排行榜

常用鏈接

統(tǒng)計(jì)

最新評(píng)論

Hadoop的一些理解及當(dāng)前的流行應(yīng)用 --- 轉(zhuǎn)