青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

Javen-Studio 咖啡小屋

http://javenstudio.org - C++ Java 分布式 搜索引擎
Naven's Research Laboratory - Thinking of Life, Imagination of Future

  C++博客 :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理 ::
  24 隨筆 :: 57 文章 :: 170 評論 :: 4 Trackbacks
 

2          MapReduce框架結構

Map/Reduce是一個用于大規模數據處理的分布式計算模型,它最初是由Google工程師設計并實現的,Google已經將它完整的MapReduce論文公開發布了。其中對它的定義是,Map/Reduce是一個編程模型(programming model),是一個用于處理和生成大規模數據集(processing and generating large data sets)的相關的實現。用戶定義一個map函數來處理一個key/value對以生成一批中間的key/value對,再定義一個reduce函數將所有這些中間的有著相同keyvalues合并起來。很多現實世界中的任務都可用這個模型來表達。

 

HadoopMap/Reduce框架也是基于這個原理實現的,下面簡要介紹一下Map/Reduce框架主要組成及相互的關系。

2.1       總體結構

2.1.1            MapperReducer

運行于HadoopMapReduce應用程序最基本的組成部分包括一個Mapper和一個Reducer類,以及一個創建JobConf的執行程序,在一些應用中還可以包括一個Combiner類,它實際也是Reducer的實現。

2.1.2            JobTrackerTaskTracker

它們都是由一個master服務JobTracker和多個運行于多個節點的slaver服務TaskTracker兩個類提供的服務調度的。master負責調度job的每一個子任務task運行于slave上,并監控它們,如果發現有失敗的task就重新運行它,slave則負責直接執行每一個taskTaskTracker都需要運行在HDFSDataNode上,而JobTracker則不需要,一般情況應該把JobTracker部署在單獨的機器上。

2.1.3            JobClient

每一個job都會在用戶端通過JobClient類將應用程序以及配置參數Configuration打包成jar文件存儲在HDFS,并把路徑提交到JobTrackermaster服務,然后由master創建每一個Task(即MapTaskReduceTask)將它們分發到各個TaskTracker服務中去執行。

2.1.4            JobInProgress

JobClient提交job后,JobTracker會創建一個JobInProgress來跟蹤和調度這個job,并把它添加到job隊列里。JobInProgress會根據提交的job jar中定義的輸入數據集(已分解成FileSplit)創建對應的一批TaskInProgress用于監控和調度MapTask,同時在創建指定數目的TaskInProgress用于監控和調度ReduceTask,缺省為1ReduceTask

2.1.5            TaskInProgress

JobTracker啟動任務時通過每一個TaskInProgresslaunchTask,這時會把Task對象(即MapTaskReduceTask)序列化寫入相應的TaskTracker服務中,TaskTracker收到后會創建對應的TaskInProgress(此TaskInProgress實現非JobTracker中使用的TaskInProgress,作用類似)用于監控和調度該Task。啟動具體的Task進程是通過TaskInProgress管理的TaskRunner對象來運行的。TaskRunner會自動裝載job jar,并設置好環境變量后啟動一個獨立的java child進程來執行Task,即MapTask或者ReduceTask,但它們不一定運行在同一個TaskTracker中。

2.1.6            MapTaskReduceTask

一個完整的job會自動依次執行MapperCombiner(在JobConf指定了Combiner時執行)和Reducer,其中MapperCombiner是由MapTask調用執行,Reducer則由ReduceTask調用,Combiner實際也是Reducer接口類的實現。Mapper會根據job jar中定義的輸入數據集按<key1,value1>對讀入,處理完成生成臨時的<key2,value2>對,如果定義了CombinerMapTask會在Mapper完成調用該Combiner將相同key的值做合并處理,以減少輸出結果集。MapTask的任務全完成即交給ReduceTask進程調用Reducer處理,生成最終結果<key3,value3>對。這個過程在下一部分再詳細介紹。

 

下圖描述了Map/Reduce框架中主要組成和它們之間的關系:

 

2.2       Job創建過程

2.2.1            JobClient.runJob() 開始運行job并分解輸入數據集

一個MapReduceJob會通過JobClient類根據用戶在JobConf類中定義的InputFormat實現類來將輸入的數據集分解成一批小的數據集,每一個小數據集會對應創建一個MapTask來處理。JobClient會使用缺省的FileInputFormat類調用FileInputFormat.getSplits()方法生成小數據集,如果判斷數據文件是isSplitable()的話,會將大的文件分解成小的FileSplit,當然只是記錄文件在HDFS里的路徑及偏移量和Split大小。這些信息會統一打包到jobFilejar中并存儲在HDFS中,再將jobFile路徑提交給JobTracker去調度和執行。

2.2.2            JobClient.submitJob() 提交jobJobTracker

jobFile的提交過程是通過RPC模塊(有單獨一章來詳細介紹)來實現的。大致過程是,JobClient類中通過RPC實現的Proxy接口調用JobTrackersubmitJob()方法,而JobTracker必須實現JobSubmissionProtocol接口。JobTracker則根據獲得的jobFile路徑創建與job有關的一系列對象(即JobInProgressTaskInProgress等)來調度并執行job

 

JobTracker創建job成功后會給JobClient傳回一個JobStatus對象用于記錄job的狀態信息,如執行時間、MapReduce任務完成的比例等。JobClient會根據這個JobStatus對象創建一個NetworkedJobRunningJob對象,用于定時從JobTracker獲得執行過程的統計數據來監控并打印到用戶的控制臺。

 

與創建Job過程相關的類和方法如下圖所示


 

2.3       Job執行過程

上面已經提到,job是統一由JobTracker來調度的,具體的Task分發給各個TaskTracker節點來執行。下面通過源碼來詳細解析執行過程,首先先從JobTracker收到JobClient的提交請求開始。

2.3.1            JobTracker初始化JobTask隊列過程

2.3.1.1     JobTracker.submitJob() 收到請求

JobTracker接收到新的job請求(即submitJob()函數被調用)后,會創建一個JobInProgress對象并通過它來管理和調度任務。JobInProgress在創建的時候會初始化一系列與任務有關的參數,如job jar的位置(會把它從HDFS復制本地的文件系統中的臨時目錄里),MapReduce的數據,job的優先級別,以及記錄統計報告的對象等。

2.3.1.2     JobTracker.resortPriority() 加入隊列并按優先級排序

JobInProgress創建后,首先將它加入到jobs隊列里,分別用一個map成員變量jobs用來管理所有jobs對象,一個list成員變量jobsByPriority用來維護jobs的執行優先級別。之后JobTracker會調用resortPriority()函數,將jobs先按優先級別排序,再按提交時間排序,這樣保證最高優先并且先提交的job會先執行。

2.3.1.3     JobTracker.JobInitThread 通知初始化線程

然后JobTracker會把此job加入到一個管理需要初始化的隊列里,即一個list成員變量jobInitQueue里。通過此成員變量調用notifyAll()函數,會喚起一個用于初始化job的線程JobInitThread來處理(JobTracker會有幾個內部的線程來維護jobs隊列,它們的實現都在JobTracker代碼里,稍候再詳細介紹)。JobInitThread收到信號后即取出最靠前的job,即優先級別最高的job,調用JobInProgressinitTasks()函數執行真正的初始化工作。

2.3.1.4     JobInProgress.initTasks() 初始化TaskInProgress

Task的初始化過程稍復雜些,首先步驟JobInProgress會創建Map的監控對象。在initTasks()函數里通過調用JobClientreadSplitFile()獲得已分解的輸入數據的RawSplit列表,然后根據這個列表創建對應數目的Map執行管理對象TaskInProgress。在這個過程中,還會記錄該RawSplit塊對應的所有在HDFS里的blocks所在的DataNode節點的host,這個會在RawSplit創建時通過FileSplitgetLocations()函數獲取,該函數會調用DistributedFileSystemgetFileCacheHints()獲得(這個細節會在HDFS模塊中講解)。當然如果是存儲在本地文件系統中,即使用LocalFileSystem時當然只有一個location即“localhost”了。

 

其次JobInProgress會創建Reduce的監控對象,這個比較簡單,根據JobConf里指定的Reduce數目創建,缺省只創建1Reduce任務。監控和調度Reduce任務的也是TaskInProgress類,不過構造方法有所不同,TaskInProgress會根據不同參數分別創建具體的MapTask或者ReduceTask

 

JobInProgress創建完TaskInProgress后,最后構造JobStatus并記錄job正在執行中,然后再調用JobHistory.JobInfo.logStarted()記錄job的執行日志。到這里JobTracker里初始化job的過程全部結束,執行則是通過另一異步的方式處理的,下面接著介紹它。

 

與初始化Job過程相關的類和方法如下圖所示

 

2.3.2            TaskTracker執行Task的過程

Task的執行實際是由TaskTracker發起的,TaskTracker會定期(缺省為10秒鐘,參見MRConstants類中定義的HEARTBEAT_INTERVAL變量)與JobTracker進行一次通信,報告自己Task的執行狀態,接收JobTracker的指令等。如果發現有自己需要執行的新任務也會在這時啟動,即是在TaskTracker調用JobTrackerheartbeat()方法時進行,此調用底層是通過IPC層調用Proxy接口(在IPC章節詳細介紹)實現。這個過程實際比較復雜,下面一一簡單介紹下每個步驟。

2.3.2.1     TaskTracker.run() 連接JobTracker

TaskTracker的啟動過程會初始化一系列參數和服務(另有單獨的一節介紹),然后嘗試連接JobTracker服務(即必須實現InterTrackerProtocol接口),如果連接斷開,則會循環嘗試連接JobTracker,并重新初始化所有成員和參數,此過程參見run()方法。

2.3.2.2     TaskTracker.offerService() 主循環

如果連接JobTracker服務成功,TaskTracker就會調用offerService()函數進入主執行循環中。這個循環會每隔10秒與JobTracker通訊一次,調用transmitHeartBeat()獲得HeartbeatResponse信息。然后調用HeartbeatResponsegetActions()函數獲得JobTracker傳過來的所有指令即一個TaskTrackerAction數組。再遍歷這個數組,如果是一個新任務指令即LaunchTaskAction則調用startNewTask()函數執行新任務,否則加入到tasksToCleanup隊列,交給一個taskCleanupThread線程來處理,如執行KillJobAction或者KillTaskAction等。

2.3.2.3     TaskTracker.transmitHeartBeat() 獲取JobTracker指令

transmitHeartBeat()函數處理中,TaskTracker會創建一個新的TaskTrackerStatus對象記錄目前任務的執行狀況,然后通過IPC接口調用JobTrackerheartbeat()方法發送過去,并接受新的指令,即返回值TaskTrackerAction數組。在這個調用之前,TaskTracker會先檢查目前執行的Task數目以及本地磁盤的空間使用情況等,如果可以接收新的Task則設置heartbeat()askForNewTask參數為true。操作成功后再更新相關的統計信息等。

2.3.2.4     TaskTracker.startNewTask() 啟動新任務

此函數的主要任務就是創建TaskTracker$TaskInProgress對象來調度和監控任務,并把它加入到runningTasks隊列中。完成后則調用localizeJob()真正初始化Task并開始執行。

2.3.2.5     TaskTracker.localizeJob() 初始化job目錄等

此函數主要任務是初始化工作目錄workDir,再將job jar包從HDFS復制到本地文件系統中,調用RunJar.unJar()將包解壓到工作目錄。然后創建一個RunningJob并調用addTaskToJob()函數將它添加到runningJobs監控隊列中。完成后即調用launchTaskForJob()開始執行Task

2.3.2.6     TaskTracker.launchTaskForJob() 執行任務

啟動Task的工作實際是調用TaskTracker$TaskInProgresslaunchTask()函數來執行的。

2.3.2.7     TaskTracker$TaskInProgress.launchTask() 執行任務

執行任務前先調用localizeTask()更新一下jobConf文件并寫入到本地目錄中。然后通過調用TaskcreateRunner()方法創建TaskRunner對象并調用其start()方法最后啟動Task獨立的java執行子進程。

2.3.2.8     Task.createRunner() 創建啟動Runner對象

Task有兩個實現版本,即MapTaskReduceTask,它們分別用于創建MapReduce任務。MapTask會創建MapTaskRunner來啟動Task子進程,而ReduceTask則創建ReduceTaskRunner來啟動。

2.3.2.9     TaskRunner.start() 啟動子進程真正執行Task

這里是真正啟動子進程并執行Task的地方。它會調用run()函數來處理。執行的過程比較復雜,主要的工作就是初始化啟動java子進程的一系列環境變量,包括設定工作目錄workDir,設置CLASSPATH環境變量等(需要將TaskTracker的環境變量以及job jar的路徑合并起來)。然后裝載job jar包,調用runChild()方法啟動子進程,即通過ProcessBuilder來創建,同時子進程的stdout/stdin/syslog的輸出定向到該Task指定的輸出日志目錄中,具體的輸出通過TaskLog類來實現。這里有個小問題,Task子進程只能輸出INFO級別日志,而且該級別是在run()函數中直接指定,不過改進也不復雜。

 

Job執行過程相關的類和方法如下圖所示


 

2.4       JobTrackerTaskTracker

如上面所述,JobTrackerTaskTrackerMapReduce框架最基本的兩個服務,其他所有處理均由它們調度執行,下面簡單介紹它們內部提供的服務及創建的線程,詳細過程下回分解J

2.4.1            JobTracker的服務和線程

JobTrackerMapReduce框架中最主要的類之一,所有job的執行都由它來調度,而且Hadoop系統中只配置一個JobTracker應用。啟動JobTracker后它會初始化若干個服務以及若干個內部線程用來維護job的執行過程和結果。下面簡單介紹一下它們。

 

首先,JobTracker會啟動一個interTrackerServer,端口配置在Configuration中的"mapred.job.tracker"參數,缺省是綁定8012端口。它有兩個用途,一是用于接收和處理TaskTrackerheartbeat等請求,即必須實現InterTrackerProtocol接口及協議。二是用于接收和處理JobClient的請求,如submitJobkillJob等,即必須實現JobSubmissionProtocol接口及協議。

 

其次,它會啟動一個infoServer,運行StatusHttpServer,缺省監聽50030端口。是一個web服務,用于給用戶提供web界面查詢job執行狀況的服務。

 

JobTracker還會啟動多個線程,ExpireLaunchingTasks線程用于停止那些未在超時時間內報告進度的TasksExpireTrackers線程用于停止那些可能已經當掉的TaskTracker,即長時間未報告的TaskTracker將不會再分配新的TaskRetireJobs線程用于清除那些已經完成很長時間還存在隊列里的jobsJobInitThread線程用于初始化job,這在前面章節已經介紹。TaskCommitQueue線程用于調度Task的那些所有與FileSystem操作相關的處理,并記錄Task的狀態等信息。

 

2.4.2            TaskTracker的服務和線程

TaskTracker也是MapReduce框架中最主要的類之一,它運行于每一臺DataNode節點上,用于調度Task的實際運行工作。它內部也會啟動一些服務和線程。

 

TaskTracker也會啟動一個StatusHttpServer服務來提供web界面的查詢Task執行狀態的工具。

 

其次,它還會啟動一個taskReportServer服務,這個用于提供給它的子進程即TaskRunner啟動的MapTask或者ReduceTask向它報告狀況,子進程的啟動命令實現在TaskTracker$Child類中,由TaskRunner.run()通過命令行參數傳入該服務地址和端口,即調用TaskTrackergetTaskTrackerReportAddress(),這個地址會在taskReportServer服務創建時獲得。

 

TaskTracker也會啟動一個MapEventsFetcherThread線程用于獲取Map任務的輸出數據信息。

 

2.5       Job狀態監控

未完待續


作者:naven 2008-02-21
posted on 2008-02-22 01:01 Javen-Studio 閱讀(17340) 評論(6)  編輯 收藏 引用

評論

# re: Annotated Hadoop: 第二節 MapReduce框架結構 2009-03-12 13:56 hadoop中文
歡迎大家到http://cn.hadoop.org/
討論,國內研究這個的人實在太少  回復  更多評論
  

# re: Annotated Hadoop: 第二節 MapReduce框架結構 2009-04-16 17:58 shiquan
great!!!!  回復  更多評論
  

# re: Annotated Hadoop: 第二節 MapReduce框架結構 2009-04-16 21:20 shiquan
很好,很強大.  回復  更多評論
  

# re: Annotated Hadoop: 第二節 MapReduce框架結構 2011-07-01 11:50 xp
寫的不錯。仔細研究好好學習。受教。  回復  更多評論
  

# re: Annotated Hadoop: 第二節 MapReduce框架結構 2011-12-11 18:41 hadoophobby
Job狀態監控這一節可以在哪看到呢,很想看到這一節的內容,期盼博主的回復  回復  更多評論
  


只有注冊用戶登錄后才能發表評論。
網站導航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            欧美成在线视频| 欧美视频日韩| 中文网丁香综合网| 午夜久久久久久| 精品白丝av| 一本到12不卡视频在线dvd| 国产网站欧美日韩免费精品在线观看 | 狠狠色狠狠色综合日日五| 欧美激情国产日韩精品一区18| 欧美日韩你懂的| 欧美aⅴ99久久黑人专区| 欧美三区不卡| 亚洲国产清纯| 精品1区2区3区4区| 亚洲已满18点击进入久久| 亚洲三级影院| 噜噜噜躁狠狠躁狠狠精品视频| 午夜一区在线| 欧美视频一区二区| 亚洲黑丝在线| 亚洲国产精品99久久久久久久久| 亚洲视频在线观看网站| 日韩亚洲欧美成人| 老牛嫩草一区二区三区日本| 午夜精品成人在线| 欧美日韩岛国| 亚洲精品视频一区二区三区| 亚洲国产精选| 久热精品视频在线观看| 久久综合九色综合欧美就去吻| 国产乱码精品| 亚洲欧美日韩第一区| 亚洲男同1069视频| 欧美日韩一区二区免费在线观看| 欧美福利专区| 亚洲精品护士| 欧美顶级少妇做爰| 亚洲国产中文字幕在线观看| 亚洲黄一区二区| 欧美14一18处毛片| 亚洲高清在线观看一区| 亚洲国语精品自产拍在线观看| 久久中文字幕一区二区三区| 两个人的视频www国产精品| 国产综合欧美在线看| 欧美永久精品| 欧美xart系列高清| 亚洲久色影视| 国产精品久久久久9999吃药| 国产精品99久久99久久久二8| 夜色激情一区二区| 欧美日本久久| 在线视频亚洲| 久久精品日产第一区二区三区 | 一本色道久久99精品综合| 亚洲人成网站色ww在线| 欧美精品三区| 亚洲视频1区2区| 久久久久久久国产| 亚洲国产女人aaa毛片在线| 欧美成年人在线观看| 亚洲精品1区2区| 亚洲网站在线| 国产免费成人av| 久久疯狂做爰流白浆xx| 久热精品视频在线观看一区| 在线精品一区二区| 欧美日韩国产123| 午夜精品美女久久久久av福利| 久久全国免费视频| 日韩午夜av在线| 国产欧美一区视频| 欧美亚洲视频在线看网址| 久久aⅴ国产紧身牛仔裤| 亚洲第一黄色| 国产精品久久二区二区| 久久精品女人| 亚洲午夜精品视频| 欧美成人精品福利| 9久草视频在线视频精品| 国产精品自拍网站| 久久噜噜噜精品国产亚洲综合| 亚洲第一伊人| 久久九九热re6这里有精品| 亚洲精品国产精品国自产观看| 国产精品黄视频| 欧美成人精品福利| 久久爱www.| 亚洲一区二区不卡免费| 欧美h视频在线| 亚洲一区二区三区色| 国产精自产拍久久久久久| 欧美高清你懂得| 久久精品99无色码中文字幕| 亚洲精品一区二区三区不| 久久久久久久综合色一本| 一区二区高清视频在线观看| 亚洲精品免费在线| 国内外成人免费视频| 米奇777超碰欧美日韩亚洲| 制服丝袜激情欧洲亚洲| 亚洲电影免费在线| 老司机亚洲精品| 欧美在线观看日本一区| 亚洲精品乱码久久久久久黑人| 国产揄拍国内精品对白| 国产精品视频网| 国产精品久久777777毛茸茸| 欧美激情1区2区3区| 免费久久99精品国产| 久久久777| 欧美在线一二三四区| 亚洲无吗在线| 亚洲天堂男人| 亚洲深夜福利在线| 中文网丁香综合网| 国产精品99久久久久久白浆小说 | 久久av红桃一区二区小说| 亚洲精品日韩综合观看成人91| 激情综合中文娱乐网| 国产一区视频在线看| 在线观看日韩专区| 尤物99国产成人精品视频| 国产在线观看一区| 黄色日韩精品| 在线欧美一区| 亚洲国产成人av在线| 亚洲国产网站| 99国产精品久久久久久久| 9久草视频在线视频精品| 日韩视频在线一区二区| 9色精品在线| 亚洲调教视频在线观看| 亚洲欧美大片| 久久男人资源视频| 免费亚洲一区二区| 亚洲国产精品一区二区久| 亚洲精品乱码久久久久久蜜桃麻豆| 亚洲高清视频中文字幕| 日韩视频国产视频| 亚洲一区二区三区免费观看| 午夜免费日韩视频| 久久久xxx| 欧美11—12娇小xxxx| 欧美美女福利视频| 国产精品一区久久久久| 国产精品jvid在线观看蜜臀| 国产精品一区二区在线观看网站 | 欧美日韩国产另类不卡| 国产精品激情电影| 国内外成人免费激情在线视频网站 | 蜜臀91精品一区二区三区| 久久久精品一区| 欧美日韩国产三区| 国产一区二区丝袜高跟鞋图片| 在线成人中文字幕| 一区二区精品| 欧美人成在线视频| 国产精品都在这里| 国产日韩欧美91| 亚洲国产精品va在线看黑人 | 欧美午夜不卡在线观看免费| 国产精品麻豆成人av电影艾秋| 欧美午夜a级限制福利片| 国产视频不卡| 在线观看三级视频欧美| 夜久久久久久| 久久久午夜视频| 亚洲精品欧洲| 久久久久国产精品一区| 国产精品v欧美精品v日本精品动漫| 国产夜色精品一区二区av| 日韩视频在线永久播放| 久久天天躁夜夜躁狠狠躁2022 | 亚洲欧美国内爽妇网| 欧美va天堂在线| 亚洲制服少妇| 欧美日韩一区二区免费在线观看 | 国产欧美日韩精品在线| 亚洲国产成人av好男人在线观看| 一区二区三区波多野结衣在线观看| 欧美在线看片| 久久婷婷激情| 亚洲小视频在线观看| 欧美精品久久久久a| 在线观看精品| 久久精品99无色码中文字幕| 亚洲欧洲日本mm| 欧美一级视频精品观看| 国产一区二区三区av电影 | 亚洲精品国产精品久久清纯直播 | 亚洲视频视频在线| 欧美激情二区三区| 亚洲国产综合91精品麻豆| 久久久久久噜噜噜久久久精品| 日韩亚洲欧美一区| 欧美激情一区二区在线| 欧美激情综合色综合啪啪| 日韩亚洲欧美在线观看| 99亚洲视频|