Hadoop系統(tǒng)架構(gòu)
美國阿帕奇(Apache)軟件基金會開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序。
Hadoop由Apache軟件基金會于2005年秋正式引入。2006年3月,映射-化簡(MapReduce)編程模型和Nutch分布式文件系統(tǒng)(Nutch distributed file system,NDFS)分別被納入Hadoop項目中?;贖adoop的應用與開發(fā)非常廣泛,有很多公司開始提供基于Hadoop的商業(yè)軟件、支持、服務以及培訓,如企業(yè)軟件公司、云計算基礎(chǔ)設(shè)施公司、數(shù)據(jù)安全公司等。
Hadoop由3部分組成:MapReduce負責計算,Hadoop分布式文件系統(tǒng)(Hadoop distributed file system,HDFS)負責存儲數(shù)據(jù),另一種資源協(xié)調(diào)者(yet another resource negotiator,YARN)為統(tǒng)一資源調(diào)度器,負責管理計算資源,如中央處理器和內(nèi)存等。
Hadoop的優(yōu)點主要有:①高可靠性。Hadoop按位存儲和處理數(shù)據(jù)的能力。②高擴展性。Hadoop是在可用的計算機集群間分配數(shù)據(jù)并完成計算任務的,這些集群可以方便地擴展到數(shù)以千計的節(jié)點中。③高效性。Hadoop能夠在節(jié)點之間動態(tài)地移動數(shù)據(jù),并保證各個節(jié)點的動態(tài)平衡。④高容錯性。Hadoop能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務重新分配。⑤低成本。與一體機、商用數(shù)據(jù)倉庫相比,Hadoop是開源的,項目的軟件成本因此會大大降低。