Spark計算引擎

為大規(guī)模數(shù)據(jù)處理而設計的快速通用的計算引擎。

Spark計算引擎是美國加利福尼亞大學伯克利分校的算法、機器和人（algorithms machines and people，AMP）實驗室所開源的Hadoop映射-化簡（MapReduce）的通用并行框架。Spark擁有MapReduce所具有的優(yōu)點，不同于MapReduce的是其工作中間輸出結(jié)果可以保存在內(nèi)存中，從而不再需要讀寫Hadoop分布式文件系統(tǒng)（Hadoop distributed file system，HDFS），因此Spark能更好地適用于數(shù)據(jù)挖掘與機器學習等需要迭代的MapReduce的算法。

Spark的核心概念是彈性分布式數(shù)據(jù)集（resilient distributed datasets，RDD）。從本質(zhì)上來說，RDD是分布式內(nèi)存的一個抽象概念，RDD提供了一種高度受限的共享內(nèi)存模型，即RDD是只讀的記錄分區(qū)的集合，只能通過在其他RDD執(zhí)行確定的轉(zhuǎn)換操作而創(chuàng)建，然而這些限制使得實現(xiàn)容錯的開銷很低。對開發(fā)者而言，RDD可以看作是Spark的一個對象，它本身運行于內(nèi)存中，如讀文件是一個RDD，對文件計算是一個RDD，結(jié)果集也是一個RDD，不同的分片、數(shù)據(jù)之間的依賴、鍵值類型的映射數(shù)據(jù)都可以看作RDD。

Spark已經(jīng)形成了較為完整的生態(tài)圈，其中包括：Spark Core是Spark的核心應用程序接口（application program interface，API），實現(xiàn)了很多基本的RDD轉(zhuǎn)換操作；Spark SQL是Spark針對結(jié)構(gòu)化數(shù)據(jù)的API，能夠使SQL對結(jié)構(gòu)化數(shù)據(jù)進行標準分析；Spark Streaming是Spark針對流數(shù)據(jù)的API，可以實現(xiàn)對大規(guī)模數(shù)據(jù)流以元組為單位低延遲的處理；Spark MLib是Spark針對機器學習任務的API，可以有效地進行大規(guī)模迭代計算；Spark GraphX是Spark針對圖數(shù)據(jù)的API。

3940

免責聲明：本站詞條系由網(wǎng)友創(chuàng)建、編輯和維護，內(nèi)容僅供參考。

以上內(nèi)容均為商業(yè)內(nèi)容展示，僅供參考，不具備專業(yè)問題解決服務，

如果您需要解決具體問題（尤其在法律、醫(yī)學等領域），建議您咨詢相關(guān)領域的專業(yè)人士。

如您發(fā)現(xiàn)詞條內(nèi)容涉嫌侵權(quán)，請通過 948026894@qq.com 與我們聯(lián)系進行刪除處理！

上一篇：Hadoop系統(tǒng)架構(gòu)

下一篇：映射-化簡編程模型

熱門標簽

物理學家諾貝爾生理學或醫(yī)學獎諾貝爾物理學獎酒店三國史記作家三國演義諾貝爾文學獎科洛中學諾貝爾和平獎景天科經(jīng)濟學家小學諾貝爾經(jīng)濟學獎七十列傳諾貝爾化學獎 LED 科學家詩人牛奶化學家五金恐龍三國志三十世家科洛結(jié)構(gòu)自防水冰淇淋植物生物學家職業(yè)學校胡蘿卜仙人掌科小說家數(shù)學家物流生物化學家幼兒園醫(yī)藥生理學家房地產(chǎn) 互聯(lián)網(wǎng) 土豆雞蛋建筑工程雪糕番杏科論語政治家新能源化石餃子奧運會電子汽車計算機黃瓜醫(yī)生五花肉酸菜蛋黃賓館醫(yī)學家機械設備地板電子商務物聯(lián)網(wǎng) 天文學家大學食品環(huán)保醫(yī)療器械化妝品十二本紀豬肉蔥客棧藥業(yè) 建筑安防文學家香菇衛(wèi)浴木地板房地產(chǎn)開發(fā) 電力香菜草本植物十二卷白菜十表劇作家芒果四川蛋糕防水網(wǎng)絡營銷電源家具

感谢您访问我们的网站，您可能还对以下资源感兴趣：

91精品无码中文字幕

国产一区二区三区免费久久久蜜臀欧美性群另类交成人午夜直播女人高潮a级毛片