大數據引擎分代_ZenDei技術網路在線

大數據引擎分代

-Advertisement-

大致可以將大數據的計算引擎分成了 4 代。 1、第一代的計算引擎，無疑就是Hadoop承載的MapReduce。它將每個JobApp都被設計為兩個階段，分別為Map和Reduce。對於上層應用來說，就不得不想方設法去拆分演算法，甚至於不得不在上層應用實現多個App的串聯，才能完成一個完整的演算法，例 ...

大致可以將大數據的計算引擎分成了 4 代。

1、第一代的計算引擎，無疑就是Hadoop承載的MapReduce。它將每個JobApp都被設計為兩個階段，分別為Map和Reduce。對於上層應用來說，就不得不想方設法去拆分演算法，甚至於不得不在上層應用實現多個App的串聯，才能完成一個完整的演算法，例如迭代計算，不夠靈活，中間計算結果涉及到磁碟shuffle，影響效率。
Hadoop設計理念來自Google的三篇論文的啟發催生了下列組件
HDFS：分散式存儲【在役】
MapReduce：分散式結算【退役】
Hbase：分散式查詢【在役】

2、由於第一代的弊端，催生了支持 DAG 框架的產生，實現了DAG定義與運算元的解耦。因此，支持用戶在運算元外部自定義 DAG 的框架被劃分為第二代計算引擎。如 Tez 以及更上層的 Oozie。這裡我們不去細究各種 DAG 實現之間的區別，不過對於當時的 Tez 和 Oozie 來說，大多還是批處理的任務。

3、接下來就是以 Spark 為代表的第三代的計算引擎。第三代計算引擎的特點主要是一個App內部支持多個Job，每個Job可以代表一套完整的數據處理流程（用Job完成一個完整流程的隔離），並實現了Job內嵌DAG，以及強調的實時計算。在這裡，很多人也會認為第三代計算引擎也能夠很好的運行批處理的 Job。
Spark中幾個概念的作用範圍：App > Job > Stage > Operator > Task，從左至右都是1對多的關係。

4、隨著第三代計算引擎的出現，促進了上層應用快速發展，例如各種迭代計算的性能以及對流計算和SQL等的支持。Flink的誕生就被歸在了第四代。這應該主要表現在Flink對實時流計算的支持，以及更進一步的實時性上面。當然Flink也可以支持Batch的任務，以及DAG的運算。當然與Spark相比Flink還做了其他優化設計，比如更好的JVM記憶體管理（Flink並沒有將全部記憶體交給App管理，避免了在Spark中較頻發的OOM）。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

hadoop

恢復內容開始 1、Hadoop是什麼？ Hadoop是一個Apache基金會所開發的分散式系統基礎框架（Hive、Hbase、spark都是基於hadoop架構進行數據存儲）。主要解決：海量數據存儲和海量數據分析計算問題。廣義上來說，Hadoop通常是指一個更廣泛的概念-Hadoop生態圈。 2 ...
查詢資料庫創建時間

可以執行存儲過程sp_helpdb查詢到資料庫相關信息： EXECUTE sp_helpdb 'Test' GO Source Code 或者查詢view視圖sys.databases： SELECT create_date FROM sys.databases WHERE name = 'Test ...
sql資料庫語言練習，增刪改查

資料庫創建 DROP DATABASE IF EXISTS `sql_invoicing`; CREATE DATABASE `sql_invoicing`; USE `sql_invoicing`; SET NAMES utf8 ; SET character_set_client = utf8m ...
查詢MS SQL的版本號

可以使用全局變數@@VERSION或者是使用SERVERPROPERTY()函數：參考： SELECT @@VERSION SELECT SERVERPROPERTY('Edition') Source Code 根據查詢的結果，有2個值可以參考的： x86 = 32-bit x64 = 64-b ...
獲取Data和Log預設路徑

使用SERVERPROPERTY()來得到Data和Log的預設路徑： InstanceDefaultDataPath和InstanceDefaultLogPath分別返回預設數據和日誌目錄。 DECLARE @ddp sql_variant = SERVERPROPERTY('InstanceDe ...
快速查找對象

在SQL Server Management Studio對象，會隨系統的開發，所產生的對象也會越來越多，我們可以使用SMS的過濾功能來查找對象：參考下麵步驟：按步驟5之後，得到結果：最後，如果想取消過濾，參考： ...
表關聯使用INNER JOIN實現更新功能

準備一些數據，創建2張表，表1為學生表： CREATE TABLE [dbo].[Student] ( [SNO] INT NOT NULL PRIMARY KEY, [Name] NVARCHAR(10) NOT NULL, [Performance] DECIMAL(18,2) NULL ) G ...
流處理引擎（SPE）中的的分散式一致性語義之Exactly-Once和Effectively-Onece區別

At most Onece：最多一次，如果運算元處理事件失敗，事件將不再嘗試該事件。 At Least Onece：至少一次，如果運算元處理事件失敗，運算元會再次嘗試該處理事件，直到有一次成功。 Exactly Once：嚴格一次，通常有兩種方法實現： 1.分散式快照+狀態檢查點，思想就是對比檢查點和分佈 ...