Hadoop High Availability高可用

来源:https://www.cnblogs.com/jifengblog/archive/2018/07/13/9307324.html
-Advertisement-
Play Games

HDFS HA Namenode HA 詳解 hadoop2.x 之後,Clouera 提出了 QJM/Qurom Journal Manager,這是一個基於 Paxos 演算法(分散式一致性演算法)實現的 HDFS HA 方案,它給出了一種較好的解決思路和方案,QJM 主要優勢如下: 不需要配置額外 ...


HDFS HA

Namenode HA  詳解  

  hadoop2.x 之後,Clouera 提出了 QJM/Qurom Journal Manager,這是一個基於 Paxos 演算法(分散式一致性演算法)實現的 HDFS HA 方案,它給出了一種較好的解決思路和方案,QJM 主要優勢如下:

  不需要配置額外的高共用存儲,降低了複雜度和維護成本。

  消除 spof(單點故障)。

  系統魯棒性(Robust)的程度可配置、可擴展。

 

  基本原理就是用 2N+1 台 JournalNode 存儲 EditLog,每次寫數據操作有>=N+1 返回成功時即認為該次寫成功,數據不會丟失了。當然這個演算法所能容忍的是最多有 N台機器掛掉,如果多於 N 台掛掉,這個演算法就失效了。這個原理是基於 Paxos 演算法。

  在 HA 架構裡面 SecondaryNameNode 已經不存在了,為了保持 standby NN 時時的與 Active NN 的元數據保持一致,他們之間交互通過 JournalNode 進行操作同步。

  任何修改操作在 Active NN 上執行時,JournalNode 進程同時也會記錄修改 log到至少半數以上的 JN 中,這時 Standby NN 監測到 JN 裡面的同步 log 發生變化了會讀取 JN 裡面的修改 log,然後同步到自己的目錄鏡像樹裡面,如下圖:

 

 

  當發生故障時,Active 的 NN 掛掉後,Standby NN 會在它成為 Active NN 前,讀取所有的 JN 裡面的修改日誌,這樣就能高可靠的保證與掛掉的 NN 的目錄鏡像樹一致,然後無縫的接替它的職責,維護來自客戶端請求,從而達到一個高可用的目的。

  在 HA 模式下,datanode 需要確保同一時間有且只有一個 NN 能命令 DN。為此:每個 NN 改變狀態的時候,向 DN 發送自己的狀態和一個序列號。

  DN 在運行過程中維護此序列號,當 failover 時,新的 NN 在返回 DN 心跳時會返回自己的 active 狀態和一個更大的序列號。DN 接收到這個返回則認為該 NN 為新的 active。

  如果這時原來的 active NN 恢復,返回給 DN 的心跳信息包含 active 狀態和原來的序列號,這時 DN 就會拒絕這個 NN 的命令。

 


 

 

Failover Controller

 

  HA 模式下,會將 FailoverController 部署在每個 NameNode 的節點上,作為一個單獨的進程用來監視 NN 的健康狀態。 r FailoverController 主要包括三個組件: 

    HealthMonitor: 監控 NameNode 是否處於 unavailable 或 unhealthy 狀態。當前通過RPC 調用 NN 相應的方法完成。

    ActiveStandbyElector: 監控 NN 在 ZK 中的狀態。

    ZKFailoverController: 訂閱 HealthMonitor 和 ActiveStandbyElector 的事件,並管理 NN 的狀態,另外 zkfc 還負責解決 fencing(也就是腦裂問題)。

  上述三個組件都在跑在一個 JVM 中,這個 JVM 與 NN 的 JVM 在同一個機器上。但是兩個獨立的進程。一個典型的 HA 集群,有兩個 NN 組成,每個 NN 都有自己的 ZKFC 進程。

 

 

 

ZKFailoverController 主要職責:

  • 健康監測:周期性的向它監控的 NN 發送健康探測命令,從而來確定某個 NameNode是否處於健康狀態,如果機器宕機,心跳失敗,那麼 zkfc 就會標記它處於一個不健康的狀態
  • 會話管理:如果 NN 是健康的,zkfc 就會在 zookeeper 中保持一個打開的會話,如果 NameNode 同時還是 Active 狀態的,那麼 zkfc 還會在 Zookeeper 中占有一個類型為短暫類型的znode,當這個 NN 掛掉時,這個 znode 將會被刪除,然後備用的NN 將會得到這把鎖,升級為主 NN,同時標記狀態為 Active
  • 當宕機的 NN 新啟動時,它會再次註冊 zookeper,發現已經有 znode 鎖了,便會自動變為 Standby 狀態,如此往複迴圈,保證高可靠,需要註意,目前僅僅支持最多配置 2 個 NN
  • master 選舉:通過在 zookeeper 中維持一個短暫類型的 znode,來實現搶占式的鎖機制,從而判斷那個 NameNode 為 Active 狀態

 



 

 

 Yarn HA

 

  Yarn 作為資源管理系統,是上層計算框架(如 MapReduce,Spark)的基礎。在 Hadoop2.4.0 版本之前,Yarn 存在單點故障(即 ResourceManager 存在單點故障),一旦發生故障,恢復時間較長,且會導致正在運行的 Application 丟失,影響範圍較大。從 Hadoop 2.4.0版本開始,Yarn 實現了 ResourceManager HA,在發生故障時自動 failover,大大提高了服務的可靠性。

  ResourceManager(簡寫為 RM)作為 Yarn 系統中的主控節點,負責整個系統的資源管理和調度,內部維護了各個應用程式的 ApplictionMaster 信息、NodeManager(簡寫為 NM)信息、資源使用等。由於資源使用情況和 NodeManager 信息都可以通過 NodeManager 的心跳機制重新構建出來,因此只需要對 ApplicationMaster 相關的信息進行持久化存儲即可

  在一個典型的 HA 集群中,兩台獨立的機器被配置成 ResourceManger。在任意時間,有且只允許一個活動的 ResourceManger,另外一個備用。切換分為兩種方式:

    手動切換:在自動恢復不可用時,管理員可用手動切換狀態,或是從 Active 到 Standby,或是從 Standby 到 Active。

    自動切換:基於 Zookeeper,但是區別於 HDFS 的 HA,2 個節點間無需配置額外的 ZFKC守護進程來同步數據

 

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1.新建html2與html3兩個網站項目測試,而html是本身就有,記得到/etc/hosts 添加dns記錄 2.修改nginx.conf文件 3.測試訪問 中間用到一些nginx的命令,就不截圖,可以查看下麵 ****************************************** ...
  • 架構 前端展示 索引搜索 日誌緩存 Elastash redis Waiting for set levelDesc [ERROR] [2018 06 30 17:41:56][com.iba.boss.pubsub.listener.core.ListenerTemplate]BmcLevelDe ...
  • 視頻課程:李興華 Oracle從入門到精通視頻課程 學習者:陽光羅諾 視頻來源:51CTO學院 總體內容: 一、認識多表查詢 所謂的多表查詢就是同時從多張表中取出數據並且顯示的一種操作。語法只是做了一些簡單的修改。 語法格式: 於是我們就可以按照這樣子的語法結構來實現多表查詢。本次將會使用emp和d ...
  • SQL代表結構化查詢語言,是一種在關係資料庫系統中查詢和管理數據的標準語言。sql語句也有幾個類別,包括定義語言(DDL),數據操作語言(DML),數據控制語言(DCL)。 DDL包括create,alter,drop等語句,DML用於查詢和修改包括select,insert,update,dele ...
  • [20180713]關於hash join 測試中一個疑問.txt--//上個星期做的測試,鏈接: http://blog.itpub.net/267265/viewspace-2157424/--//前幾天在家裡12c上重覆測試,才發現自己沒註意細節問題.1.環境:SCOTT@test01p> @ ...
  • 這次上機實習其實是比較順利的,因為之前在上課時就已經下載安裝好了的,在課後也有自己試驗過。但是在實習時還是有一些小小的麻煩,在查看資料庫,輸入指令show databases時少打了一個‘s’,導致一直錯誤,問了同學也沒解決,後面到網上查閱時才發現了這個問題。另外,在上機時,因為粗心將指令打錯而導致... ...
  • 為什麼要有集群 上一篇隨筆說了基本的主從概念以及搭建,一主可以有多從,如果同時訪問的量過大(1000w)或者發生自然災難,主服務肯定就會掛掉,數據服務就掛掉了 大公司都會有很多的伺服器(華東地區、華南地區、華中地區、華北地區、西北地區、西南地區、東北地區、台港澳地區機房) 集群的概念 集群是一組相互 ...
  • 一、備份namenode的元數據 namenode中的元數據非常重要,如丟失或者損壞,則整個系統無法使用。因此應該經常對元數據進行備份,最好是異地備份。 1、將元數據複製到遠程站點 (1)以下代碼將secondary namenode中的元數據複製到一個時間命名的目錄下,然後通過scp命令遠程發送到 ...
一周排行
    -Advertisement-
    Play Games
  • .Net8.0 Blazor Hybird 桌面端 (WPF/Winform) 實測可以完整運行在 win7sp1/win10/win11. 如果用其他工具打包,還可以運行在mac/linux下, 傳送門BlazorHybrid 發佈為無依賴包方式 安裝 WebView2Runtime 1.57 M ...
  • 目錄前言PostgreSql安裝測試額外Nuget安裝Person.cs模擬運行Navicate連postgresql解決方案Garnet為什麼要選擇Garnet而不是RedisRedis不再開源Windows版的Redis是由微軟維護的Windows Redis版本老舊,後續可能不再更新Garne ...
  • C#TMS系統代碼-聯表報表學習 領導被裁了之後很快就有人上任了,幾乎是無縫銜接,很難讓我不想到這早就決定好了。我的職責沒有任何變化。感受下來這個系統封裝程度很高,我只要會調用方法就行。這個系統交付之後不會有太多問題,更多應該是做小需求,有大的開發任務應該也是第二期的事,嗯?怎麼感覺我變成運維了?而 ...
  • 我在隨筆《EAV模型(實體-屬性-值)的設計和低代碼的處理方案(1)》中介紹了一些基本的EAV模型設計知識和基於Winform場景下低代碼(或者說無代碼)的一些實現思路,在本篇隨筆中,我們來分析一下這種針對通用業務,且只需定義就能構建業務模塊存儲和界面的解決方案,其中的數據查詢處理的操作。 ...
  • 對某個遠程伺服器啟用和設置NTP服務(Windows系統) 打開註冊表 HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\W32Time\TimeProviders\NtpServer 將 Enabled 的值設置為 1,這將啟用NTP伺服器功 ...
  • title: Django信號與擴展:深入理解與實踐 date: 2024/5/15 22:40:52 updated: 2024/5/15 22:40:52 categories: 後端開發 tags: Django 信號 松耦合 觀察者 擴展 安全 性能 第一部分:Django信號基礎 Djan ...
  • 使用xadmin2遇到的問題&解決 環境配置: 使用的模塊版本: 關聯的包 Django 3.2.15 mysqlclient 2.2.4 xadmin 2.0.1 django-crispy-forms >= 1.6.0 django-import-export >= 0.5.1 django-r ...
  • 今天我打算整點兒不一樣的內容,通過之前學習的TransformerMap和LazyMap鏈,想搞點不一樣的,所以我關註了另外一條鏈DefaultedMap鏈,主要調用鏈為: 調用鏈詳細描述: ObjectInputStream.readObject() DefaultedMap.readObject ...
  • 後端應用級開發者該如何擁抱 AI GC?就是在這樣的一個大的浪潮下,我們的傳統的應用級開發者。我們該如何選擇職業或者是如何去快速轉型,跟上這樣的一個行業的一個浪潮? 0 AI金字塔模型 越往上它的整個難度就是職業機會也好,或者說是整個的這個運作也好,它的難度會越大,然後越往下機會就會越多,所以這是一 ...
  • @Autowired是Spring框架提供的註解,@Resource是Java EE 5規範提供的註解。 @Autowired預設按照類型自動裝配,而@Resource預設按照名稱自動裝配。 @Autowired支持@Qualifier註解來指定裝配哪一個具有相同類型的bean,而@Resourc... ...