過億雲資源運維管控難?華為雲CloudMap帶你喝著咖啡做運維

来源:https://www.cnblogs.com/huaweiyun/archive/2023/03/31/17275815.html
-Advertisement-
Play Games

摘要:華為雲站點數字化平臺CloudMap攜手華為雲圖引擎GES打造雲服務全棧拓撲,網路流量路徑和雲服務動態依賴等空間關係數據,支撐現網運行態風險識別和分鐘級定位定界,構建業界領先的數字化能力。 本文分享自華為雲社區《構建站點數字孿生,支撐確定性運維:華為雲九洲雲圖CloudMap》,作者:HWCl ...


摘要:華為雲站點數字化平臺CloudMap攜手華為雲圖引擎GES打造雲服務全棧拓撲,網路流量路徑和雲服務動態依賴等空間關係數據,支撐現網運行態風險識別和分鐘級定位定界,構建業界領先的數字化能力。

本文分享自華為雲社區《構建站點數字孿生,支撐確定性運維:華為雲九洲雲圖CloudMap》,作者:HWCloudAI 。

隨著雲計算產業的蓬勃發展,站點數字化進程方興未艾,如何管理雲站點中數目眾多的雲資源和日益複雜的關係數據,通過數字化技術提前識別和發現現網風險,保證現網不出重大事故成為當前SRE面臨的巨大挑戰。面對海量業務和運維數據,如何構建站點級數字孿生平臺,讓數據發揮自身價值為SRE所用,是邁入DataOps的我們亟需解決的問題。為此,華為雲站點數字化平臺CloudMap(以下簡稱“九洲平臺CloudMap”)攜手華為雲圖引擎GES打造雲服務全棧拓撲,網路流量路徑和雲服務動態依賴等空間關係數據,支撐現網運行態風險識別和分鐘級定位定界,構建業界領先的數字化能力。

1、傳統雲資源運維面臨的挑戰

傳統的雲資源的運維存在諸多問題:對風險的管控仍然依賴人工而不是工具系統,風火水電基礎設施在遇到問題時因無法定位影響只能全局管控,使影響面無故擴大。由於缺乏雲資源的拓撲信息,部分資源依賴獲取不到會導致許多問題的擱置……提升雲資源的自動化運維能力,面臨諸多挑戰:

缺乏拓撲信息,依賴分析難

不同的雲資源(如租戶信息、雲服務信息、機櫃機房信息)來源於不同的系統中,從軟體層面的雲服務,到硬體層面的機房機櫃等,都可能出現各種各樣的問題,並且不同的雲服務之間存在著一些依賴關係,一個雲服務出問題可能影響其他雲服務。

自動化程度低,問題定位依賴人工

即使擁有這些依賴關係並存儲在配置管理資料庫中,傳統運維手段也只能定位問題節點,對於問題的爆炸半徑(如問題節點依賴的機櫃機房信息、或者受到其依賴的其他雲服務)往往要依賴手工定位。

運維訴求雜,查詢類型多

此外運維例行維護、故障定位需要進行類型繁多的查詢,既需要有實時性要求的單點深度鏈路查詢支撐運維,也需要全局類鏈路統計等偏離線任務的查詢支撐下游任務。

2、九洲平臺CloudMap的解決方案

圖 1 九洲平臺CloudMap數據概覽

九洲平臺CloudMap攜手華為雲圖引擎GES完成了億級空間數據構建,通過租戶資源拓撲構建、網路流量路徑分析、服務動態依賴發現打造全鏈路可視能力,構築基於站點視角的數字化平臺,實現分鐘級問題定界。

圖 2 雲上資源拓撲關係示意圖

2.1 租戶資源拓撲構建

租戶資源拓撲是將實體抽象成與其大小、形狀無關的“點”,而把連接實體的線路抽象成“線”。CloudMap通過整合各類系統中的數據信息,將華為雲的租戶與其相關租賃的物理機、虛擬機進行關係的構建並存儲到華為雲圖引擎GES中,構建租戶資源拓撲,使得依賴分析成為可能。在租戶出現問題時第一時間能夠通過“線”溯源回對應的租賃機器,並快速定位和解決其中的問題。

2.2 網路流量路徑分析

華為雲作為國內TOP雲服務廠商,每日網路流量數據是比較龐大的,對於網路流量路徑的管理和可視就如百度地圖之於道路交通一樣重要。而在運維場景下,掌握了網路流量路徑可以進一步的補充由基礎設施、基礎服務到高階服務之間的鏈路關係。CloudMap通過將請求流量進行監控,繪製出一個整體、清晰的物理和虛擬網路路徑,可以準確截斷問題的蔓延,提高自動化運維水平。

2.3 服務動態依賴發現

服務依賴發現是發現分散式軟體系統中各組件依賴關係的過程,隨著華為雲的規模擴張,服務往往會被拆分為多個子服務。分散式軟體系統通過不同子服務之間的組合,提供了穩定多樣化的服務。與此同時,由於這些錯綜複雜的依賴關係,也伴隨著很多連鎖反應。其中最經典的案例就是由於單個服務的故障導致其在分散式軟體系統中快速傳播,導致大量的服務失效。在華為雲的日常運維中,掌握各個服務的動態依賴是讓雲穩定可靠不可或缺的一項技術,它關係到了能否快速的找到保障服務的各個關聯服務,避免其他服務引火燒身。CloudMap通過對服務間依賴的動態探測,構造全鏈路微服務依賴關係;同時藉助GES的多跳查詢能力,及時定位單服務問題的影響範圍,避免大量服務失效,解決爆炸半徑求解難的問題。

圖 3 服務資源視圖查詢示例

3、華為雲圖引擎GES助力CloudMap高效檢索圖數據

從數據入庫到計算查詢,華為雲圖引擎GES為九洲平臺CloudMap的存儲、查詢和分析提供了一站式解決方案。

3.1 圖數據建模

  1. 在複雜、龐大數據量的背景下很難使用傳統的結構化資料庫進行數據建模,圖引擎幫助快速構建點到點、點到邊之間的數據建模;
  2. 從基礎設施到雲服務,使用圖引擎構建全棧元數據,創建了過億的點邊關係,同時這些點、邊支持增加屬性機制,讓每個點、邊都能存儲對應的屬性;
  3. 數億級屬性數據實現小時級數據導入能力,保證了數據的時效性。

圖 4 簡化後的元數據截選

3.2 多樣介面能力

華為雲圖引擎GES提供了豐富的API介面查詢能力,CloudMap通過調用GES API,實現介面化的查詢邏輯。目前CloudMap有數十個查詢請求通過GES的Cypher、PipelineQuery、PathQuery等介面完成,這些請求響應和返回格式統一,便於處理,簡化了CloudMap的處理邏輯,降低了運維訴求雜,查詢類型多帶來的業務開發成本。查詢請求的高效響應,讓長鏈路的空間關係數據得以快速查詢並消費。

3.3 計算分析

  • 秒級響應能力:在圖引擎的強大算力支持下,九洲平臺CloudMap實現了多點、多跳查詢的能力,在複雜的空間關係中快速、準確的找到需要的數據及關係。其中利用業界領先的技術,圖引擎將大量6-8跳查詢的響應控制在秒級,使得CloudMap進行實時故障影響面分析、設備依賴關係查詢成為可能;
  • 離線計算能力:在對於需要龐大計算量、大量數據的分析型任務中,圖引擎提供了非同步任務能力,通過提前執行離線查詢/演算法任務並緩存結果,保證了結果獲取的效率,支撐了CloudMap向下游應用提供數據;
  • 強大索引機制:圖引擎支持像關係型資料庫一樣的索引構建能力,可以基於label、屬性等進行索引創建,實現全圖屬性過濾任務的快速響應;
  • 穩定可靠的查詢能力:由於數據量大、查詢鏈路長的原因,在查詢過程中往往會使用大量記憶體,圖引擎通過記憶體管理技術控制總記憶體使用量,讓查詢穩定可靠。

圖 5 CloudMap數據示例

4、九洲平臺CloudMap的應用

作為站點數字化平臺,九洲平臺CloudMap在圖引擎GES上搭建運維圖譜圖模型,建立站點空間數據關係。通過疊加空間數據和運維作業數據,從而打破數據孤島、消除數據斷裂點,形成運維知識圖譜,釋放數據價值,助力故障快速定位定界:

  • 空間數據:通過提供華為雲站點三類空間數據(租戶資源拓撲、網路流量路徑與服務架構依賴),提供從租戶資源實例、物理網路到基礎設施風火水電等全局視野,支撐快速識別服務影響與租戶影響範圍;
  • 知識圖譜:基於以上空間數據,結合告警、變更、監控與事件等核心運維數據,通過整合整理,再提取出故障線索,形成發現即定界能力,提升黑盒和自愈恢復觸達效率。
  • 專家經驗:在各個運維場景下不斷固化專家經驗併進行實踐和沉澱,使得專家經驗真正使能運維數據。

截止目前,CloudMap空間關係數據已覆蓋30+雲服務,在分散式緩存服務DCS、雲資料庫服務RDS、文檔資料庫服務DDS和大數據服務MRS等高階服務故障快恢場景應用落地。除此之外,CloudMap還為站點風控、變更風控、故障快恢等多個運維場景提供了數據底座和計算能力,極大提升了現網運維效率,為華為雲穩定可靠,為SRE確定性運維而持續努力。

 

點擊關註,第一時間瞭解華為雲新鮮技術~


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一:MQTT 1、MQTT協議說明 ( Message Queuing Telemetry Transport)消息隊列傳輸探測,一種基於==發佈/訂閱模式==的輕量級消息傳輸協議 2、MQTT協議來源 在1999年的時候,Andy Stanford-Clark和 Arlen Nipper需要一種通 ...
  • 安裝與配置 1. 安裝Squid代理伺服器軟體: sudo yum install squid 2. 配置Squid代理伺服器: #http_access allow localnet 將其改為: http_access allow all 然後找到以下行: #http_port 3128 將其改為 ...
  • #ubuntu16.04升級python3.7.1教程 準備 sudo apt-get install --reinstall zlibc zlib1g zlib1g-dev sudo apt-get install libffi-dev libssl-dev libreadline-dev -y ...
  • Linux 文件許可權 文件許可權和文件類型共有10個字元組成,這10個字元可以分成三部分 $$ d+rwx+rwx+rw-\d:表示文件類型\2-4位(第一組rwx):表示文件所有者的對文件的許可權\5-7位(第二組rwx):表示文件所有者所在組的用戶對文件的許可權\8-10位(rw-):表示其他用戶對文 ...
  • 一、項目要求 1、創建role,通過role完成項目(可能需要多個role) 2、部署nginx調度器(node2主機) 3、部署2台lnmp伺服器(node3,node4主機) 4、部署mariadb資料庫(node5主機) 主要用的ansible實現自動化部署,ansible的安裝教程省略,控制 ...
  • 昨天看到一個MySQL資料庫設計原則:強烈建議表的主鍵使用整型自增主鍵。為啥呢? 要弄明白這個問題首先需要瞭解MySQL是如何維護數據的,你需要知道以下幾點: MySQL的InnoDB存儲引擎是在B+樹上維護表數據的 B+樹是一種平衡樹 在這棵樹上,每個節點在電腦中叫做數據頁,預設16k 樹的葉子 ...
  • 一、基本概念 ——後續的內容將會記錄作者在計科學習內容 DB(資料庫):存儲數據的倉庫,數據是有組織進行存儲 DBMS(資料庫管理系統):操縱和管理資料庫的大型軟體 SQL:操縱關係資料庫的編程語言,是一套標準 有Mysql,Oracle,SQLSever,PostgreSQl RDBMS(關係型數 ...
  • 簡述 Db2 是一款具有悠久歷史的關係型資料庫,由 IBM 公司開發和維護,廣泛應用於金融級業務場景。 CloudCanal 近期提供了 Db2 為源端的數據遷移同步 功能,用戶可以便利地將 Db2 中數據實時同步到其他資料庫,實現數據更廣泛、更實時的應用。 功能介紹 目標資料庫和能力 | 目標端數 ...
一周排行
    -Advertisement-
    Play Games
  • Dapr Outbox 是1.12中的功能。 本文只介紹Dapr Outbox 執行流程,Dapr Outbox基本用法請閱讀官方文檔 。本文中appID=order-processor,topic=orders 本文前提知識:熟悉Dapr狀態管理、Dapr發佈訂閱和Outbox 模式。 Outbo ...
  • 引言 在前幾章我們深度講解了單元測試和集成測試的基礎知識,這一章我們來講解一下代碼覆蓋率,代碼覆蓋率是單元測試運行的度量值,覆蓋率通常以百分比表示,用於衡量代碼被測試覆蓋的程度,幫助開發人員評估測試用例的質量和代碼的健壯性。常見的覆蓋率包括語句覆蓋率(Line Coverage)、分支覆蓋率(Bra ...
  • 前言 本文介紹瞭如何使用S7.NET庫實現對西門子PLC DB塊數據的讀寫,記錄了使用電腦模擬,模擬PLC,自至完成測試的詳細流程,並重點介紹了在這個過程中的易錯點,供參考。 用到的軟體: 1.Windows環境下鏈路層網路訪問的行業標準工具(WinPcap_4_1_3.exe)下載鏈接:http ...
  • 從依賴倒置原則(Dependency Inversion Principle, DIP)到控制反轉(Inversion of Control, IoC)再到依賴註入(Dependency Injection, DI)的演進過程,我們可以理解為一種逐步抽象和解耦的設計思想。這種思想在C#等面向對象的編 ...
  • 關於Python中的私有屬性和私有方法 Python對於類的成員沒有嚴格的訪問控制限制,這與其他面相對對象語言有區別。關於私有屬性和私有方法,有如下要點: 1、通常我們約定,兩個下劃線開頭的屬性是私有的(private)。其他為公共的(public); 2、類內部可以訪問私有屬性(方法); 3、類外 ...
  • C++ 訪問說明符 訪問說明符是 C++ 中控制類成員(屬性和方法)可訪問性的關鍵字。它們用於封裝類數據並保護其免受意外修改或濫用。 三種訪問說明符: public:允許從類外部的任何地方訪問成員。 private:僅允許在類內部訪問成員。 protected:允許在類內部及其派生類中訪問成員。 示 ...
  • 寫這個隨筆說一下C++的static_cast和dynamic_cast用在子類與父類的指針轉換時的一些事宜。首先,【static_cast,dynamic_cast】【父類指針,子類指針】,兩兩一組,共有4種組合:用 static_cast 父類轉子類、用 static_cast 子類轉父類、使用 ...
  • /******************************************************************************************************** * * * 設計雙向鏈表的介面 * * * * Copyright (c) 2023-2 ...
  • 相信接觸過spring做開發的小伙伴們一定使用過@ComponentScan註解 @ComponentScan("com.wangm.lifecycle") public class AppConfig { } @ComponentScan指定basePackage,將包下的類按照一定規則註冊成Be ...
  • 操作系統 :CentOS 7.6_x64 opensips版本: 2.4.9 python版本:2.7.5 python作為腳本語言,使用起來很方便,查了下opensips的文檔,支持使用python腳本寫邏輯代碼。今天整理下CentOS7環境下opensips2.4.9的python模塊筆記及使用 ...