第3篇:分散式資料庫存儲

来源:https://www.cnblogs.com/lottu/archive/2019/12/04/11982028.html
-Advertisement-
Play Games

一、分散式資料庫存儲 在前面的章節;GreenPlum資料庫是分散式架構資料庫;表的數據分佈在segment節點。那麼表的數據根據什麼策略來分佈的? GreenPlum資料庫性能依賴於跨數據節點均勻分佈 二、分佈策略 在GreenPlum資料庫在創建表時可以指定分佈策略:哈希分佈(DISTRIBUT ...


一、分散式資料庫存儲

在前面的章節;GreenPlum資料庫是分散式架構資料庫;表的數據分佈在segment節點。那麼表的數據根據什麼策略來分佈的?

GreenPlum資料庫性能依賴於跨數據節點均勻分佈

  1. GreenPlum資料庫查詢響應時間由所有數據節點完成時間來度量。系統只能跟最慢數據節點完成時間來決定。如果數據存儲傾斜。一個數據節點比其他節點需要花更多的時間來處理數據,數據存儲傾斜只會存在哈希分佈的情況。
  2. 在GreenPlum資料庫中;表關聯查詢最常見。若兩個或者多個表關聯的欄位非分佈鍵或者採用隨機分佈。在其他分散式架構這表之間的關係不是親和表。要執行連接,匹配的行必須位於同一節點上。 如果數據未在同一連接列上分發,則其中一個表所需的行將動態重新分發到其他節點。 有些情況下,執行廣播動作,每個節點將其各個行發送到所有其他節點上,而不是每個節點重新哈希數據並根據哈希值將行發送到適當的節點的重新分配。
  3. 是不是還有一種複製表?在GreenPlum6.0以上的版本支持複製表。正好避免2中的廣播或者重分佈動作。

二、分佈策略

在GreenPlum資料庫在創建表時可以指定分佈策略:哈希分佈(DISTRIBUTED BY)、隨機分佈(DISTRIBUTED RANDOMLY)、複製分佈(DISTRIBUTED REPLICATED)。

  • 哈希分佈:需要指定分佈鍵。會根據分佈鍵的哈希值分配到對應的segment數據節點。相近的值會分配到同一個數據節點。
  • 隨機分佈:隨機分佈無需指定分佈鍵。這樣無法保證表中欄位的唯一性。因為同個值可能會分佈在不同的數據節點。
  • 複製分佈:在GreenPlum6.0以上的版本支持複製表;Greenplum資料庫會將每個表行分發到每個節點實例。 複製表的數據均勻分佈,因為每個節點具有相同的行。

如何選擇分佈策略呢?我們現在來分析

2.1、單表查詢情況

結果驗證:好像沒區別

 2.2、表關聯查詢

現在我們創建一個表t_lottu;也插入10000條記錄

lottu=# truncate table t_lottu;
TRUNCATE TABLE
lottu=# insert into t_lottu select generate_series(1,10000),'lottu';
INSERT 0 10000

隨機策略:通過t_random_01與表t_lottu關聯

 哈希策略:

 通過上兩圖比較:可以判斷哈希策略略好;我這環境只有2個segment節點。效果不明顯。我們可以明顯可以看到在隨機策略查詢計劃裡面那有Redistribute Motion。 這個在後面講解查詢計劃。這個叫數據重分佈。後須講解

為什麼隨機策略會Redistribute Motion?

在哈希策略中;同樣的分佈鍵的值肯定會分佈到同一個segment節點。所以上面表t_hash_01和表t_lottu的分佈鍵都是id欄位。所就可以在每個Segment節點關聯後,Segment節點把結果發送到Master節點,再由Master節點彙總,將最終的結果返還客戶端。而隨機分佈則不能保證同樣分佈鍵的數據分佈在同一個Segment節點上,這樣在表關聯的時候,就需要將數據發送到所有Segment節點去做運算,這樣網路傳輸和大量數據運算都需要較長的時間,性能非常低下。所以在關聯的時候不建議使用隨機策略。

這裡有一個問題了;是不是哈希策略查詢計劃就不會出現Redistribute Motion/Broadcast Motion(廣播)。答案是錯誤的。若分佈鍵跟關聯的欄位不一致的情況。就會出現。分布鍵跟關聯的欄位是否一致?在其它分散式架構叫表的親和度。

2.3、數據分佈傾斜的問題

既然不建議使用隨機策略;那我們都是用哈希策略不就好了嗎?

哈希策略是同樣的分佈鍵的值肯定會分佈到同一個segment節點。有可能造成數據分佈傾斜的問題。在隨機策略不會出現這種情況。

數據分佈傾斜的問題;待定。

-- 重新分佈表數據

2.4、數據複製分佈

在GreenPlum6.0版本中支持複製表。作用消除多表關聯中Redistribute Motion/Broadcast Motion帶來的性能消耗。也可用於單表的負載均衡。

在用於單表查詢;可以看出只需查詢一個節點即可。

 用於多表關聯消除多表關聯中Redistribute Motion/Broadcast Motion帶來的性能消耗 

 三、數據是如何存儲

創建表的DDL語句還可以通過with子句來定義表的存儲類型

where storage_parameter is:
   APPENDONLY={TRUE|FALSE}
   BLOCKSIZE={8192-2097152}
   ORIENTATION={COLUMN|ROW}
   COMPRESSTYPE={ZLIB|QUICKLZ|RLE_TYPE|NONE}
   COMPRESSLEVEL={0-9}
   CHECKSUM={TRUE|FALSE}
   FILLFACTOR={10-100}
   OIDS[=TRUE|FALSE]
where column_constraint is:

在前面有說到

參考:https://github.com/digoal/blog/blob/master/201708/20170818_02.md

Greenplum資料庫可以使用追加優化(append-optimized,AO)的存儲個事來批量裝載和讀取數據,並且能提供HEAP表上的性能優勢。 追加優化的存儲為數據保護、壓縮和行/列方向提供了校驗和。行式或者列式追加優化的表都可以被壓縮。
在創建表指定 APPENDONLY = TRUE為AO表。若不指定或者APPENDONLY = FALSE為堆表。

3.1、堆表

堆表是PostgreSQL資料庫原生存儲格式,GreenPlum預設的存儲格式。堆表存儲在OLTP類型負載下表現最好,這種環境中數據會在初始載入後被頻繁地修改。 UPDATE和DELETE操作要求存儲行級版本信息來確保可靠的資料庫事務處理。 堆表最適合於較小的表,例如維度表,它們在初始載入數據後會經常被更新。

多適合用於OLTP系統。但GreenPlum常定位是用於OLAP系統。為了更適合OLAP系統。GreenPlum提供來AO表

應用場景:

堆表是萬油金;只是有些場景其他存儲方式更加適合。更能提升性能。

3.2、AO表

AO表在4.3版本之前取意為(APPEND-ONLY,AO)。根據其意義只能追加,在4.3版本之後取意為(append-optimized,AO)追加優化。支持update/delete。跟堆表一樣。但實現原理不一樣。刪除更新數據時,通過另一個BITMAP文件來標記被刪除的行,通過bit以及偏移對齊來判定AO表上的某一行是否被刪除。

追加優化表存儲在數據倉庫環境中的非規範表表現最好。 非規範表通常是系統中最大的表。 事實表通常成批地被載入並且被只讀查詢訪問。 將大型的事實表改為追加優化存儲模型可以消除每行中的更新可見性信息負擔,這可以為每一行節約大概20位元組。 這可以得到一種更加簡潔並且更容易優化的頁面結構。 追加優化表的存儲模型是為批量數據裝載優化的,因此不推薦單行的INSERT語句

AO支持壓縮以及列存

應用場景:

  • 使用列存、壓縮數據使用AO表。
  • 數據批量寫入使用AO表

3.3、行存和列存

ORIENTATION=COLUMN可以指定創建列存的AO表。列存的表只能是AO表。

  • 行存:以行形式存儲表中。一行數據存在一個數據文件中。適用於具有許多迭代事務的OLTP類型的工作負載以及一次需要多列的單行,因此檢索是高效的
  • 列存:以列為形式組織存儲,每列對應一個或一批文件。而且壓縮比例比較高。適合於在少量列上計算數據聚集的數據倉庫負載,或者是用於需要對單列定期更新但不修改其他列數據的情況

若一個寬表。在讀取某一個列數據;行存需要把匹配的列的所在的行數據塊都要掃描一遍。整好列存可以避免。但是帶來的問題是一個表對應多個數據文件。

行存與列存的選擇以及轉換方法

類型

創建選項

適用場景

堆表

預設/APPENDONLY = FALSE

適合OLTP系統,適合單條記錄插入,適合小表

AO表

APPENDONLY = TRUE

適合OLAP系統,同時支持壓縮。適合批量記錄插入

行存

ORIENTATION=ROW

適合小量數據、多列查詢

列存

ORIENTATION=COLUMN

適合OLAP系統、寬表

備註:以上為本人理解;若有不對的地方;煩請指出。謝謝!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 很多用於當SQL Server2017 安裝完成後開始菜單找不到啟動項無法啟動SQL Server2017 其實你只需要安裝一下SSMS-Setup-CHS就可以了 安裝完成之後就有了 SSMS-Setup-CHS 下載鏈接: 鏈接:https://pan.baidu.com/s/18EcH16Ok ...
  • 函數式編程(Functional Programming)是一種編程風格,它是相對於指令式編程風格而言的,常見的面向對象編程就是指令式編程風格。 指令式編程是面向電腦硬體的抽象,有變數(對應著存儲單元),賦值語句(獲取、存儲指令),表達式(記憶體引用和算術運算)和控制語句(跳轉語句)。 而函數式編程 ...
  • 1、到Navicat官網下載使用版本進行安裝,具體操作不再詳述。Navcat官網下載鏈接:http://www.navicat.com.cn/download/navicat-premium ; 2、到GitHub下載DoubleLabyrinth大神發佈的Navicat Keygen,具體操作不再 ...
  • 一 資料庫初識 1.1 什麼是資料庫 資料庫(DataBase,簡稱DB),簡而言之可視為電子化的文件櫃 存儲電子文件的處所,用戶可以對文件中的數據運行新增,截取,更新,刪除等操作. 所謂資料庫是以一定方式儲存在一起,能予多個用戶 共用,具有儘可能小的冗餘度,與應用程式彼此獨立的數據集合. 資料庫的 ...
  • 最近項目遇到根據關鍵字匹配度排序,要求關鍵字匹配相等排在第一,關鍵字匹配最左邊排第二,關鍵字匹配最右邊排第三,關鍵字匹配中間排最後;遇到這樣查詢排序場景,用MySQL如何實現?用搜索引擎Elasticsearch如何實現? 方法一:按照上面需求用聯合查詢,可以實現方案,但是當數據量很大時,聯合查詢效 ...
  • 本文探討如何使用 RocketMQ Binder 完成 Spring Cloud 應用消息的訂閱和發佈。 介紹 "RocketMQ" 是一款開源的分散式消息系統,基於高可用分散式集群技術,提供低延時的、高可靠的消息發佈與訂閱服務,廣泛應用於多個領域,包括非同步通信解耦、企業解決方案、金融支付、電信、電 ...
  • 由於程式bug,導致之前很多數據入庫後信息不全,好在有基礎信息表,可以通過基礎信息表更新缺失欄位信息 1、通過 inner join語法實現多關聯更新 update a set a.name = b.name from product_detail a inner join product_base ...
  • 在公司隨便找3台測試機搭個MHA,下麵這個問題折騰了三天,之前沒遇到過,查了OS版本發現一致,可能是不同人弄的OS吧,知道是cpan的問題就是搞不定,鬱悶。。。[root@test247 ~]# masterha_check_repl --conf=/etc/masterha/app1.cnfWed ...
一周排行
    -Advertisement-
    Play Games
  • 概述:在C#中,++i和i++都是自增運算符,其中++i先增加值再返回,而i++先返回值再增加。應用場景根據需求選擇,首碼適合先增後用,尾碼適合先用後增。詳細示例提供清晰的代碼演示這兩者的操作時機和實際應用。 在C#中,++i 和 i++ 都是自增運算符,但它們在操作上有細微的差異,主要體現在操作的 ...
  • 上次發佈了:Taurus.MVC 性能壓力測試(ap 壓測 和 linux 下wrk 壓測):.NET Core 版本,今天計劃準備壓測一下 .NET 版本,來測試並記錄一下 Taurus.MVC 框架在 .NET 版本的性能,以便後續持續優化改進。 為了方便對比,本文章的電腦環境和測試思路,儘量和... ...
  • .NET WebAPI作為一種構建RESTful服務的強大工具,為開發者提供了便捷的方式來定義、處理HTTP請求並返迴響應。在設計API介面時,正確地接收和解析客戶端發送的數據至關重要。.NET WebAPI提供了一系列特性,如[FromRoute]、[FromQuery]和[FromBody],用 ...
  • 原因:我之所以想做這個項目,是因為在之前查找關於C#/WPF相關資料時,我發現講解圖像濾鏡的資源非常稀缺。此外,我註意到許多現有的開源庫主要基於CPU進行圖像渲染。這種方式在處理大量圖像時,會導致CPU的渲染負擔過重。因此,我將在下文中介紹如何通過GPU渲染來有效實現圖像的各種濾鏡效果。 生成的效果 ...
  • 引言 上一章我們介紹了在xUnit單元測試中用xUnit.DependencyInject來使用依賴註入,上一章我們的Sample.Repository倉儲層有一個批量註入的介面沒有做單元測試,今天用這個示例來演示一下如何用Bogus創建模擬數據 ,和 EFCore 的種子數據生成 Bogus 的優 ...
  • 一、前言 在自己的項目中,涉及到實時心率曲線的繪製,項目上的曲線繪製,一般很難找到能直接用的第三方庫,而且有些還是定製化的功能,所以還是自己繪製比較方便。很多人一聽到自己畫就害怕,感覺很難,今天就分享一個完整的實時心率數據繪製心率曲線圖的例子;之前的博客也分享給DrawingVisual繪製曲線的方 ...
  • 如果你在自定義的 Main 方法中直接使用 App 類並啟動應用程式,但發現 App.xaml 中定義的資源沒有被正確載入,那麼問題可能在於如何正確配置 App.xaml 與你的 App 類的交互。 確保 App.xaml 文件中的 x:Class 屬性正確指向你的 App 類。這樣,當你創建 Ap ...
  • 一:背景 1. 講故事 上個月有個朋友在微信上找到我,說他們的軟體在客戶那邊隔幾天就要崩潰一次,一直都沒有找到原因,讓我幫忙看下怎麼回事,確實工控類的軟體環境複雜難搞,朋友手上有一個崩潰的dump,剛好丟給我來分析一下。 二:WinDbg分析 1. 程式為什麼會崩潰 windbg 有一個厲害之處在於 ...
  • 前言 .NET生態中有許多依賴註入容器。在大多數情況下,微軟提供的內置容器在易用性和性能方面都非常優秀。外加ASP.NET Core預設使用內置容器,使用很方便。 但是筆者在使用中一直有一個頭疼的問題:服務工廠無法提供請求的服務類型相關的信息。這在一般情況下並沒有影響,但是內置容器支持註冊開放泛型服 ...
  • 一、前言 在項目開發過程中,DataGrid是經常使用到的一個數據展示控制項,而通常表格的最後一列是作為操作列存在,比如會有編輯、刪除等功能按鈕。但WPF的原始DataGrid中,預設只支持固定左側列,這跟大家習慣性操作列放最後不符,今天就來介紹一種簡單的方式實現固定右側列。(這裡的實現方式參考的大佬 ...