這次,聽人大教授講講分散式資料庫的多級一致性|TDSQL 關鍵技術突破

来源:https://www.cnblogs.com/tencentdb/archive/2022/11/16/16895862.html
-Advertisement-
Play Games

近年來,憑藉高可擴展、高可用等技術特性,分散式資料庫正在成為金融行業數字化轉型的重要支撐。分散式資料庫如何在不同的金融級應用場景下,在確保數據一致性的前提下,同時保障系統的高性能和高可擴展性,是分散式資料庫的一個核心技術挑戰。 針對以上分散式一致性的困境,中國人民大學-騰訊協同創新實驗室研究提出“多 ...


近年來,憑藉高可擴展、高可用等技術特性,分散式資料庫正在成為金融行業數字化轉型的重要支撐。分散式資料庫如何在不同的金融級應用場景下,在確保數據一致性的前提下,同時保障系統的高性能和高可擴展性,是分散式資料庫的一個核心技術挑戰

針對以上分散式一致性的困境,中國人民大學-騰訊協同創新實驗室研究提出“多級一致性”的事務處理理念。該技術包含嚴格可串列化、順序可串列化、可串列化三大隔離級別,可針對不同應用場景要求,極大地平衡性能與一致性要求,滿足金融及各類企業場景的分散式事務處理需求。該項技術已應用於騰訊分散式資料庫TDSQL產品中,確保TDSQL按需提供數據一致性,並確保數據無異常。TDSQL是當前國內率先進入國有大型銀行核心系統正式投產的國產分散式資料庫,該項技術是其中的關鍵支撐。

這次,中國人民大學教授、博士生導師盧衛老師為大家全面解鎖分散式資料庫的多級一致性及構建技術!

背景

從本質上看,資料庫是長期存儲在電腦內、有組織的、可共用的數據集合。當多個用戶併發操作資料庫時,事務調度的可串列化是併發控制的正確性理論。但該觀點在當前卻受到了挑戰。Daniel J. Abadi 在2019年發佈的一篇博客中提到,以往學界普遍認為可串列化是資料庫隔離級別的黃金標準,但經過研究,他發現實際上嚴格可串列化才是黃金標準。即在該理論中,可串列化仍存在一定的問題,只有嚴格可串列化才能做到沒有問題。

file

在過去,為什麼可串列化不存在問題?原因有兩方面:

一是對集中式資料庫而言,可串列化其實就是嚴格可串列化,兩者之間並沒有區別。
二是對於分佈資料庫而言,如果資料庫里有唯一的事務調度器或協調器,這兩者之間也可等價。

file

當來到去中心化的分散式資料庫時代,我們希望分散式資料庫產品可在全球部署。全球部署意味著範圍更大,如果仍然依賴集中式調度,性能和可擴展性都無法滿足應用的需求,因此需要在系統當中安排多個事務協調者進行協調。

file

回顧發展歷程,20年前的資料庫的標註配置為業務系統+主庫+備庫。業務系統訪問主庫,主庫通過同步協議使數據在主庫和備庫之間保持一致性。在這一階段,集中式的IBM小型機、Oracle資料庫、EMC存儲(IOE)在處理小規模的數據場景時較為合適。但這種架構模式的問題在於,當數據量比較大或者業務場景比較密集時,集中式主庫就會成為整個系統的負擔。

file

到了第二階段,典型的做法是分庫分表,將業務按照主庫進行拆分,因為業務系統建立在主庫之上,因此實現了業務的隔離,TDSQL的早期版本也採用了這種做法。這種做法的前提假設是數據/業務能夠很好地進行切分,從而解決前一階段業務不可擴展的問題。但當業務系統進行跨庫訪問時,就會帶來新的問題。

file

為瞭解決上述問題,我們來到了第三階段,即去中心化的分散式資料庫階段。在該階段,資料庫中設置了更多的事務調度器,由調度器來對每個節點數據上的子事務進行事務提交,每個事務調度器都可以獨立地去處理事務。但這也會產生新的問題,即不同協調者之間如何協調。

file

問題與挑戰

我們以下圖中的例子來說明分散式資料庫中不同協調者之間如何協調的問題。假設有一個家庭賬戶,丈夫和妻子共用,都可以進行讀和寫。丈夫在 ATM機上存了 100 塊,存完後通知妻子,但妻子有可能看不到丈夫存的這筆錢。因為這是一個多協調器的架構,設備1交由協調者1來進行協調,妻子發起的這個事務可能由另外一個協調者去發起,這就會出現協調者之間AMG時鐘不統一的問題。

file

該事務發起的時間雖然在 2:01 PM後,但因為協調的時間偏慢,所以此時1:59 PM的這個時鐘去讀 2:01 PM的時間戳提交的這個數據,就會出現讀不到的情況。

file

形象地說,即有兩個協調器,其中一個協調器執行了事務 T0 、T1,T1 事務已經提交成功。這時協調者 2 發起了事務T2,當T2 查詢餘額時,我們發現時鐘比 T1 提交的時鐘來得小,所以讀不到T1。但實際上,是先執行 T0 再執行 T2 再執行T1,屬於可串列化。但這又會跟前述提到的執行相違背,因為既然T1已經提交, T2理應可以讀到,但結果沒有讀到。因此Daniel J. Abadi 的可串列化存在一定的問題,讀不到最新數據。

file

這個問題的本質是保序,而嚴格可串化的本質是線性一致性加上可串列化。從事務角度來看,根據線性一致性要求,如果T0事務已經結束,T1才開始,則T1要讀到T0的寫;同理,T1已經完成了T2才開始,T2要讀到T1的寫。雖然這裡的 T0、T2、T1 是可串列化,但違背線性一致性的要求,只有T0→ T1→ T2時才是正確的,這就是保序。

因此,這裡的實時序就是T0 結束後開始T1事務,T0 排在T1的前面;T0 完成後T2才開始,T0 排在T2的前面;T1結束後T2才開始,T1排在T2的前面。因此核心理念就是保序,即在原來可串列化全序的基礎上,對可串列化的序做約束,這個約束是線性一致性所造成的。

file

嚴格串列化雖然能保證數據的準確性,但也帶來了較多的問題。以Google Spanner為例,Google Spanner支持嚴格可串列化,但是嚴格可串列化要求有一個原子鐘,或者有一個中心授時器(本質上是因為協調器和協調器之間缺少一個協調),因而導致性能較低,難以被廣泛應用於實際業務場景中。

file

多級可串列化建模

基於上述情況,我們希望可以找到一個中間環節,在一致性上比可串列化級別高、比嚴格串列化級別低;在性能上接近可串列化、優於嚴格可串列化。針對這個需求,我們提出了多級可串列化建模,本質是在可串列化的基礎上加了序。

線性一致性是併發系統中一致性最強的,比它弱一點的有順序一致性、因果一致性、寫讀一致性、最終一致性等。我們嘗試將可串列化與它們進行結合,最終發現只有可串列化和線性一致性以及可串列化和順序一致性可以實現結合。因為可串列化要求全序,但因果一致性不要求全序,因此無法結合。

file

我們的做法是將可串列化+線性一致性,從而得到嚴格可串列化;可串列化+順序一致性,從而得到順序可串列化。所以我們提出了嚴格可串列化、順序可串列化、可串列化這三個隔離級別。

file

多級可串列化實現的核心理念就是保序。我們定義了五個序:

  • 實時序,即原來的線性一致性要求。
  • 程式序,比如代碼中的session order,session 連接後,事務之間就變成了T0,T0 提交後才能提交T1,這就是程式序。

file

  • 寫讀序,即如果T2讀取了T1的寫,T1必定排在T2 之前。
  • 因果序,指寫讀序和程式序之間形成的閉包。
  • 寫合法,假設有一個x數據項,T1寫了數據項x1,T3 寫了數據項x2,但如果T2 讀了一個x ,就必須要求T2 要緊跟T1,因為它不能緊跟在T3 後;如果它排在T3 後,則它讀的應該是 x2 ,因此這時T1和T3形成了一個序,要求T2要排在T3 前。

file

有了序後,我們重新定義了事務的可串列化理論,即可串列化等於寫讀序的傳遞閉包+寫合法;可串列化+順序一致性,即寫讀序+程式序的傳遞閉包,再加寫合法;嚴格可串列化就是寫讀序+實時序的傳遞閉包,加寫合法。因此可以理解為所有的一致性模型就是保序。

file

該理論成果已經應用於騰訊分散式資料庫TDSQL產品當中,使得TDSQL成為全球範圍內首個能夠具備嚴格可串列化、順序可串列化、可串列化三大隔離級別的國產分散式資料庫,還可針對不同應用場景要求,極大地平衡性能與一致性要求,滿足金融及各類企業場景的分散式事務處理需求。

併發控制演算法

併發控制演算法-雙向動態時間戳調整的實現如下圖所示。圖中有兩個協調者P1和P2,協調者P1有兩個事務T1和T3,協調者P2有T2 和T4 。我們先定義順序,T1和T3之間有一個session order或program order,T2和T4也存在一個program order,我們將它preserve 出來。

file

其中還存在寫讀序,像T1和T4之間,T1寫了x1,T4讀了x1,此時就存在一個寫讀序,所以要把T1和T4的order preserve出來。同時還存在寫合法,因為T3 讀了y 數據項,然後 T2 寫了y數據項, 但是基於可串列化理論,R3讀取的是y0,沒有讀取到y2,如果讀到y2,這時T3就必須排在T2後。因為此時讀不到y2 ,要排在T2前面,因此T3和 T2之間存在寫合法。在整個執行過程中,我們要保證必須存在保序。

主要思想是每次事務提交時,都需要判斷能否違背事務的先後順序。比如T1開始提交,因為T1只包含自身,我們將它放到隊列中時不需要回滾。T2 提交時,T2和T1之間沒有序,但T1和T3之間以及T2和T3之間都分別存在一個序,因為此時存在y數據項,所以只有T1、T3、T2 這樣的序才能保證可串列化,否則T必須進行回滾。

file

最後為保證協調器間能進行協調,我們還需要引入混合邏輯時鐘,來保證因果序。

file

實驗評價

我們以下圖中的實驗為例,來說明可串列化、嚴格可串列化和順序可串列化之間的關係。如果在區域網情況下,在正確性方面,嚴格可串列化跟可串列化性能基本一致。但在廣域網情況下,嚴格可串列化、順序可串列化和可串列化之間的性能差異較大,所以導致在廣域網上很難實現嚴格可串列化。

file

如圖所示,BDTA演算法比現有的演算法如MAT、SUNDIAL等快了將近 1.8 倍,主要原因是BDTA中保序,但如果用前面的方法實現併發控制,就會造成大量事務的回滾。

file

總結與討論

本文提出了提出了面向分散式資料庫的多級可串列化模型,將併發系統中的一致性要求結合到可串列化中,實現了多級可串列化原型系統,保證了去中心化的事務處理機制,並設計了雙向動態時間戳調整演算法(BDTA),可以在統一系統架構下支持多個可串列化級別。

該技術已應用於騰訊雲資料庫TDSQL中,確保TDSQL無任何數據異常,且具備高性能的可擴展性,解決了分散式資料庫在金融級場景應用的最核心技術挑戰,使得國產分散式資料庫實現在金融核心系統場景的可用。基於此,TDSQL是當前國內唯一進入國有大型銀行核心系統正式投產的國產分散式資料庫。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 今天看了段DNF視頻,有發現到血條變化效果是這樣的: 這裡為了突出Boss受到的傷害之大,也就是玩家的傷害之高,以至於Boss的血條變化會出現殘影效果。 那麼,就簡單使用協程來實現了一下這種效果: 實現思路也蠻簡單的:就是在Canvas下創建兩個Slider,分別是Slider和Slider01,先 ...
  • 一:背景 1.講故事 今天給大家帶來一個入門級的 CPU 爆高案例,前段時間有位朋友找到我,說他的程式間歇性的 CPU 爆高,不知道是啥情況,讓我幫忙看下,既然找到我,那就用 WinDbg 看一下。 二:WinDbg 分析 1. CPU 真的爆高嗎 其實我一直都在強調,要相信數據,口說無憑,一定要親 ...
  • 一、前言 本文章彙總c#中常見的鎖,基本都列出了該鎖在微軟官網的文章,一些不常用的鎖也可以參考微軟文章左側的列表,方便溫習回顧。 二、鎖的分類 2.1、用戶模式鎖 1、volatile 關鍵字 volatile 並沒有實現真正的線程同步,操作級別停留在變數級別並非原子級別,對於單系統處理器中,變數存 ...
  • 前言 拋開死鎖不談,只聊性能問題,儘管鎖總能粗暴的滿足同步需求,但一旦存在競爭關係,意味著一定會有線程被阻塞,競爭越激烈,被阻塞的線程越多,上下文切換次數越多,調度成本越大,顯然在高併發的場景下會損害性能。在高併發高性能且要求線程安全的述求下,無鎖構造(非阻塞構造)閃亮登場。 參考文檔: C# - ...
  • 在 Windows 環境下如果採用 IIS 作為 網站伺服器時,常規的網站綁定 HTTPS 需要一個一個站點手動選擇對應的證書綁定,而且證書過期之後更換證書時也是需要一個個重新綁定操作,無法便捷的做到像 Nginx 或者 Apache 等程式一樣,直接在配置文件中指定所需要使用的證書文件的路徑,像 ...
  • //源文件 void RccPhyConfig() { uint16_t retry = 0; RCC->APB1ENR|=1<<28; //電源介面時鐘使能 PWR->CR1|=3<<14; //高性能模式,時鐘可到 180Mhz PWR->CR1|=1<<16; //使能過驅動,頻率可到 216 ...
  • Babelfish是在PostgreSQL的基礎之上實現了類似Microsoft SQL Server部分功能。為了實現這個目標,PostgreSQL核心內部的幾個部分必須被修改。PostgreSQL 沒有提供這種開箱即用的功能,因此必須提供附加組件才能實現這一點。 Babelfish... ...
  • 摘要:數據加密作為有效防止未授權訪問和防護數據泄露的技術,在各種信息系統中廣泛使用。作為信息系統的核心,GaussDB(DWS)數倉也提供數據加密功能,包括透明加密和使用SQL函數加密。 本文分享自華為雲社區《看GaussDB(DWS)如何使用SQL加密函數實現數據列加解密》,作者:Hello EI ...
一周排行
    -Advertisement-
    Play Games
  • 一個自定義WPF窗體的解決方案,借鑒了呂毅老師的WPF製作高性能的透明背景的異形視窗一文,併在此基礎上增加了滑鼠穿透的功能。可以使得透明窗體的滑鼠事件穿透到下層,在下層窗體中響應。 ...
  • 在C#中使用RabbitMQ做個簡單的發送郵件小項目 前言 好久沒有做項目了,這次做一個發送郵件的小項目。發郵件是一個比較耗時的操作,之前在我的個人博客裡面回覆評論和友鏈申請是會通過發送郵件來通知對方的,不過當時只是簡單的進行了非同步操作。 那麼這次來使用RabbitMQ去統一發送郵件,我的想法是通過 ...
  • 當你使用Edge等瀏覽器或系統軟體播放媒體時,Windows控制中心就會出現相應的媒體信息以及控制播放的功能,如圖。 SMTC (SystemMediaTransportControls) 是一個Windows App SDK (舊為UWP) 中提供的一個API,用於與系統媒體交互。接入SMTC的好 ...
  • 最近在微軟商店,官方上架了新款Win11風格的WPF版UI框架【WPF Gallery Preview 1.0.0.0】,這款應用引入了前沿的Fluent Design UI設計,為用戶帶來全新的視覺體驗。 ...
  • 1.簡單使用實例 1.1 添加log4net.dll的引用。 在NuGet程式包中搜索log4net並添加,此次我所用版本為2.0.17。如下圖: 1.2 添加配置文件 右鍵項目,添加新建項,搜索選擇應用程式配置文件,命名為log4net.config,步驟如下圖: 1.2.1 log4net.co ...
  • 之前也分享過 Swashbuckle.AspNetCore 的使用,不過版本比較老了,本次演示用的示例版本為 .net core 8.0,從安裝使用開始,到根據命名空間分組顯示,十分的有用 ...
  • 在 Visual Studio 中,至少可以創建三種不同類型的類庫: 類庫(.NET Framework) 類庫(.NET 標準) 類庫 (.NET Core) 雖然第一種是我們多年來一直在使用的,但一直感到困惑的一個主要問題是何時使用 .NET Standard 和 .NET Core 類庫類型。 ...
  • WPF的按鈕提供了Template模板,可以通過修改Template模板中的內容對按鈕的樣式進行自定義。結合資源字典,可以將自定義資源在xaml視窗、自定義控制項或者整個App當中調用 ...
  • 實現了一個支持長短按得按鈕組件,單擊可以觸發Click事件,長按可以觸發LongPressed事件,長按鬆開時觸發LongClick事件。還可以和自定義外觀相結合,實現自定義的按鈕外形。 ...
  • 一、WTM是什麼 WalkingTec.Mvvm框架(簡稱WTM)最早開發與2013年,基於Asp.net MVC3 和 最早的Entity Framework, 當初主要是為瞭解決公司內部開發效率低,代碼風格不統一的問題。2017年9月,將代碼移植到了.Net Core上,併進行了深度優化和重構, ...