開源共建 | TIS整合數據同步工具ChunJun,攜手完善開源生態

来源:https://www.cnblogs.com/DTinsight/archive/2022/11/30/16937821.html
-Advertisement-
Play Games

TIS整合ChunJun實操 B站視頻: https://www.bilibili.com/video/BV1QM411z7w5/?spm_id_from=333.999.0.0 一、ChunJun 概述 ChunJun是一款易用、穩定、高效的批流統一的數據集成框架,可基於實時計算引擎Flink實現 ...


TIS整合ChunJun實操

B站視頻:

https://www.bilibili.com/video/BV1QM411z7w5/?spm_id_from=333.999.0.0

一、ChunJun 概述

ChunJun是一款易用、穩定、高效的批流統一的數據集成框架,可基於實時計算引擎Flink實現多種異構數據源之間的數據同步與計算,既可以採集靜態的數據,比如MySQL,HDFS等,也可以採集實時變化的數據,比如Binlog,Kafka等。

目前的核心功能包括:

· 多源異構數據匯聚

作為一個開放式系統,用戶可以根據需要開發新的插件,接入新的資料庫類型,也可以使用內置的資料庫插件。目前相容30+異構數據源的數據讀寫與SQL計算。

· 斷點續傳

針對網路波動等異常情況,導致數據同步失敗的任務,在下一次任務時自動從上一次失敗的數據點進行數據同步,避免全部重跑。

· 數據還原

除了DML操作以外,一些源端資料庫的DDL操作也能做到同步,最大程度保證源端資料庫和目標端資料庫的數據統一和結構統一,做到數據還原。

· 臟數據管理

數據傳輸過程中,因數據質量或主鍵約束等其他因素導致數據無法同步到目標資料庫,針對這些臟數據進行統計和管理,便於後續進行臟數據分析。

· 速率控制

數據同步過程中,數據傳輸效率是關鍵。ChunJun針對各種場景,有的放矢地控制速率,最大程度保證數據同步的正常進行。

更多詳見:

Github:https://github.com/DTStack/chunjun

Gitee:https://gitee.com/dtstack_dev_0/chunjun

官網:https://dtstack.github.io/chunjun/

ChunJun架構:

file

二、TIS 概述

TIS最早是基於Solr為用戶提供一站式開箱即用、自助服務的搜索引擎中台產品。在2020年之前,當Flink和MPP引擎還沒有形成影響力時 ,TIS就已經在為互聯網企業內部提供實時OLAP分析需求的服務。

為滿足大數據業務需求,快速將工具棧進行整合。TIS從2019年底開始轉型,開始全方位支持現有實時數倉中台,從原先與搜索引擎強耦合的技術架構進行重構。從只處理搜索引擎一個場景,相容到所有數據端的大數據生態場景。

經過TIS開發者的努力,現在的TIS內部有一套強大的元數據管理系統,根據用戶需求大部分的工作腳本可自動生成(TIS是基於模型的DataOps,區別於市面上其他基於腳本任務的DevOps系統,摒棄掉所有繁瑣的腳本操作),等到任務所需資源準備好,用戶輕點數據系統就開始運行。

另外更為關鍵的是,TIS能夠將專業大數據技術人員和大數據分析師這兩種角色解耦。一個實時數倉中台,使用它的人並不需要瞭解裡面的技術細節,並不需要知道Flink、Hive、Hadoop的技術細節,只要知道他們是乾什麼的就行。基於以上,TIS改造之初並沒有針對實時數倉進行編碼,而是花了將近一年時間對TIS產品底座進行構建,著重進行了以下幾方面的構建:

插件倉庫/熱生效機制

現有行業中提供的工具棧,需要在後臺系統中自行部署,TIS則簡化了這一流程,TIS在構建項目之時會統一將第三方的依賴包進行打包,預先部署到遠端倉庫中,用戶在TIS中可以查看到可用插件清單。在使用時,只需滑鼠點擊下載且熱生效就可使用,操作體驗流暢。

file

全流程建模

針對ETL的各流程進行建模,將可變因素進行抽象,抽取成一個TIS系統中的擴展點,統一歸檔到TIS的主工程中,在主工程中沒有任何具體業務代碼的實現,這樣在進行具體業務邏輯實現中就不需要更改任何主工程的代碼,在架構層面最大限度地貫徹了OCP原則。

例如以下是對ETL中,針對結構化(支持JDBC介面)和非結構化數據源的執行流程圖:

file

構建UI-DSL系統

隨著整合進TIS的功能組件越來越多,需要單獨開發的UI工作量巨大且風格難以統一,大量重新代碼維護困難,同時由於行業分工精細化,流程需要前後端工程師相互協作,導致開發效率低,如何讓沒有前端開發經驗的後端開發工程師,能夠獨立且暢快地完成一個UI組件的開發,成為一個重要的課題。為解決這個問題,TIS在底座中實現了一個UI-DSL的系統,後端開發工程師使用JAVA語言編寫一個表單對應的MetaData腳本,裡面定義表單的佈局,輸入項的校驗等信息,運行期會自動將MetaData腳本渲染成前端的表單,從而完美解決這個課題。

file
如上,是TIS中定義的MySQL數據源插件,只需要在對應POJO上為對應的屬性添加FormFieldAnnotation標識,在配上欄位對應的預設值、label等信息描述文件:

 @FormField(ordinal = 3, // 表單中的排位順序 
    type = FormFieldType.INPUTTEXT // 表單中控制項類型
   , validate = {Validator.require, Validator.identity}) // 輸入項的校驗規則
	public String dbName;

DataSourceFactory.json

 { "dbName": {
 "label": "資料庫名",
 "help": "資料庫名,創建JDBC實例時用"
	 }}

三、整合 ChunJun 完善 TIS 生態

經過幾個月時間的研發,TIS V3.6.0-alpha版本終於發佈了。該版本的最大亮點,即整合了大數據領域數據同步工具的翹楚ChunJun,將TIS的業務能力提升到了新高度。

TIS的最新版本:

https://github.com/qlangtech/tis/releases/tag/v3.6.0-alpha

早在 V3.6.0-alpha之前,TIS已經整合了Alibaba DataX和 Flink-CDC。離線批量同步利用DataX組件實現,而在實時數據變更Source組件方面,TIS是基於Flink-CDC來實現的。至於Sink部分,則一直是基於各種數據端提供的生態API包經過二次開發完成的。

其中存在的問題是,開發周期長,調試困難,例如,僅僅為了實現StarRocks一個Sink端實現一個基於StreamFunction的Sink實現,連開髮帶測試花去了整整三個星期的時間。

直到整合ChunJun之後才解決了這些問題。ChunJun已經很好地支持了大數據領域的大部分數據端,包括Source和Sink。它的Source端基於Polling輪詢機制來實現,相較與Flink CDC實現的Source端是有自己的特色的。

例如,並不是所有的端都支持類似MySQL binlog這樣的實時同步機制,即使支持類似Oracle的LogMiner,如需開啟,也需要專業Oracle DBA協助,不然設置許可權就會嚇退很多用戶。而基於Polling機制的實時更新訂閱卻可以支持所有的Source端,只要實現了JDBC介面就行。

所以ChunJun的Source端通用性非常好,比之於Flink CDC的唯一劣勢是實時性要低,不過一般在大部份OLAP的場景下用戶對實時性的要求並沒有那麼高,所以一般情況下推薦使用ChunJun的Source來監聽實時數據變更。

另外,ChunJun的Sink端實現也是一大特色,一般情況下數據端的生態產品中會提供Flink Sink的實現,例如:ElasticSearch的Flink官網提供了一個基於SinkFunction的實現,StarRocks在官網也提供了Sink實現。但是各家實現方式各不相同,沒有一個統一的抽象模型。另外各廠商提供的實現中基本上只是一些半成品,像容災、監控等都沒有提供,導致TIS在整合各家Sink端時著實花了不少精力且很難做得完美。

因此在 TIS v3.6.0 中利用 ChunJun v1.12.5 全面改寫了TIS原有的Sink端實現,由於ChunJun實現是一個封裝好並且已經在生產環境中經過檢驗的,並且在實現方式上已經通過統一建模,每種端的接入方式可以統一,對TIS來說大大提高了整合開發效率,而且將容災、監控、臟數據管理也一併實現。

ChunJun支持的Connector端非常豐富,TIS v3.6.0 中只是揀取了幾個用戶高頻使用的端來封裝,其他端的封裝會在後續版本中逐步實現。以下是 v3.6.0版本中實現的端類型:

file

四、TIS 是如何整合 ChunJun

利用 TIS元數據管理系統接管 ChunJun流數據類型控制

ChunJun 流處理中構建的RowData實例是通過目標端Jdbc MetaData自動生成的(用戶不需要在JSON配置文件中設置),內部需要通過目標端(Source/Sink)欄位JDBC中的元數據信息的fieldType作為參數來映射 flink的DataType實例,調用的介面是com.dtstack.chunjun.converter.RawTypeConverter,

public interface RawTypeConverter {   
 DataType apply(String type);
 }

在實際處理過程中發現,僅僅利用 JDBC col metaDatafieldType作為參數還是不夠, 例如:MySQL的表定義為bigint,int,smallint的整型,當用戶添加unsigned修飾,bigint在Flink中的映射類型需要從BigIntType變成DataTypes.DECIMAL,原smallint類型需要變成IntType,不然執行就會出錯。另外像 Oracle的Jdbc內部實現了一套區別於Jdbc標準的類型規範oracle.jdbc.OracleTypes,當得到Oracle的類型之後需要歸一化成Jdbc的類型java.sql.Types,不然沒法正常執行。

類型映射雖然很簡單,但由於Java是強類型語言,在流處理執行過程中稍有不慎就會出現ClassCastException,所以得格外小心地處理,因此TIS在ChunJun中引入了一個新的類型抽象com.qlangtech.tis.plugin.ds.ColMeta來封裝Jdbc MetaData的列信息,在具體執行過程中可以更加細膩地控制Flink 內部的列類型。

 public interface RawTypeConverter {   
   DataType apply(ColMeta type);
	 }
 
	public class ColMeta implements Serializable {
public final String name;
public final DataType type;
public final boolean pk;

public ColMeta(String name, DataType type, boolean pk) {
    this.name = name;
    this.type = type;
    this.pk = pk;
}
//...
}

public class DataType implements Serializable { 
public final int type;
public final int columnSize;
public final String typeName;
// decimal 的小數位長度
private Integer decimalDigits;

public DataType(int type, String typeName, int columnSize) {
    this.type = type;
    this.columnSize = columnSize;
    this.typeName = typeName;
}
/**
 * is UNSIGNED
 */
public boolean isUnsigned() {
  //...  
} 
 }

取代基於JSON配置驅動的任務變為基於元數據模型驅動任務

有了TIS底層元數據關係管理的支持,數據同步任務定義的大部分工作可以自動生成,用戶只需要做一些輔助工作,例如,用戶需要導入一個張表,表有10列,用戶需要做的是輔助確認:對於Source端確認表主鍵,Polling策略的輪詢間隔時間及輪詢列名,對於Sink端選取Insert的插入策略,這些都只需要點擊滑鼠就能完成,頁面UI中的顯示邏輯和ChunJun的規則相一致。

file
file

為ChunJun添加新的TIS擴展點

想要在 v3.6.0 版本順利地將ChunJun Connector整合進TIS,需要添加兩個功能擴展點,一是為增量Source端表的屬性設置com.qlangtech.tis.plugins.incr.flink.chunjun.source.SelectedTabPropsExtends,二是為Sink端表的屬性設置com.qlangtech.tis.plugins.incr.flink.chunjun.sink.SinkTabPropsExtends

file

五、開源共建,繁榮生態

TIS的構建理念是堅決避免重覆造輪子,必須站在行業的巨人的肩膀上,做大數據行業中優秀工具棧的粘合劑。TIS V3.6.0alpha 有幸能按時發佈,得益於行業中有像ChunJun、DataX、Flink-CDC、Flink這樣優秀的開源項目存在 ,使得TIS整體可靠性得到保障。特別要感謝Apache Flink,提供了一個強大的實時計算生態,Flink CDC、ChunJun和TIS都是生長在這個生態中的茁壯成長的小樹苗,每個項目都專註於自己擅長的領域,且相互補充。

臨近發佈,發現一個很有意思的使用場景,那就是用戶可以選擇基於Flink-CDC的MySQL Source插件來監聽MySQL 表的增量變更,將數據同步到以 ChunJun 構建的 Sink中去,這樣的混搭使用方式給用戶帶來了更多的選擇自由度,也避免了在Flink-CDC和ChunJun各自的框架內部重覆造輪子從而造成生態內捲。

六、擁抱CloudNative

雲原生(CloudNative)時代的到來為我們描繪了一副美好的畫捲,對於終端用戶來說提供了低成本、可靠的IT基礎服務,可以專註於業務開發,這非常好。

但對於互聯網技術從業者來說,似乎有隱憂,那就是互聯網紅利將會被阿裡雲這樣的雲廠商通吃,小廠商只有乾瞪眼的份,那我們煞費苦心構建的像TIS這樣的開源項目在雲時代還有用武之地嗎?其實這樣的擔心是多餘的。

一個健康的生態,必須要保證生物多樣性,生態中各個物種並不是獨立,他們之間存在相互依存的關係。同樣在大數據生態中如果只有像阿裡雲、亞馬遜這樣互聯網大廠活得很滋潤,並且構成了一個人才黑洞,把其他小廠的資源全部吸幹了,想必這樣的生態也不可能長遠。

從本質來說,促成任何個人或組織之間的合作都有一個前提,那就是存在比較優勢,就如同瞎子背瘸子相互協助前行,國家之間的合作也是,中國具有廉價勞動力和廣闊的市場與發達國家的技術優勢進行互補,這種合作是可持續的。

雲大廠可以把昂貴的互聯網基礎設置,用集約化採購的規模優勢大大地降低成本,然後用技術手段將這些設備雲化成IAAS服務提供給客戶,小廠技術具有靈活高效與較低的技術人員薪資成本優勢,以這種優勢在IAAS之上構建PAAS服務,類似任務調度,實時數倉非常合適。國外也已經有成功的案例,比如Snowflake提供的雲原生實時數倉和亞馬遜等雲廠商之間的合作,有同學肯定會問:"為啥亞馬遜不能自己搞一個像snowflake呢?",其實答案前面已經提到。

想瞭解或咨詢更多有關袋鼠雲大數據產品、行業解決方案、客戶案例的朋友,瀏覽袋鼠雲官網:https://www.dtstack.com/?src=szbky

添加【小袋鼠:dtstack001】入qun,免費獲取大數據&開源乾貨

同時,歡迎對大數據開源項目有興趣的同學加入「袋鼠雲開源框架釘釘技術qun」,交流最新開源技術信息,qun號碼:30537511,項目地址:https://github.com/DTStack


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1、環境搭建 1.1 依賴 <!-- nacos註冊中心 註解 @EnableDiscoveryClient --> <dependency> <groupId>com.alibaba.cloud</groupId> <artifactId>spring-cloud-starter-alibaba- ...
  • 經常看到有群友調侃“為什麼搞Java的總在學習JVM調優?那是因為Java爛!我們.NET就不需要搞這些!”真的是這樣嗎?今天我就用一個案例來分析一下。 昨天,一位學生問了我一個問題:他建了一個預設的ASP.NET Core Web API的項目,也就是那個WeatherForecast的預設項目模 ...
  • 用acme.sh自動部署功能變數名稱證書 安裝ACME 目前使用量最大的免費SSL證書就是Let’s Encrypt,自2018-03開始,Let’s Encrypt官方發佈上線了免費的SSL泛功能變數名稱證書,目前通過DNS方式獲取比較快,國內可以通過鵝雲的DNSPod功能變數名稱API或者貓雲功能變數名稱API自動簽發Let’ ...
  • public static void GetRegistData() { string name = "huishuangzhu"; //搜索到註冊表根目錄 RegistryKey hkml = Registry.ClassesRoot; //搜索到註冊表根目錄下的XXX文件夾。 RegistryK ...
  • Linux下用rm誤刪除文件的三種恢復方法 對於rm,很多人都有慘痛的教訓。我也遇到一次,一下午寫的程式就被rm掉了,幸好只是一個文件,第二天很快又重新寫了一遍。但是很多人可能就不像我這麼幸運了。本文收集了一些在Linux下恢復rm刪除的文件的方法,給大家作為參考。 1.幾點建議避免誤刪 首先,最好 ...
  • 大數據時代,資料庫 SaaS 是企業實現降本增效和業務創新的重要抓手。在騰訊全球數字生態大會資料庫 SaaS 專場上,騰訊雲發佈了多項資料庫 SaaS 產品能力升級,並重點分享了其在上雲、日常運維、資料庫遷移等多方面的實踐應用,為廣大企業構建和提升自身數據能力提供了有效參考。 騰訊雲資料庫副總經理羅 ...
  • 大量的數據科學職位需要精通 SQL,它也是數據分析師、數據科學家、數據建模崗最常考核的面試技能。在本篇內容中 ShowMeAI 將梳理彙總所有面試 SQL 問題,按照不同的主題構建練習專項塊。 ...
  • 閱識風雲是華為雲信息大咖,擅長將複雜信息多元化呈現,其出品的一張圖(雲圖說)、深入淺出的博文(雲小課)或短視頻(雲視廳)總有一款能讓您快速上手華為雲。更多精彩內容請單擊此處。 摘要:購買Redis實例時,實例類型有單機、主備、Proxy集群、Cluster集群和讀寫分離這麼多種,該怎麼選?別擔心,本 ...
一周排行
    -Advertisement-
    Play Games
  • 概述:在C#中,++i和i++都是自增運算符,其中++i先增加值再返回,而i++先返回值再增加。應用場景根據需求選擇,首碼適合先增後用,尾碼適合先用後增。詳細示例提供清晰的代碼演示這兩者的操作時機和實際應用。 在C#中,++i 和 i++ 都是自增運算符,但它們在操作上有細微的差異,主要體現在操作的 ...
  • 上次發佈了:Taurus.MVC 性能壓力測試(ap 壓測 和 linux 下wrk 壓測):.NET Core 版本,今天計劃準備壓測一下 .NET 版本,來測試並記錄一下 Taurus.MVC 框架在 .NET 版本的性能,以便後續持續優化改進。 為了方便對比,本文章的電腦環境和測試思路,儘量和... ...
  • .NET WebAPI作為一種構建RESTful服務的強大工具,為開發者提供了便捷的方式來定義、處理HTTP請求並返迴響應。在設計API介面時,正確地接收和解析客戶端發送的數據至關重要。.NET WebAPI提供了一系列特性,如[FromRoute]、[FromQuery]和[FromBody],用 ...
  • 原因:我之所以想做這個項目,是因為在之前查找關於C#/WPF相關資料時,我發現講解圖像濾鏡的資源非常稀缺。此外,我註意到許多現有的開源庫主要基於CPU進行圖像渲染。這種方式在處理大量圖像時,會導致CPU的渲染負擔過重。因此,我將在下文中介紹如何通過GPU渲染來有效實現圖像的各種濾鏡效果。 生成的效果 ...
  • 引言 上一章我們介紹了在xUnit單元測試中用xUnit.DependencyInject來使用依賴註入,上一章我們的Sample.Repository倉儲層有一個批量註入的介面沒有做單元測試,今天用這個示例來演示一下如何用Bogus創建模擬數據 ,和 EFCore 的種子數據生成 Bogus 的優 ...
  • 一、前言 在自己的項目中,涉及到實時心率曲線的繪製,項目上的曲線繪製,一般很難找到能直接用的第三方庫,而且有些還是定製化的功能,所以還是自己繪製比較方便。很多人一聽到自己畫就害怕,感覺很難,今天就分享一個完整的實時心率數據繪製心率曲線圖的例子;之前的博客也分享給DrawingVisual繪製曲線的方 ...
  • 如果你在自定義的 Main 方法中直接使用 App 類並啟動應用程式,但發現 App.xaml 中定義的資源沒有被正確載入,那麼問題可能在於如何正確配置 App.xaml 與你的 App 類的交互。 確保 App.xaml 文件中的 x:Class 屬性正確指向你的 App 類。這樣,當你創建 Ap ...
  • 一:背景 1. 講故事 上個月有個朋友在微信上找到我,說他們的軟體在客戶那邊隔幾天就要崩潰一次,一直都沒有找到原因,讓我幫忙看下怎麼回事,確實工控類的軟體環境複雜難搞,朋友手上有一個崩潰的dump,剛好丟給我來分析一下。 二:WinDbg分析 1. 程式為什麼會崩潰 windbg 有一個厲害之處在於 ...
  • 前言 .NET生態中有許多依賴註入容器。在大多數情況下,微軟提供的內置容器在易用性和性能方面都非常優秀。外加ASP.NET Core預設使用內置容器,使用很方便。 但是筆者在使用中一直有一個頭疼的問題:服務工廠無法提供請求的服務類型相關的信息。這在一般情況下並沒有影響,但是內置容器支持註冊開放泛型服 ...
  • 一、前言 在項目開發過程中,DataGrid是經常使用到的一個數據展示控制項,而通常表格的最後一列是作為操作列存在,比如會有編輯、刪除等功能按鈕。但WPF的原始DataGrid中,預設只支持固定左側列,這跟大家習慣性操作列放最後不符,今天就來介紹一種簡單的方式實現固定右側列。(這裡的實現方式參考的大佬 ...