flink 一分鐘入門篇

来源:https://www.cnblogs.com/socoool/archive/2020/04/04/12629784.html
-Advertisement-
Play Games

1. 業務說:“…… bulabula……,這個需求很簡單,怎麼實現我不管?” 面對霸氣側漏的業務需求,由於沒有大數據知識儲備,咱心裡沒底,咱也不敢問,咱也不敢說,只能靜下來默默儲備、默默尋覓解決方案。 關註“一猿小講”公眾號的小伙伴們,今天有福啦,因為今天我們將一起跳出系統之外,共同邁入大數據之 ...


 

1. 

 

業務說:“…… bulabula……,這個需求很簡單,怎麼實現我不管?”

 

面對霸氣側漏的業務需求,由於沒有大數據知識儲備,咱心裡沒底,咱也不敢問,咱也不敢說,只能靜下來默默儲備、默默尋覓解決方案。

 

關註“一猿小講”公眾號的小伙伴們,今天有福啦,因為今天我們將一起跳出系統之外,共同邁入大數據之 flink 的大門。

 

flink 是啥?flink 幹啥用的?……

 

我相信,你心中肯定有類似千萬種這樣疑問,但是你花兩分鐘堅持讀到最後,我想想能撲滅你心中的疑問的 99.99%。

 

好了,請準備好小板凳,我們的故事開始。

 

2. 

 

上來理論先不談,一言不合就實踐。環顧了一下四周,90% 的同事都用 Mac 本,本次演示也是基於 Mac 系統。

 

磨刀不誤砍柴工,準備環境。確保本機安裝了JDK,因為 flink 編譯和運行要求 Java 版本至少是 JDK 1.8,來輸入命令檢查一下

java -version

640?wx_fmt=jpeg

 

如果沒有安裝 JDK 1.8,請按照內心的指引安裝一下。我相信這步過了之後,後面將會順風順水,大鵬一日同風起,扶搖直上九萬里(捂嘴笑)。

 

版本千千萬,總有一款你喜歡。這裡我們選擇最新版本 1.8.1 進行入門學習,不要問為什麼,就因為王八看綠豆,看對眼了。

http://mirrors.tuna.tsinghua.edu.cn/apache/flink/flink-1.8.1/flink-1.8.1-bin-scala_2.12.tgz

選好版本下載完,來個全局看一看。其中 bin 為啟動停止腳本,conf 為配置文件目錄,examples 為小樣例,lib 所依賴的類庫,log 為日誌目錄。

640?wx_fmt=jpeg

本次我們重點關註bin、examples、log 三個目錄。

 

一切準備就緒,小試牛刀。單機方式運行 flink,在 flink 的主目錄下,輸入命令鬧鈴響起,呼喚 flink 要去工作啦。

./bin/start-cluster.sh

640?wx_fmt=png

 

縱然他人誇你千萬遍,讓我看看好看不好看。輸入 http://127.0.0.1:8081/ 一覽容顏。

640?wx_fmt=png

 

 

畫龍畫虎難畫骨,知人知面不知心。看完錶面,猜背後。深入瞭解又何妨?輸入 jps 命令一探究竟。

640?wx_fmt=png

 

哦,原來背後主要是兩個進程在默默的付出:一個是 JobManager 進程, 另一個是 TaskManager 進程。其實我最喜歡背後默默付出的人,給兩位默默付出的進程打 Call,點贊。

 

flink 已經從睡夢中蘇醒,並準備就緒,就等咱們下發任務啦。HelloWorld 跑跑看。

 

3. 

 

有界的數據處理(裝文藝書生了有沒有)。我這定義了一些 WORDS,麻煩 flink 你幫忙統計一下每個單詞出現的次數唄?

 

第一步:準備數據。數據來自 flink 自帶的 example 源碼,找個時間咱們從源碼上再深入聊一次。數據貼出來,目的就是為了讓大家看一下,要知道咱們要讓 flink 幹啥就行了,數據來源本次無需特別關註。

640?wx_fmt=png

 

第二步:提交 WordCount.jar 給 flink。不得不說 flink 毫秒級處理,還未等片刻,就給咱們反饋了。

輸入命令:

./bin/flink run examples/streaming/WordCount.jar

結果如下:

640?wx_fmt=png

 

第三步:打開頁面看一看 flink 留下的軌跡。

640?wx_fmt=png

 

640?wx_fmt=png

 

第四步:結果在哪裡?關註點在哪裡,結果就在哪裡。

640?wx_fmt=png

 

4. 

 

無界的數據處理(再次裝文藝書生有沒有)。我這定義了一個埠 9000,麻煩 flink 你連上我,這樣咱倆就可以秘密通訊了,我時不時會給你暗送秋波,但是你一定要每隔 5 秒統計一下,當前我給你說的每個詞出現的數量,因為詞詞珠璣(捂嘴笑)。

 

第一步:啟動本地服務。我們通過 netcat 命令來啟動本地服務,然後就可以不停的說出對 flink 的熱愛。

640?wx_fmt=png

 

如果報錯,根據報錯進行提示安裝 nc,我相信一猿小講的粉絲肯定秒秒鐘都能搞定。

 

第二步:提交 SocketWindowWordCount.jar 程式。其實 flink 早已按捺不住啦,儘管放馬過去吧。

 

打開新的視窗,鍵入如下命令:

./bin/flink run examples/streaming/SocketWindowWordCount.jar --port 9000

  

看一看 flink 羞澀的反應。

640?wx_fmt=png

 

第三步:看看效果,一睹芳容。

640?wx_fmt=png

 

第四步:千萬別矜持,說出你對 flink 的熱愛,來點真情看看 flink 的反應?

在 nc 打開的視窗寫一些文本,回車一行就發送一行輸入給Flink。

640?wx_fmt=png

 

不錯不錯,統計效果杠杠的。

640?wx_fmt=png

 

能否再浪漫一些,再多真情吐露一些。

640?wx_fmt=png

 

在控制台看看 flink 的嬌羞的樣子。新開一個視窗,執行

tail -f log/flink*.out

  

效果確實杠杠滴

640?wx_fmt=png

 

 

也可以在頁面一睹 flink 那羞澀的反應。

640?wx_fmt=png

 

第五步:真情吐露完成,退出 nc,flink 還有點不捨。

640?wx_fmt=png

 

視力不好,我們把上面的圖拆開放大了看。退出 nc 的效果如下。

640?wx_fmt=png

 

當我們斷開 nc 時,flink 的反應流露出有點不捨,效果如下。

640?wx_fmt=png

 

5.

好了,收工!到這兩個 flink 的 HelloWorld 都完事了,我們也一起入門了。flink 你釋放資源吧,你也休息一會兒吧。

輸入命令:

./bin/stop-cluster.sh

  

效果如下:

640?wx_fmt=png

 

6.

 

先實踐再理論,HelloWorld 實踐完,不妨拋倆概念玩一玩。

 

概念一:流?

 

註意,這裡說的可不是流氓的流。咱們想指的是信用卡交易、感測器測量、機器日誌、網站或移動應用程式上的用戶交互記錄,等等所有這些數據都形成的一種流。不過任何類型的數據,都可以形成一種事件流。

 

概念二:無界流 vs 有界流?

 

640?wx_fmt=png

無界流有定義流的開始,但沒有定義流的結束。它們會無休止地產生數據。無界流的數據必須持續處理,即數據被攝取後需要立刻處理。我們不能等到所有數據都到達再處理,因為輸入是無限的,在任何時候輸入都不會完成。處理無界數據通常要求以特定順序攝取事件,例如事件發生的順序,以便能夠推斷結果的完整性。

 

有界流有定義流的開始,也有定義流的結束。有界流可以在攝取所有數據後再進行計算。有界流所有數據可以被排序,所以並不需要有序攝取。有界流處理通常被稱為批處理。

 

概念三:那話說回來 flink 到底是啥東東?

 

Apache Flink 擅長處理無界和有界數據集。精確的時間控制和狀態化使得 Flink 的運行時(runtime)能夠運行任何處理無界流的應用。有界流則由一些專為固定大小數據集特殊設計的演算法和數據結構進行內部處理,產生了出色的性能。

 

概念四:流式技術哪家強?

640?wx_fmt=png

 

從網上邂逅到這張圖(若侵、速刪),並摘了個結論:如圖中藍色柱形為單線程 Storm 作業的吞吐,橙色柱形為單線程 Flink 作業的吞吐,可以看出,Flink 吞吐約為 Storm 的 3-5 倍。至於 Flink vs Spark 的事情就交給你去問度娘或者谷哥吧,搜之會一大堆。

 

7.

好了,今天的分享就帶你成功邁入大數據之 flink 的大門,希望對你有收穫。

最後,還是那句話:跳出舒適區、持續不斷的學習;跳出系統之外,會別有一番滋味涌上心頭

 

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 有時候,我們在使用 Linux 系統時,會出現下麵這樣的情景: 1. 一個命令或程式需要很長時間才能運行完畢,在這過程中,系統可能會假死,我們做任何操作都沒用,只好重啟系統; 2. 我們僅僅想讓命令或程式運行指定的時間,到了時間點就讓命令/程式中止; 3. Log 刷新很快,但我們只需要 10 秒鐘 ...
  • 一 CSI存儲機制 1.1 CSI簡介 Kubernetes從1.9版本開始引入容器存儲介面Container Storage Interface(CSI)機制,用於在Kubernetes和外部存儲系統之間建立一套標準的存儲管理介面,通過該介面為容器提供存儲服務。 1.2 CSI的設計背景 Kube ...
  • 一 StoragClass 1.1 StorageClass概述 StorageClass作為對存儲資源的抽象定義,對用戶設置的PVC申請屏蔽後端存儲的細節,一方面減少了用戶對於存儲資源細節的關註,另一方面減輕了管理員手工管理PV的工作,由系統自動完成PV的創建和綁定,實現了動態的資源供應。 基於S ...
  • Cannot connect to the Docker daemon. Is the docker daemon running on this host? 原因: 沒有啟動docker服務 service docker start 效果: docker stop showdoc # 停止容器 d ...
  • 在目錄下創建新文件時出現 ,原因是用戶許可權不足。 解決方法是給用戶添加修改許可權,在根目錄執行以下命令: Linux/Unix 的文件調用許可權分為三級 : 文件擁有者、群組、其他。利用 chmod 可以藉以控制文件如何被他人所調用。 語法為: R : 對目前目錄下的所有文件與子目錄進行相同的許可權變更( ...
  • MySQL是一個開放源碼的小型關聯式資料庫管理系統,開發者為瑞典MySQL AB公司, 目前屬於Oracle公司,MySQL被廣泛地應用在Internet上的中小型網站中。由於其體積小、速度快、總體擁有成本低,尤其是開放源碼這一特點,許多中小型網站為了降低網站總體擁有成本而選擇了MySQL作為網站數 ...
  • 1、 Linux操作系統簡介 Linux具有如下優點: 穩定、免費或者花費少 安全性高 多任務,多用戶 耗資源少 由於內核小,所以它可以支持多種電子產品,如:Android手機、PDA等。 2、 Linux發展趨勢 隨著IT產業的不斷發展,用戶對網站體驗要求也越來越高,目前主流網站後端承載系統都是L ...
  • https://www.cnblogs.com/wt7018/p/11929359.html MongoDB聚合(aggregate) 一、基礎 1、什麼是聚合? 聚合是基於數據處理的聚合管道,每個文檔通過一個有多個階段(stage)組成的管道可以對每個階段的管道進行分組、過濾等功能,然後經過一系列 ...
一周排行
    -Advertisement-
    Play Games
  • GoF之工廠模式 @目錄GoF之工廠模式每博一文案1. 簡單說明“23種設計模式”1.2 介紹工廠模式的三種形態1.3 簡單工廠模式(靜態工廠模式)1.3.1 簡單工廠模式的優缺點:1.4 工廠方法模式1.4.1 工廠方法模式的優缺點:1.5 抽象工廠模式1.6 抽象工廠模式的優缺點:2. 總結:3 ...
  • 新改進提供的Taurus Rpc 功能,可以簡化微服務間的調用,同時可以不用再手動輸出模塊名稱,或調用路徑,包括負載均衡,這一切,由框架實現並提供了。新的Taurus Rpc 功能,將使得服務間的調用,更加輕鬆、簡約、高效。 ...
  • 本章將和大家分享ES的數據同步方案和ES集群相關知識。廢話不多說,下麵我們直接進入主題。 一、ES數據同步 1、數據同步問題 Elasticsearch中的酒店數據來自於mysql資料庫,因此mysql數據發生改變時,Elasticsearch也必須跟著改變,這個就是Elasticsearch與my ...
  • 引言 在我們之前的文章中介紹過使用Bogus生成模擬測試數據,今天來講解一下功能更加強大自動生成測試數據的工具的庫"AutoFixture"。 什麼是AutoFixture? AutoFixture 是一個針對 .NET 的開源庫,旨在最大程度地減少單元測試中的“安排(Arrange)”階段,以提高 ...
  • 經過前面幾個部分學習,相信學過的同學已經能夠掌握 .NET Emit 這種中間語言,並能使得它來編寫一些應用,以提高程式的性能。隨著 IL 指令篇的結束,本系列也已經接近尾聲,在這接近結束的最後,會提供幾個可供直接使用的示例,以供大伙分析或使用在項目中。 ...
  • 當從不同來源導入Excel數據時,可能存在重覆的記錄。為了確保數據的準確性,通常需要刪除這些重覆的行。手動查找並刪除可能會非常耗費時間,而通過編程腳本則可以實現在短時間內處理大量數據。本文將提供一個使用C# 快速查找並刪除Excel重覆項的免費解決方案。 以下是實現步驟: 1. 首先安裝免費.NET ...
  • C++ 異常處理 C++ 異常處理機制允許程式在運行時處理錯誤或意外情況。它提供了捕獲和處理錯誤的一種結構化方式,使程式更加健壯和可靠。 異常處理的基本概念: 異常: 程式在運行時發生的錯誤或意外情況。 拋出異常: 使用 throw 關鍵字將異常傳遞給調用堆棧。 捕獲異常: 使用 try-catch ...
  • 優秀且經驗豐富的Java開發人員的特征之一是對API的廣泛瞭解,包括JDK和第三方庫。 我花了很多時間來學習API,尤其是在閱讀了Effective Java 3rd Edition之後 ,Joshua Bloch建議在Java 3rd Edition中使用現有的API進行開發,而不是為常見的東西編 ...
  • 框架 · 使用laravel框架,原因:tp的框架路由和orm沒有laravel好用 · 使用強制路由,方便介面多時,分多版本,分文件夾等操作 介面 · 介面開發註意欄位類型,欄位是int,查詢成功失敗都要返回int(對接java等強類型語言方便) · 查詢介面用GET、其他用POST 代碼 · 所 ...
  • 正文 下午找企業的人去鎮上做貸後。 車上聽同事跟那個司機對罵,火星子都快出來了。司機跟那同事更熟一些,連我在內一共就三個人,同事那一手指桑罵槐給我都聽愣了。司機也是老社會人了,馬上聽出來了,為那個無辜的企業經辦人辯護,實際上是為自己辯護。 “這個事情你不能怪企業。”“但他們總不能讓銀行的人全權負責, ...